CIDE (2009) Bloechle : Différence entre versions

De CIDE
imported>Ziwei Hu
(Format canonique et restructuration physique)
imported>Ziwei Hu
(OCD, un formalisme XML optimisé pour le contenu physique)
Ligne 79 : Ligne 79 :
 
Tableau 1 : résultats de l'extraction de la structure physique sur trois documents.
 
Tableau 1 : résultats de l'extraction de la structure physique sur trois documents.
  
=='''OCD, un formalisme XML optimisé pour le contenu physique'''==
+
=='''4 OCD, un formalisme XML optimisé pour le contenu physique'''==
  
 
Le stockage permanent d'un document canonique au format OCD (Optimized Canonical Document) [16]{{CIDE lien citation|Bloechle, J.-L., Lalanne, D. and Ingold, R. OCD, 2009}} permet à la fois de représenter la structure physique et de garantir la reproduction fidèle de ce document.  Le format OCD est une description XML compacte et simple permettant le stockage permanent d'un document au format canonique sur un support physique. Son but n'est pas de concurrencer un quelconque autre format, mais bien de conserver un document structuré tout en préservant son aspect visuel d'origine, et cela d'une manière simple et synthétique. L'accès aux informations d'un tel format doit être facilité au maximum.
 
Le stockage permanent d'un document canonique au format OCD (Optimized Canonical Document) [16]{{CIDE lien citation|Bloechle, J.-L., Lalanne, D. and Ingold, R. OCD, 2009}} permet à la fois de représenter la structure physique et de garantir la reproduction fidèle de ce document.  Le format OCD est une description XML compacte et simple permettant le stockage permanent d'un document au format canonique sur un support physique. Son but n'est pas de concurrencer un quelconque autre format, mais bien de conserver un document structuré tout en préservant son aspect visuel d'origine, et cela d'une manière simple et synthétique. L'accès aux informations d'un tel format doit être facilité au maximum.
Ligne 90 : Ligne 90 :
  
 
Tableau 2 : évaluation du format OCD par rapport à PDF, XPS, et XCD.
 
Tableau 2 : évaluation du format OCD par rapport à PDF, XPS, et XCD.
 
  
 
=='''Dolores : un outil interactif pour la restructuration logique'''==
 
=='''Dolores : un outil interactif pour la restructuration logique'''==

Version du 5 décembre 2016 à 17:42

Restructuration physique et logique de documents électroniques textuels


 
 

 
titre
Restructuration physique et logique de documents électroniques textuels
auteurs
Jean-Luc Bloechle et Rolf Ingold.
Affiliations
Département d’Informatique, Université de Fribourg, Suisse.
In
CIDE.12 (Montréal), 2009
En PDF 
CIDE (2009) Bloechle.pdf
Mots-clés 
PDF, OCD, XML, structure physique, structure logique, modèle de documen.
Keywords
PDF, OCD, XML, physical structure, logical structure, document model.
Résumé
La reconstruction des structures physiques et logiques de documents électroniques reste une problématique ouverte. Cet article présente une approche flexible et efficace permettant de régénérer de telles structures à partir de documents PDF. Une brève introduction présente tout d'abord le format PDF, ses atouts ainsi que ses défauts. Les principaux travaux dans le domaine de la restructuration de documents électroniques sont présentés. Un système complet de rétro-ingénierie du format PDF est ensuite exposé, celui-ci est basé sur une représentation intermédiaire appelée le document canonique, et permettant d'exprimer la structure physique tout en conservant l'apparence originale du document. L'étape finale de notre système d'analyse, la restructuration logique, est particulièrement mise en évidence. L'article conclut en exposant les travaux actuels et les éventuels améliorations futures.