CIDE (2009) Bloechle : Différence entre versions

De CIDE
imported>Ziwei Hu
imported>Ziwei Hu
Ligne 57 : Ligne 57 :
 
L’analyse du contenu électronique est à son tour composée de méthodes extensives et de restructuration. Les premières analysent le contenu du document afin de reconstituer les structures originales et y ajouter des annotations (tags PDF) sans réorganisation des primitives du document électronique. Ces techniques ont été appliquées avec des résultats intéressants dans plusieurs travaux [8, 9, 10]. L’objectif des techniques de restructuration est de représenter le document électronique en utilisant un
 
L’analyse du contenu électronique est à son tour composée de méthodes extensives et de restructuration. Les premières analysent le contenu du document afin de reconstituer les structures originales et y ajouter des annotations (tags PDF) sans réorganisation des primitives du document électronique. Ces techniques ont été appliquées avec des résultats intéressants dans plusieurs travaux [8, 9, 10]. L’objectif des techniques de restructuration est de représenter le document électronique en utilisant un
  
format différent du PDF, par exemple XML, pour permettre d’accéder facilement à l’information. Le cas le plus intéressant de restructuration est celui de la ré-ingénierie, qui vise à réorganiser le contenu du document en fonction des structures découvertes [11, 12, 13, 14, 15]. La conversion  est un cas particulier de restructuration dans lequel aucune structure n’est extraite, le fichier PDF étant simplement transformé dans un format plus facile à manier [2].
+
format différent du PDF, par exemple XML, pour permettre d’accéder facilement à l’information. Le cas le plus intéressant de restructuration est celui de la ré-ingénierie, qui vise à réorganiser le contenu du document en fonction des structures découvertes [11, 12, 13, 14, 15]. La conversion  est un cas particulier de restructuration dans lequel aucune structure n’est extraite, le fichier PDF étant simplement transformé dans un format plus facile à manier [2]{{CIDE lien citation|Bloechle, J.-L., Rigamonti, M., Hadjar, K., Lalanne, D. and Ingold, R.  XCDF, 2006}}.
  
  

Version du 5 décembre 2016 à 16:44

Restructuration physique et logique de documents électroniques textuels


 
 

 
titre
Restructuration physique et logique de documents électroniques textuels
auteurs
Jean-Luc Bloechle et Rolf Ingold.
Affiliations
Département d’Informatique, Université de Fribourg, Suisse.
In
CIDE.12 (Montréal), 2009
En PDF 
CIDE (2009) Bloechle.pdf
Mots-clés 
PDF, OCD, XML, structure physique, structure logique, modèle de documen.
Keywords
PDF, OCD, XML, physical structure, logical structure, document model.
Résumé
La reconstruction des structures physiques et logiques de documents électroniques reste une problématique ouverte. Cet article présente une approche flexible et efficace permettant de régénérer de telles structures à partir de documents PDF. Une brève introduction présente tout d'abord le format PDF, ses atouts ainsi que ses défauts. Les principaux travaux dans le domaine de la restructuration de documents électroniques sont présentés. Un système complet de rétro-ingénierie du format PDF est ensuite exposé, celui-ci est basé sur une représentation intermédiaire appelée le document canonique, et permettant d'exprimer la structure physique tout en conservant l'apparence originale du document. L'étape finale de notre système d'analyse, la restructuration logique, est particulièrement mise en évidence. L'article conclut en exposant les travaux actuels et les éventuels améliorations futures.