CIDE (2009) Bloechle : Différence entre versions

De CIDE
imported>Ziwei Hu
imported>Ziwei Hu
Ligne 62 : Ligne 62 :
 
=='''Format canonique et restructuration physique'''==
 
=='''Format canonique et restructuration physique'''==
  
Le format canonique est un format développé au sein de notre groupe de recherche préservant fidèlement l'apparence d'un document électronique tout en y incorporant ses structures physiques. Le processus permettant de générer un tel document est le suivant : le contenu d'un fichier PDF est tout d'abord extrait par XED [7], puis la restructuration physique du document au format canonique est effectuée en utilisant une approche hybride. La restructuration physique a pour but de segmenter l'information textuelle en paragraphes homogènes composés de lignes elles-mêmes composées d'unités lexicales. L'algorithme de restructuration est divisé en trois phases :
+
Le format canonique est un format développé au sein de notre groupe de recherche préservant fidèlement l'apparence d'un document électronique tout en y incorporant ses structures physiques. Le processus permettant de générer un tel document est le suivant : le contenu d'un fichier PDF est tout d'abord extrait par XED [7]{{CIDE lien citation|Rigamonti, M., Hadjar, K., Lalanne, D. and Ingold, R. Xed, 2004}}, puis la restructuration physique du document au format canonique est effectuée en utilisant une approche hybride. La restructuration physique a pour but de segmenter l'information textuelle en paragraphes homogènes composés de lignes elles-mêmes composées d'unités lexicales. L'algorithme de restructuration est divisé en trois phases :
 
*pré-traitement : normalisation, cristallisation, tri;
 
*pré-traitement : normalisation, cristallisation, tri;
 
*phase ascendante  : lexicalisation,  linéarisation,  fusion  en  blocs, fusion rétroactive, post-linéarisation;
 
*phase ascendante  : lexicalisation,  linéarisation,  fusion  en  blocs, fusion rétroactive, post-linéarisation;
Ligne 83 : Ligne 83 :
 
=='''OCD, un formalisme XML optimisé pour le contenu physique'''==
 
=='''OCD, un formalisme XML optimisé pour le contenu physique'''==
  
Le stockage permanent d'un document canonique au format OCD (Optimized Canonical Document) [16] permet à la fois de représenter la structure physique et de garantir la reproduction fidèle de ce document.  Le format OCD est une description XML compacte et simple permettant le stockage permanent d'un document au format canonique sur un support physique. Son but n'est pas de concurrencer un quelconque autre format, mais bien de conserver un document structuré tout en préservant son aspect visuel d'origine, et cela d'une manière simple et synthétique. L'accès aux informations d'un tel format doit être facilité au maximum.
+
Le stockage permanent d'un document canonique au format OCD (Optimized Canonical Document) [16]{{CIDE lien citation|Bloechle, J.-L., Lalanne, D. and Ingold, R. OCD, 2009}} permet à la fois de représenter la structure physique et de garantir la reproduction fidèle de ce document.  Le format OCD est une description XML compacte et simple permettant le stockage permanent d'un document au format canonique sur un support physique. Son but n'est pas de concurrencer un quelconque autre format, mais bien de conserver un document structuré tout en préservant son aspect visuel d'origine, et cela d'une manière simple et synthétique. L'accès aux informations d'un tel format doit être facilité au maximum.
  
 
Figure 4 : un extrait du format canonique représenté en OCD.
 
Figure 4 : un extrait du format canonique représenté en OCD.
  
 
OCD supporte trois sortes de primitives graphiques : texte, image, et graphique vectoriel. Chaque primitive textuelle, graphique ou image y est décrite relativement à un état graphique de la page courante. Ainsi, un attribut est déclaré uniquement si celui-ci a changé de valeur relativement à l'état graphique qui lui-même mis à jour avec la nouvelle valeur de l'attribut. Les représentations des primitives utilisent des descriptions synthétiques. Les images sont compressées au formats JPG ou PNG puis insérées dans le document XML sous forme de flux hexadécimal. Les graphiques utilisent une description similaire à SVG, des coordonnées relatives sont employées à l'intérieur d'un même graphique. La représentation du texte bénéficie grandement du regroupement homogène des entités textuelles du format canonique permettant ainsi une description très réduite. Les primitives textuelles utilisent les largeurs de caractère de la fonte courante ainsi que des opérateurs d'espacement de caractère, de mot et d'interligne (cf. Figure 4). Le positionnement de chaque caractère est de ce fait respecté avec précision et cela avec un minimum d'espace disque. Finalement le fichier XML résultant est compressé en suivant le standard GZIP.
 
OCD supporte trois sortes de primitives graphiques : texte, image, et graphique vectoriel. Chaque primitive textuelle, graphique ou image y est décrite relativement à un état graphique de la page courante. Ainsi, un attribut est déclaré uniquement si celui-ci a changé de valeur relativement à l'état graphique qui lui-même mis à jour avec la nouvelle valeur de l'attribut. Les représentations des primitives utilisent des descriptions synthétiques. Les images sont compressées au formats JPG ou PNG puis insérées dans le document XML sous forme de flux hexadécimal. Les graphiques utilisent une description similaire à SVG, des coordonnées relatives sont employées à l'intérieur d'un même graphique. La représentation du texte bénéficie grandement du regroupement homogène des entités textuelles du format canonique permettant ainsi une description très réduite. Les primitives textuelles utilisent les largeurs de caractère de la fonte courante ainsi que des opérateurs d'espacement de caractère, de mot et d'interligne (cf. Figure 4). Le positionnement de chaque caractère est de ce fait respecté avec précision et cela avec un minimum d'espace disque. Finalement le fichier XML résultant est compressé en suivant le standard GZIP.
Ainsi, bien que OCD soit basé sur une représentation XML, sa taille est extrêmement réduite. Le Tableau 2 montre en effet que, par rapport au format PDF, notre format OCD permet de substantielles réductions de tailles de fichiers sur des documents textuels. Le tableau compare également notre format de fichiers aux formats XPS (le format de Microsoft) et XCD (ou XCDF, notre ancien format de stockage de documents canoniques [2]).
+
Ainsi, bien que OCD soit basé sur une représentation XML, sa taille est extrêmement réduite. Le Tableau 2 montre en effet que, par rapport au format PDF, notre format OCD permet de substantielles réductions de tailles de fichiers sur des documents textuels. Le tableau compare également notre format de fichiers aux formats XPS (le format de Microsoft) et XCD (ou XCDF, notre ancien format de stockage de documents canoniques [2]{{CIDE lien citation|Bloechle, J.-L., Rigamonti, M., Hadjar, K., Lalanne, D. and Ingold, R.  XCDF, 2006}}).
  
  
Ligne 96 : Ligne 96 :
 
=='''Dolores : un outil interactif pour la restructuration logique'''==
 
=='''Dolores : un outil interactif pour la restructuration logique'''==
  
A partir d'un document au format canonique, Dolores [17] (Document Logical Restructuring) permet de régénérer une structure logique par apprentissage interactif incrémental. L'utilisateur créé un modèle par interaction, apprentissage et correction. Il peut ensuite l'appliquer à d'autre documents d'une même classe et améliorer ce même modèle grâce
+
A partir d'un document au format canonique, Dolores [17]{{CIDE lien citation|Bloechle, J.-L., Pugin, C. and Ingold., R., 2008}} (Document Logical Restructuring) permet de régénérer une structure logique par apprentissage interactif incrémental. L'utilisateur créé un modèle par interaction, apprentissage et correction. Il peut ensuite l'appliquer à d'autre documents d'une même classe et améliorer ce même modèle grâce
  
 
à l'apprentissage incrémental (cf. Figure 5). Trois phase principales peuvent être mise en évidence dans ce processus : l'extraction des caractéristiques, l'étiquetage logique et l'apprentissage.
 
à l'apprentissage incrémental (cf. Figure 5). Trois phase principales peuvent être mise en évidence dans ce processus : l'extraction des caractéristiques, l'étiquetage logique et l'apprentissage.
Ligne 229 : Ligne 229 :
 
}}  
 
}}  
  
Bloechle, J.-L., Lalanne, D. and Ingold, R. OCD: An Optimized and Canonical Document Format. In 10th International Conference on Document Analysis and Recognition, ICDAR'09, Barcelona, Spain, July 2009, pp. 236-240.
+
{{CIDE biblio
 +
|id=Bloechle, J.-L., Pugin, C. and Ingold., R. Dolores, 2008
 +
|id édité=[[A pour auteur cité::Bloechle, J.-L., Pugin, C. and Ingold., R. Dolores.]] (2008)
 +
|texte= An Interactive and Class-Free Approach for Document Logical Restructuring. In 8th International Workshop, DAS'08, pages  644-652, Nara, Japan, September 2008.
 +
}}
 +
 
 
Bloechle, J.-L., Pugin, C. and Ingold., R. Dolores: An Interactive and Class-Free Approach for Document Logical Restructuring. In 8th International Workshop, DAS'08, pages  644-652,  Nara,  Japan, September 2008.
 
Bloechle, J.-L., Pugin, C. and Ingold., R. Dolores: An Interactive and Class-Free Approach for Document Logical Restructuring. In 8th International Workshop, DAS'08, pages  644-652,  Nara,  Japan, September 2008.
  

Version du 5 décembre 2016 à 17:27

Restructuration physique et logique de documents électroniques textuels


 
 

 
titre
Restructuration physique et logique de documents électroniques textuels
auteurs
Jean-Luc Bloechle et Rolf Ingold.
Affiliations
Département d’Informatique, Université de Fribourg, Suisse.
In
CIDE.12 (Montréal), 2009
En PDF 
CIDE (2009) Bloechle.pdf
Mots-clés 
PDF, OCD, XML, structure physique, structure logique, modèle de documen.
Keywords
PDF, OCD, XML, physical structure, logical structure, document model.
Résumé
La reconstruction des structures physiques et logiques de documents électroniques reste une problématique ouverte. Cet article présente une approche flexible et efficace permettant de régénérer de telles structures à partir de documents PDF. Une brève introduction présente tout d'abord le format PDF, ses atouts ainsi que ses défauts. Les principaux travaux dans le domaine de la restructuration de documents électroniques sont présentés. Un système complet de rétro-ingénierie du format PDF est ensuite exposé, celui-ci est basé sur une représentation intermédiaire appelée le document canonique, et permettant d'exprimer la structure physique tout en conservant l'apparence originale du document. L'étape finale de notre système d'analyse, la restructuration logique, est particulièrement mise en évidence. L'article conclut en exposant les travaux actuels et les éventuels améliorations futures.