CIDE (2009) Bloechle : Différence entre versions

De CIDE
imported>Ziwei Hu
(3 Format canonique et restructuration physique)
imported>Ziwei Hu
 
(11 révisions intermédiaires par le même utilisateur non affichées)
Ligne 55 : Ligne 55 :
 
=='''3 Format canonique et restructuration physique'''==
 
=='''3 Format canonique et restructuration physique'''==
  
Le format canonique est un format développé au sein de notre groupe de recherche préservant fidèlement l'apparence d'un document électronique tout en y incorporant ses structures physiques. Le processus permettant de générer un tel document est le suivant : le contenu d'un fichier PDF est tout d'abord extrait par XED {{CIDE lien citation|Rigamonti, 2004}}), puis la restructuration physique du document au format canonique est effectuée en utilisant une approche hybride. La restructuration physique a pour but de segmenter l'information textuelle en paragraphes homogènes composés de lignes elles-mêmes composées d'unités lexicales. L'algorithme de restructuration est divisé en trois phases :
+
Le format canonique est un format développé au sein de notre groupe de recherche préservant fidèlement l'apparence d'un document électronique tout en y incorporant ses structures physiques. Le processus permettant de générer un tel document est le suivant : le contenu d'un fichier PDF est tout d'abord extrait par XED ({{CIDE lien citation|Rigamonti, 2004}}), puis la restructuration physique du document au format canonique est effectuée en utilisant une approche hybride. La restructuration physique a pour but de segmenter l'information textuelle en paragraphes homogènes composés de lignes elles-mêmes composées d'unités lexicales. L'algorithme de restructuration est divisé en trois phases :
  
 
-pré-traitement : normalisation, cristallisation, tri;
 
-pré-traitement : normalisation, cristallisation, tri;
Ligne 73 : Ligne 73 :
 
=='''4 OCD, un formalisme XML optimisé pour le contenu physique'''==
 
=='''4 OCD, un formalisme XML optimisé pour le contenu physique'''==
  
Le stockage permanent d'un document canonique au format OCD (Optimized Canonical Document) [16]{{CIDE lien citation|Bloechle, J.-L., Lalanne, D. and Ingold, R. OCD, 2009}} permet à la fois de représenter la structure physique et de garantir la reproduction fidèle de ce document.  Le format OCD est une description XML compacte et simple permettant le stockage permanent d'un document au format canonique sur un support physique. Son but n'est pas de concurrencer un quelconque autre format, mais bien de conserver un document structuré tout en préservant son aspect visuel d'origine, et cela d'une manière simple et synthétique. L'accès aux informations d'un tel format doit être facilité au maximum.
+
Le stockage permanent d'un document canonique au format OCD (Optimized Canonical Document) ({{CIDE lien citation|Bloechle, 2009}}) permet à la fois de représenter la structure physique et de garantir la reproduction fidèle de ce document.  Le format OCD est une description XML compacte et simple permettant le stockage permanent d'un document au format canonique sur un support physique. Son but n'est pas de concurrencer un quelconque autre format, mais bien de conserver un document structuré tout en préservant son aspect visuel d'origine, et cela d'une manière simple et synthétique. L'accès aux informations d'un tel format doit être facilité au maximum.
  
 
[[Fichier:figure 4 un extrait du format canonique représenté en OCD.png|center|600px|thumb|Figure 4 : un extrait du format canonique représenté en OCD]]
 
[[Fichier:figure 4 un extrait du format canonique représenté en OCD.png|center|600px|thumb|Figure 4 : un extrait du format canonique représenté en OCD]]
Ligne 82 : Ligne 82 :
  
 
[[Fichier:Tableau_2_évaluation_du_forma_OCD_par_rapport_à_PDF,_XPS,_et_XCD.png‎|center|600px|thumb|Tableau 2 : évaluation du format OCD par rapport à PDF, XPS, et XCD]]
 
[[Fichier:Tableau_2_évaluation_du_forma_OCD_par_rapport_à_PDF,_XPS,_et_XCD.png‎|center|600px|thumb|Tableau 2 : évaluation du format OCD par rapport à PDF, XPS, et XCD]]
 
  
 
=='''5 Dolores : un outil interactif pour la restructuration logique'''==
 
=='''5 Dolores : un outil interactif pour la restructuration logique'''==
  
A partir d'un document au format canonique, Dolores [17]{{CIDE lien citation|Bloechle, J.-L., Pugin, C. and Ingold., R. Dolores, 2008}} (Document Logical Restructuring) permet de régénérer une structure logique par apprentissage interactif incrémental. L'utilisateur créé un modèle par interaction, apprentissage et correction. Il peut ensuite l'appliquer à d'autre documents d'une même classe et améliorer ce même modèle grâce à l'apprentissage incrémental (cf. Figure 5). Trois phase principales peuvent être mise en évidence dans ce processus : l'extraction des caractéristiques, l'étiquetage logique et l'apprentissage.
+
A partir d'un document au format canonique, Dolores ({{CIDE lien citation|Bloechle, 2008}}) (Document Logical Restructuring) permet de régénérer une structure logique par apprentissage interactif incrémental. L'utilisateur créé un modèle par interaction, apprentissage et correction. Il peut ensuite l'appliquer à d'autre documents d'une même classe et améliorer ce même modèle grâce à l'apprentissage incrémental (cf. Figure 5). Trois phase principales peuvent être mise en évidence dans ce processus : l'extraction des caractéristiques, l'étiquetage logique et l'apprentissage.
  
 
[[Fichier:Figure 5 Capture d'écran de Dolores, à gauche le document étiqueté, à droite le modèle.png|center|600px|thumb|Figure 5 : Capture d'écran de Dolores, à gauche le document étiqueté, à droite le modèle]]
 
[[Fichier:Figure 5 Capture d'écran de Dolores, à gauche le document étiqueté, à droite le modèle.png|center|600px|thumb|Figure 5 : Capture d'écran de Dolores, à gauche le document étiqueté, à droite le modèle]]
 
  
 
=='''6 Extraction des caractéristiques'''==
 
=='''6 Extraction des caractéristiques'''==
Ligne 129 : Ligne 127 :
 
{{CIDE biblio
 
{{CIDE biblio
 
|id=Bloechle, 2006
 
|id=Bloechle, 2006
|id édité=[[A pour auteur cité::Bloechle, J.-L.]], [[A pour auteur cité::Rigamonti, M.]], [[A pour auteur cité::Hadjar, K.]], [[A pour auteur cité::Lalanne, D.]] and [[A pour auteur cité::Ingold, R.]] (2006)
+
|id édité=[[A pour auteur cité::Jean-Luc Bloechle]], [[A pour auteur cité::Maurizio Rigamonti]], [[A pour auteur cité::Karim Hadjar]], [[A pour auteur cité::Denis Lalanne]] and [[A pour auteur cité::Rolf Ingold]] (2006)
 
|texte=« XCDF : A canonical and structured document format », in 7th International Workshop, DAS'06, pages 141-152, Nelson, New Zealand, February 2006. Springer-Verlag.  
 
|texte=« XCDF : A canonical and structured document format », in 7th International Workshop, DAS'06, pages 141-152, Nelson, New Zealand, February 2006. Springer-Verlag.  
 
}}
 
}}
Ligne 135 : Ligne 133 :
 
{{CIDE biblio
 
{{CIDE biblio
 
  |id=Hadjar, 2003
 
  |id=Hadjar, 2003
  |id édité=[[A pour auteur cité::Hadjar, K.]] and [[A pour auteur cité::Ingold, R|Hadjar, K. ]] and [[A pour auteur cité::Ingold, R.]] (2003)
+
  |id édité=[[A pour auteur cité::Karim Hadjar]] and [[A pour auteur cité::Rolf Ingold|Karim Hadjar]] and [[A pour auteur cité::Rolf Ingold]] (2003)
 
  |texte= « Arabic Newspaper Page Segmentation. In Proceedings of the Seventh international Conference on Document Analysis and Recognition » - Volume 2 (August 03 - 06, 2003). ICDAR. IEEE Computer Society, Washington, DC,  895.  
 
  |texte= « Arabic Newspaper Page Segmentation. In Proceedings of the Seventh international Conference on Document Analysis and Recognition » - Volume 2 (August 03 - 06, 2003). ICDAR. IEEE Computer Society, Washington, DC,  895.  
 
}}
 
}}
Ligne 141 : Ligne 139 :
 
{{CIDE biblio
 
{{CIDE biblio
 
  |id=Paknad, 1998
 
  |id=Paknad, 1998
  |id édité=[[A pour auteur cité::Paknad, M.D.]] and [[A pour auteur cité::Ayers, R.M.]] (1998)
+
  |id édité=[[A pour auteur cité::Mohammad Daryoush Paknad]] and [[A pour auteur cité::Robert Moss Ayres]] (1998)
 
  |texte= « Method and  apparatus  for  identifying  words described in a portable electronic document », U.S. Patent  5,832,530, 1998.
 
  |texte= « Method and  apparatus  for  identifying  words described in a portable electronic document », U.S. Patent  5,832,530, 1998.
 
}}
 
}}
Ligne 147 : Ligne 145 :
 
{{CIDE biblio
 
{{CIDE biblio
 
  |id=Rigamonti, 2005
 
  |id=Rigamonti, 2005
  |id édité=[[A pour auteur cité::Rigamonti,  M.]], [[A pour auteur cité::Bloechle,  J.-L.]], [[A pour auteur cité::Hadjar,  K.]], [[A pour auteur cité::Lalanne,  D.]] and [[A pour auteur cité::Ingold,  R.]] (2005)
+
  |id édité=[[A pour auteur cité::Maurizio Rigamonti]], [[A pour auteur cité::Jean-Luc Bloechle]], [[A pour auteur cité::Karim Hadjar]], [[A pour auteur cité::Denis Lalanne]] and [[A pour auteur cité::Rolf Ingold]] (2005)
 
  |texte= « Towards a Canonical and Structured Representation of PDF Documents through Reverse Engineering ». ICDAR’05, 2005, pp. 1050-1054.  
 
  |texte= « Towards a Canonical and Structured Representation of PDF Documents through Reverse Engineering ». ICDAR’05, 2005, pp. 1050-1054.  
 
}}
 
}}
Ligne 153 : Ligne 151 :
 
{{CIDE biblio
 
{{CIDE biblio
 
  |id=Hadjar, 2004
 
  |id=Hadjar, 2004
  |id édité=[[A pour auteur cité::Hadjar, K.]], [[A pour auteur cité::Rigamonti, M.]], [[A pour auteur cité::Lalanne, D.]] and [[A pour auteur cité::Ingold, R. Xed.]] (2004)
+
  |id édité=[[A pour auteur cité::Karim Hadjar]], [[A pour auteur cité::Maurizio Rigamonti]], [[A pour auteur cité::Denis Lalanne]] and [[A pour auteur cité::Rolf Ingold]] (2004)
  |texte= « a new tool for eXtracting hidden structures from Electronic Documents ». DIAL’04,  2004, pp. 212-221.
+
  |texte= « Xed : a new tool for eXtracting hidden structures from Electronic Documents ». DIAL’04,  2004, pp. 212-221.
 
}}  
 
}}  
  
 
{{CIDE biblio
 
{{CIDE biblio
 
  |id=Rigamonti, 2004
 
  |id=Rigamonti, 2004
  |id édité=[[A pour auteur cité::Rigamonti, M.]], [[A pour auteur cité::Hadjar, K.]], [[A pour auteur cité::Lalanne, D.]] and [[A pour auteur cité::Ingold, R. Xed.]] (2004)
+
  |id édité=[[A pour auteur cité::Maurizio Rigamonti]], [[A pour auteur cité::Karim Hadjar]], [[A pour auteur cité::Denis Lalanne]] and [[A pour auteur cité::Rolf Ingold]] (2004)
  |texte= « un outil pour l'extraction et l'analyse de documents PDF », CIFED’04, 2004, pp.  85-90.
+
  |texte= « Xed : un outil pour l'extraction et l'analyse de documents PDF », CIFED’04, 2004, pp.  85-90.
 
}}  
 
}}  
  
 
{{CIDE biblio
 
{{CIDE biblio
 
  |id=Bagley, 2003
 
  |id=Bagley, 2003
  |id édité=[[A pour auteur cité::Bagley, S.R.]], [[A pour auteur cité::Brailsford, D.F.]] and [[A pour auteur cité::Hardy, M.R.B..]] (2003)
+
  |id édité=[[A pour auteur cité::Bagley Steve R.]], [[A pour auteur cité::David F. Brailsford]] and [[A pour auteur cité::Hardy, M.R.B.]] (2003)
  |texte= «  »Creating reusable well- structured PDF as a sequence of component object graphic (COG) elements ». DocEng’03, 2003, pp. 58-67.
+
  |texte= « Creating reusable well- structured PDF as a sequence of component object graphic (COG) elements ». DocEng’03, 2003, pp. 58-67.
 
}}  
 
}}  
  
 
{{CIDE biblio
 
{{CIDE biblio
 
  |id=Hardy, 2004
 
  |id=Hardy, 2004
  |id édité=[[A pour auteur cité::Hardy, M.R.]], [[A pour auteur cité::Brailford, D.]] and [[A pour auteur cité::Thomas, P.L..]] (2004)
+
  |id édité=[[A pour auteur cité::Hardy Matthew R.]], [[A pour auteur cité::David Brailford]] and [[A pour auteur cité::Thomas Peter L.]] (2004)
 
  |texte= « Creating Structured PDF Files Using XML Templates », DocEng’04, 2004, pp.  99-108.
 
  |texte= « Creating Structured PDF Files Using XML Templates », DocEng’04, 2004, pp.  99-108.
 
}}  
 
}}  
Ligne 177 : Ligne 175 :
 
{{CIDE biblio
 
{{CIDE biblio
 
  |id=Lovegrove, 1995
 
  |id=Lovegrove, 1995
  |id édité=[[A pour auteur cité::Lovegrove, W.S.]] and [[A pour auteur cité::Brailsford, D.F..]] (1995)
+
  |id édité=[[A pour auteur cité::Lovegrove William S.]] and [[A pour auteur cité::David F. Brailsford]] (1995)
 
  |texte= « Document analysis of PDF files: methods, results and implications ». Electronic Publishing, 1995, pp. 207- 220.
 
  |texte= « Document analysis of PDF files: methods, results and implications ». Electronic Publishing, 1995, pp. 207- 220.
 
}}  
 
}}  
Ligne 183 : Ligne 181 :
 
{{CIDE biblio
 
{{CIDE biblio
 
  |id=Anjewierden, 2001
 
  |id=Anjewierden, 2001
  |id édité=[[A pour auteur cité::Anjewierden, A. AIDAS.]] (2001)
+
  |id édité=[[A pour auteur cité::Anjewierden Anjo AIDAS.]] (2001)
 
  |texte= « Incremental logical structure discovery in PDF document ». ICDAR’01, 2001, pp.  374-377.
 
  |texte= « Incremental logical structure discovery in PDF document ». ICDAR’01, 2001, pp.  374-377.
 
}}  
 
}}  
Ligne 189 : Ligne 187 :
 
{{CIDE biblio
 
{{CIDE biblio
 
  |id=Chao, 2005
 
  |id=Chao, 2005
  |id édité=[[A pour auteur cité::Chao, H.]] and [[A pour auteur cité::Fan, J..]] (2005)
+
  |id édité=[[A pour auteur cité::Hui Chao]] and [[A pour auteur cité::Fan, J.]] (2005)
 
  |texte= « Capturing the Layout of electronic Documents for Reuse in Variable Data ». ICDAR’05, 2005, pp.  940-944.
 
  |texte= « Capturing the Layout of electronic Documents for Reuse in Variable Data ». ICDAR’05, 2005, pp.  940-944.
 
}}  
 
}}  
Ligne 195 : Ligne 193 :
 
{{CIDE biblio
 
{{CIDE biblio
 
  |id=Dejan, 2006
 
  |id=Dejan, 2006
  |id édité=[[A pour auteur cité::Dejan, H.]] and [[A pour auteur cité::Meunier, J.L..]] (2006)
+
  |id édité=[[A pour auteur cité::Hervé Dejan]] and [[A pour auteur cité::Jean-Luc Meunier]] (2006)
 
  |texte= « A System for Converting PDF Documents into Structured XML Format ». DAS’06, 2006, pp.  129-140.
 
  |texte= « A System for Converting PDF Documents into Structured XML Format ». DAS’06, 2006, pp.  129-140.
 
}}  
 
}}  
  
 
{{CIDE biblio
 
{{CIDE biblio
  |id=Futrelle, R.P., Shap, M., Cieslick, C. and Grimes, A.E., 2003
+
  |id=Futrelle, 2003
  |id édité=[[A pour auteur cité::Futrelle, R.P., Shap, M., Cieslick, C. and Grimes, A.E..]] (2003)
+
  |id édité=[[A pour auteur cité::Robert P. Futrelle]], [[A pour auteur cité::Mingyan Shao]], [[A pour auteur cité::Chris Cieslick]] and [[A pour auteur cité::Andrea Elaina Grimes]] (2003)
  |texte= Extraction, layout analysis and classification of diagrams in PDF documents. ICDAR’03, 2003, pp. 1007-1012.
+
  |texte= « Extraction, layout analysis and classification of diagrams in PDF documents ». ICDAR’03, 2003, pp. 1007-1012.
 
}}  
 
}}  
  
 
{{CIDE biblio
 
{{CIDE biblio
 
  |id=Rahman, 2003
 
  |id=Rahman, 2003
  |id édité=[[A pour auteur cité::Rahman, F.]]  and [[A pour auteur cité::Alam, H..]] (2003)
+
  |id édité=[[A pour auteur cité::Fuad Rahman]]  and [[A pour auteur cité::Hassan Alam]] (2003)
 
  |texte= « Conversion of  PDF documents into HTML: a  case study of document image analysis ». Asilomar CSS’03, 2003, pp.  87-91.
 
  |texte= « Conversion of  PDF documents into HTML: a  case study of document image analysis ». Asilomar CSS’03, 2003, pp.  87-91.
 
}}  
 
}}  
Ligne 213 : Ligne 211 :
 
{{CIDE biblio
 
{{CIDE biblio
 
  |id=Bloechle, 2009
 
  |id=Bloechle, 2009
  |id édité=[[A pour auteur cité::Bloechle, J.-L.]], [[A pour auteur cité::Lalanne, D. and Ingold, R. OCD.]] (2009)
+
  |id édité=[[A pour auteur cité::Jean-Luc Bloechle]], [[A pour auteur cité::Denis Lalanne]] and [[A pour auteur cité::Rolf Ingold]] (2009)
  |texte= « An Optimized and Canonical Document Format ». In 10th International Conference on Document Analysis and Recognition, ICDAR'09, Barcelona, Spain, July 2009, pp. 236-240.
+
  |texte= « OCD : An Optimized and Canonical Document Format ». In 10th International Conference on Document Analysis and Recognition, ICDAR'09, Barcelona, Spain, July 2009, pp. 236-240.
 
}}  
 
}}  
  
 
{{CIDE biblio
 
{{CIDE biblio
 
  |id=Bloechle, 2008
 
  |id=Bloechle, 2008
  |id édité=[[A pour auteur cité::Bloechle, J.-L.]], [[A pour auteur cité::Pugin, C.]] and [[A pour auteur cité::Ingold., R. Dolores.]] (2008)
+
  |id édité=[[A pour auteur cité::Jean-Luc Bloechle]], [[A pour auteur cité::Catherine Pugin]] and [[A pour auteur cité::Rolf Ingold]] (2008)
  |texte= « An Interactive and Class-Free Approach for Document Logical Restructuring ». In 8th International Workshop, DAS'08, pages  644-652,  Nara,  Japan, September 2008.
+
  |texte= « Dolores : An Interactive and Class-Free Approach for Document Logical Restructuring ». In 8th International Workshop, DAS'08, pages  644-652,  Nara,  Japan, September 2008.
 
}}
 
}}
  

Version actuelle datée du 11 décembre 2016 à 20:32

Restructuration physique et logique de documents électroniques textuels


 
 

 
titre
Restructuration physique et logique de documents électroniques textuels
auteurs
Jean-Luc Bloechle et Rolf Ingold.
Affiliations
Département d’Informatique, Université de Fribourg, Suisse.
In
CIDE.12 (Montréal), 2009
En PDF 
CIDE (2009) Bloechle.pdf
Mots-clés 
PDF, OCD, XML, structure physique, structure logique, modèle de documen.
Keywords
PDF, OCD, XML, physical structure, logical structure, document model.
Résumé
La reconstruction des structures physiques et logiques de documents électroniques reste une problématique ouverte. Cet article présente une approche flexible et efficace permettant de régénérer de telles structures à partir de documents PDF. Une brève introduction présente tout d'abord le format PDF, ses atouts ainsi que ses défauts. Les principaux travaux dans le domaine de la restructuration de documents électroniques sont présentés. Un système complet de rétro-ingénierie du format PDF est ensuite exposé, celui-ci est basé sur une représentation intermédiaire appelée le document canonique, et permettant d'exprimer la structure physique tout en conservant l'apparence originale du document. L'étape finale de notre système d'analyse, la restructuration logique, est particulièrement mise en évidence. L'article conclut en exposant les travaux actuels et les éventuels améliorations futures.