CIDE (2009) Bloechle : Différence entre versions

De CIDE
imported>Ziwei Hu
imported>Ziwei Hu
Ligne 54 : Ligne 54 :
  
 
Un nombre restreint de travaux et recherches ont été accomplis [2]{{CIDE lien citation|Bloechle, J.-L., Rigamonti, M., Hadjar, K., Lalanne, D. and Ingold, R.  XCDF, 2006}} afin d’exploiter le contenu des documents PDF, d’en extraire les structures physiques et logiques, et d’en dériver certaines annotations.
 
Un nombre restreint de travaux et recherches ont été accomplis [2]{{CIDE lien citation|Bloechle, J.-L., Rigamonti, M., Hadjar, K., Lalanne, D. and Ingold, R.  XCDF, 2006}} afin d’exploiter le contenu des documents PDF, d’en extraire les structures physiques et logiques, et d’en dériver certaines annotations.
L’analyse de l’image du document bénéficie de méthodes qui ont mûri durant ces dernières décénies, de telles méthodes peuvent également être appliquées à des documents synthétique, sans bruits et imprimés en haute résolution [3]{{CIDE lien citation|Hadjar, K. and Ingold, R, 2003}}, afin de retrouver le contenu et les structures originales de documents électroniques. Tandis que l’analyse direct du contenu électronique du document [4]{{CIDE lien citation|aknad, M.D. and Ayers, R.M., 1998}} profite de techniques partiellement dérivées de celles de l'analyse d’image. Ces méthodes récentes utilisent les primitives internes des document PDF [5]. Dans [6, 7], nous avons proposé de mélanger les deux méthodologies afin de pouvoir analyser  tout type de PDF.
+
L’analyse de l’image du document bénéficie de méthodes qui ont mûri durant ces dernières décénies, de telles méthodes peuvent également être appliquées à des documents synthétique, sans bruits et imprimés en haute résolution [3]{{CIDE lien citation|Hadjar, K. and Ingold, R, 2003}}, afin de retrouver le contenu et les structures originales de documents électroniques. Tandis que l’analyse direct du contenu électronique du document [4]{{CIDE lien citation|Paknad, M.D. and Ayers, R.M., 1998}} profite de techniques partiellement dérivées de celles de l'analyse d’image. Ces méthodes récentes utilisent les primitives internes des document PDF [5]{{CIDE lien citation|Rigamonti,  M.,  Bloechle,  J.-L.,  Hadjar,  K.,  Lalanne,  D.  and  Ingold,  R., 2005}}. Dans [6, 7][{{CIDE lien citation|Hadjar, K., Rigamonti, M., Lalanne, D. and Ingold, R. Xed, 2004}}, {{CIDE lien citation|Rigamonti, M., Hadjar, K., Lalanne, D. and Ingold, R. Xed, 2004}}], nous avons proposé de mélanger les deux méthodologies afin de pouvoir analyser  tout type de PDF.
L’analyse du contenu électronique est à son tour composée de méthodes extensives et de restructuration. Les premières analysent le contenu du document afin de reconstituer les structures originales et y ajouter des annotations (tags PDF) sans réorganisation des primitives du document électronique. Ces techniques ont été appliquées avec des résultats intéressants dans plusieurs travaux [8, 9, 10]. L’objectif des techniques de restructuration est de représenter le document électronique en utilisant un
+
L’analyse du contenu électronique est à son tour composée de méthodes extensives et de restructuration. Les premières analysent le contenu du document afin de reconstituer les structures originales et y ajouter des annotations (tags PDF) sans réorganisation des primitives du document électronique. Ces techniques ont été appliquées avec des résultats intéressants dans plusieurs travaux [8, 9, 10][{{CIDE lien citation|Bagley, S.R., Brailsford, D.F. and Hardy, M.R.B., 2003}}, {{CIDE lien citation|Hardy, M.R., Brailford, D. and Thomas, P.L., 2004}}, {{CIDE lien citation|Lovegrove, W.S. and Brailsford, D.F., 1995}}]. L’objectif des techniques de restructuration est de représenter le document électronique en utilisant un
  
format différent du PDF, par exemple XML, pour permettre d’accéder facilement à l’information. Le cas le plus intéressant de restructuration est celui de la ré-ingénierie, qui vise à réorganiser le contenu du document en fonction des structures découvertes [11, 12, 13, 14, 15]. La conversion  est un cas particulier de restructuration dans lequel aucune structure n’est extraite, le fichier PDF étant simplement transformé dans un format plus facile à manier [2].
+
format différent du PDF, par exemple XML, pour permettre d’accéder facilement à l’information. Le cas le plus intéressant de restructuration est celui de la ré-ingénierie, qui vise à réorganiser le contenu du document en fonction des structures découvertes [11, 12, 13, 14, 15][{{CIDE lien citation|Anjewierden, A. AIDAS, 2001}}, {{CIDE lien citation|Chao, H. and Fan, J., 2005}}, {{CIDE lien citation|Dejan, H. and Meunier, J.L., 2006}}, {{CIDE lien citation|Futrelle, R.P., Shap, M., Cieslick, C. and Grimes, A.E., 2003}}, {{CIDE lien citation|Rahman, F.  and Alam, H., 2003}}]. La conversion  est un cas particulier de restructuration dans lequel aucune structure n’est extraite, le fichier PDF étant simplement transformé dans un format plus facile à manier [2]{{CIDE lien citation|Bloechle, J.-L., Rigamonti, M., Hadjar, K., Lalanne, D. and Ingold, R.  XCDF, 2006}}.
  
  
Ligne 153 : Ligne 153 :
 
{{CIDE biblio
 
{{CIDE biblio
 
  |id=Paknad, M.D. and Ayers, R.M., 1998
 
  |id=Paknad, M.D. and Ayers, R.M., 1998
  |id édité=[[A pour auteur cité::Paknad, M.D. and Ayers, R.M..]] (1998)
+
  |id édité=[[A pour auteur cité::Paknad, M.D. and Ayers, R.M.]] (1998)
  |texte= Conversion of PDF documents into HTML: a case study of document image analysis. Asilomar CSS’03, 2003, pp. 87-91.
+
  |texte= Method and  apparatus  for  identifying  words described in a portable electronic document, U.S. Patent  5,832,530, 1998.
 +
}}
 +
 
 +
{{CIDE biblio
 +
|id=Rigamonti,  M.,  Bloechle,  J.-L.,  Hadjar,  K.,  Lalanne,  D.  and  Ingold,  R., 2005
 +
  |id édité=[[A pour auteur cité::Rigamonti,  M.,  Bloechle,  J.-L.,  Hadjar,  K.,  Lalanne,  D.  and  Ingold,  R.]] (2005)
 +
|texte= Towards a Canonical and Structured Representation of PDF Documents through Reverse Engineering. ICDAR’05, 2005, pp. 1050-1054.  
 
}}
 
}}
  
Hadjar, K., Rigamonti, M., Lalanne, D. and Ingold, R. Xed: a new tool for eXtracting hidden structures from Electronic Documents. DIAL’04,  2004, pp. 212-221.
+
{{CIDE biblio
Rigamonti, M., Hadjar, K., Lalanne, D. and Ingold, R. Xed: un outil pour l'extraction et l'analyse de documents PDF, CIFED’04, 2004, pp.  85-90.
+
|id=Hadjar, K., Rigamonti, M., Lalanne, D. and Ingold, R. Xed, 2004
Bagley, S.R., Brailsford, D.F. and Hardy, M.R.B. Creating reusable well- structured PDF as a sequence of component object graphic (COG) elements. DocEng’03, 2003, pp. 58-67.
+
|id édité=[[A pour auteur cité::Hadjar, K., Rigamonti, M., Lalanne, D. and Ingold, R. Xed.]] (2004)
 +
|texte= a new tool for eXtracting hidden structures from Electronic Documents. DIAL’04,  2004, pp. 212-221.
 +
}}
 +
 
 +
{{CIDE biblio
 +
|id=Rigamonti, M., Hadjar, K., Lalanne, D. and Ingold, R. Xed, 2004
 +
|id édité=[[A pour auteur cité::Rigamonti, M., Hadjar, K., Lalanne, D. and Ingold, R. Xed.]] (2004)
 +
|texte= un outil pour l'extraction et l'analyse de documents PDF, CIFED’04, 2004, pp.  85-90.
 +
}}
 +
 
 +
{{CIDE biblio
 +
|id=Bagley, S.R., Brailsford, D.F. and Hardy, M.R.B., 2003
 +
|id édité=[[A pour auteur cité::Bagley, S.R., Brailsford, D.F. and Hardy, M.R.B..]] (2003)
 +
|texte= Creating reusable well- structured PDF as a sequence of component object graphic (COG) elements. DocEng’03, 2003, pp. 58-67.
 +
}}
 +
 
 +
{{CIDE biblio
 +
|id=Hardy, M.R., Brailford, D. and Thomas, P.L., 2004
 +
|id édité=[[A pour auteur cité::Hardy, M.R., Brailford, D. and Thomas, P.L..]] (2004)
 +
|texte= Creating Structured PDF Files Using XML Templates, DocEng’04, 2004, pp.  99-108.
 +
}}
 +
 
 +
{{CIDE biblio
 +
|id=Lovegrove, W.S. and Brailsford, D.F., 1995
 +
|id édité=[[A pour auteur cité::Lovegrove, W.S. and Brailsford, D.F..]] (1995)
 +
|texte= Document analysis of PDF files: methods, results and implications. Electronic Publishing, 1995, pp. 207- 220.
 +
}}
 +
 
 +
{{CIDE biblio
 +
|id=Anjewierden, A. AIDAS, 2001
 +
|id édité=[[A pour auteur cité::Anjewierden, A. AIDAS.]] (2001)
 +
|texte= Incremental logical structure discovery in PDF document. ICDAR’01, 2001, pp.  374-377.
 +
}}
 +
 
 +
{{CIDE biblio
 +
|id=Chao, H. and Fan, J., 2005
 +
|id édité=[[A pour auteur cité::Chao, H. and Fan, J..]] (2005)
 +
|texte= Capturing the Layout of electronic Documents for Reuse in Variable Data. ICDAR’05, 2005, pp.  940-944.
 +
}}
 +
 
 +
{{CIDE biblio
 +
|id=Dejan, H. and Meunier, J.L., 2006
 +
|id édité=[[A pour auteur cité::Dejan, H. and Meunier, J.L..]] (2006)
 +
|texte= A System for Converting PDF Documents into Structured XML Format. DAS’06, 2006, pp.  129-140.
 +
}}
 +
 
 +
{{CIDE biblio
 +
|id=Futrelle, R.P., Shap, M., Cieslick, C. and Grimes, A.E., 2003
 +
|id édité=[[A pour auteur cité::Futrelle, R.P., Shap, M., Cieslick, C. and Grimes, A.E..]] (2003)
 +
|texte= Extraction, layout analysis and classification of diagrams in PDF documents. ICDAR’03, 2003, pp. 1007-1012.
 +
}}
 +
 
 +
{{CIDE biblio
 +
|id=Rahman, F.  and Alam, H., 2003
 +
|id édité=[[A pour auteur cité::Rahman, F.  and Alam, H..]] (2003)
 +
|texte= Conversion of  PDF documents into HTML: a  case study of document image analysis. Asilomar CSS’03, 2003, pp.  87-91.
 +
}}
  
Hardy, M.R., Brailford, D. and Thomas, P.L. Creating Structured PDF Files Using XML Templates, DocEng’04, 2004, pp.  99-108.
 
Lovegrove, W.S. and Brailsford, D.F. Document analysis of PDF files: methods, results and implications. Electronic Publishing, 1995, pp. 207- 220.
 
 
Anjewierden, A. AIDAS: Incremental logical structure discovery in PDF document. ICDAR’01, 2001, pp.  374-377.
 
Anjewierden, A. AIDAS: Incremental logical structure discovery in PDF document. ICDAR’01, 2001, pp.  374-377.
 
Chao, H. and Fan, J., Capturing the Layout of electronic Documents for Reuse in Variable Data. ICDAR’05, 2005, pp.  940-944.
 
Chao, H. and Fan, J., Capturing the Layout of electronic Documents for Reuse in Variable Data. ICDAR’05, 2005, pp.  940-944.

Version du 5 décembre 2016 à 18:17

Restructuration physique et logique de documents électroniques textuels


 
 

 
titre
Restructuration physique et logique de documents électroniques textuels
auteurs
Jean-Luc Bloechle et Rolf Ingold.
Affiliations
Département d’Informatique, Université de Fribourg, Suisse.
In
CIDE.12 (Montréal), 2009
En PDF 
CIDE (2009) Bloechle.pdf
Mots-clés 
PDF, OCD, XML, structure physique, structure logique, modèle de documen.
Keywords
PDF, OCD, XML, physical structure, logical structure, document model.
Résumé
La reconstruction des structures physiques et logiques de documents électroniques reste une problématique ouverte. Cet article présente une approche flexible et efficace permettant de régénérer de telles structures à partir de documents PDF. Une brève introduction présente tout d'abord le format PDF, ses atouts ainsi que ses défauts. Les principaux travaux dans le domaine de la restructuration de documents électroniques sont présentés. Un système complet de rétro-ingénierie du format PDF est ensuite exposé, celui-ci est basé sur une représentation intermédiaire appelée le document canonique, et permettant d'exprimer la structure physique tout en conservant l'apparence originale du document. L'étape finale de notre système d'analyse, la restructuration logique, est particulièrement mise en évidence. L'article conclut en exposant les travaux actuels et les éventuels améliorations futures.