CIDE (2009) Bloechle : Différence entre versions

De CIDE
imported>Ziwei Hu
(2 Taxonomie des méthodes existantes pour l'analyse de PDF)
imported>Ziwei Hu
(8 Références bibliographiques : «  »)
Ligne 164 : Ligne 164 :
  
 
{{CIDE biblio
 
{{CIDE biblio
  |id=Bagley, S.R., Brailsford, D.F. and Hardy, M.R.B., 2003
+
  |id=Bagley, 2003
  |id édité=[[A pour auteur cité::Bagley, S.R., Brailsford, D.F. and Hardy, M.R.B..]] (2003)
+
  |id édité=[[A pour auteur cité::Bagley, S.R.]], [[A pour auteur cité::Brailsford, D.F.]] and [[A pour auteur cité::Hardy, M.R.B..]] (2003)
  |texte= Creating reusable well- structured PDF as a sequence of component object graphic (COG) elements. DocEng’03, 2003, pp. 58-67.
+
  |texte= «  »Creating reusable well- structured PDF as a sequence of component object graphic (COG) elements ». DocEng’03, 2003, pp. 58-67.
 
}}  
 
}}  
  
 
{{CIDE biblio
 
{{CIDE biblio
  |id=Hardy, M.R., Brailford, D. and Thomas, P.L., 2004
+
  |id=Hardy, 2004
  |id édité=[[A pour auteur cité::Hardy, M.R., Brailford, D. and Thomas, P.L..]] (2004)
+
  |id édité=[[A pour auteur cité::Hardy, M.R.]], [[A pour auteur cité::Brailford, D.]] and [[A pour auteur cité::Thomas, P.L..]] (2004)
  |texte= Creating Structured PDF Files Using XML Templates, DocEng’04, 2004, pp.  99-108.
+
  |texte= « Creating Structured PDF Files Using XML Templates », DocEng’04, 2004, pp.  99-108.
 
}}  
 
}}  
  
 
{{CIDE biblio
 
{{CIDE biblio
  |id=Lovegrove, W.S. and Brailsford, D.F., 1995
+
  |id=Lovegrove, 1995
  |id édité=[[A pour auteur cité::Lovegrove, W.S. and Brailsford, D.F..]] (1995)
+
  |id édité=[[A pour auteur cité::Lovegrove, W.S.]] and [[A pour auteur cité::Brailsford, D.F..]] (1995)
  |texte= Document analysis of PDF files: methods, results and implications. Electronic Publishing, 1995, pp. 207- 220.
+
  |texte= « Document analysis of PDF files: methods, results and implications ». Electronic Publishing, 1995, pp. 207- 220.
 
}}  
 
}}  
  
 
{{CIDE biblio
 
{{CIDE biblio
  |id=Anjewierden, A. AIDAS, 2001
+
  |id=Anjewierden, 2001
 
  |id édité=[[A pour auteur cité::Anjewierden, A. AIDAS.]] (2001)
 
  |id édité=[[A pour auteur cité::Anjewierden, A. AIDAS.]] (2001)
  |texte= Incremental logical structure discovery in PDF document. ICDAR’01, 2001, pp.  374-377.
+
  |texte= « Incremental logical structure discovery in PDF document ». ICDAR’01, 2001, pp.  374-377.
 
}}  
 
}}  
  
 
{{CIDE biblio
 
{{CIDE biblio
  |id=Chao, H. and Fan, J., 2005
+
  |id=Chao, 2005
  |id édité=[[A pour auteur cité::Chao, H. and Fan, J..]] (2005)
+
  |id édité=[[A pour auteur cité::Chao, H.]] and [[A pour auteur cité::Fan, J..]] (2005)
  |texte= Capturing the Layout of electronic Documents for Reuse in Variable Data. ICDAR’05, 2005, pp.  940-944.
+
  |texte= « Capturing the Layout of electronic Documents for Reuse in Variable Data ». ICDAR’05, 2005, pp.  940-944.
 
}}  
 
}}  
  
 
{{CIDE biblio
 
{{CIDE biblio
  |id=Dejan, H. and Meunier, J.L., 2006
+
  |id=Dejan, 2006
  |id édité=[[A pour auteur cité::Dejan, H. and Meunier, J.L..]] (2006)
+
  |id édité=[[A pour auteur cité::Dejan, H.]] and [[A pour auteur cité::Meunier, J.L..]] (2006)
  |texte= A System for Converting PDF Documents into Structured XML Format. DAS’06, 2006, pp.  129-140.
+
  |texte= « A System for Converting PDF Documents into Structured XML Format ». DAS’06, 2006, pp.  129-140.
 
}}  
 
}}  
  
Ligne 206 : Ligne 206 :
  
 
{{CIDE biblio
 
{{CIDE biblio
  |id=Rahman, F.  and Alam, H., 2003
+
  |id=Rahman, 2003
  |id édité=[[A pour auteur cité::Rahman, F.  and Alam, H..]] (2003)
+
  |id édité=[[A pour auteur cité::Rahman, F.]] and [[A pour auteur cité::Alam, H..]] (2003)
  |texte= Conversion of  PDF documents into HTML: a  case study of document image analysis. Asilomar CSS’03, 2003, pp.  87-91.
+
  |texte= « Conversion of  PDF documents into HTML: a  case study of document image analysis ». Asilomar CSS’03, 2003, pp.  87-91.
 
}}  
 
}}  
  
 
{{CIDE biblio
 
{{CIDE biblio
  |id=Bloechle, J.-L., Lalanne, D. and Ingold, R. OCD, 2009
+
  |id=Bloechle, 2009
  |id édité=[[A pour auteur cité::Bloechle, J.-L., Lalanne, D. and Ingold, R. OCD.]] (2009)
+
  |id édité=[[A pour auteur cité::Bloechle, J.-L.]], [[A pour auteur cité::Lalanne, D. and Ingold, R. OCD.]] (2009)
  |texte= An Optimized and Canonical Document Format. In 10th International Conference on Document Analysis and Recognition, ICDAR'09, Barcelona, Spain, July 2009, pp. 236-240.
+
  |texte= « An Optimized and Canonical Document Format ». In 10th International Conference on Document Analysis and Recognition, ICDAR'09, Barcelona, Spain, July 2009, pp. 236-240.
 
}}  
 
}}  
  
 
{{CIDE biblio
 
{{CIDE biblio
  |id=Bloechle, J.-L., Pugin, C. and Ingold., R. Dolores, 2008
+
  |id=Bloechle, 2008
  |id édité=[[A pour auteur cité::Bloechle, J.-L., Pugin, C. and Ingold., R. Dolores.]] (2008)
+
  |id édité=[[A pour auteur cité::Bloechle, J.-L.]], [[A pour auteur cité::Pugin, C.]] and [[A pour auteur cité::Ingold., R. Dolores.]] (2008)
  |texte= An Interactive and Class-Free Approach for Document Logical Restructuring. In 8th International Workshop, DAS'08, pages  644-652,  Nara,  Japan, September 2008.
+
  |texte= « An Interactive and Class-Free Approach for Document Logical Restructuring ». In 8th International Workshop, DAS'08, pages  644-652,  Nara,  Japan, September 2008.
 
}}
 
}}
  

Version du 9 décembre 2016 à 16:45

Restructuration physique et logique de documents électroniques textuels


 
 

 
titre
Restructuration physique et logique de documents électroniques textuels
auteurs
Jean-Luc Bloechle et Rolf Ingold.
Affiliations
Département d’Informatique, Université de Fribourg, Suisse.
In
CIDE.12 (Montréal), 2009
En PDF 
CIDE (2009) Bloechle.pdf
Mots-clés 
PDF, OCD, XML, structure physique, structure logique, modèle de documen.
Keywords
PDF, OCD, XML, physical structure, logical structure, document model.
Résumé
La reconstruction des structures physiques et logiques de documents électroniques reste une problématique ouverte. Cet article présente une approche flexible et efficace permettant de régénérer de telles structures à partir de documents PDF. Une brève introduction présente tout d'abord le format PDF, ses atouts ainsi que ses défauts. Les principaux travaux dans le domaine de la restructuration de documents électroniques sont présentés. Un système complet de rétro-ingénierie du format PDF est ensuite exposé, celui-ci est basé sur une représentation intermédiaire appelée le document canonique, et permettant d'exprimer la structure physique tout en conservant l'apparence originale du document. L'étape finale de notre système d'analyse, la restructuration logique, est particulièrement mise en évidence. L'article conclut en exposant les travaux actuels et les éventuels améliorations futures.