CIDE (2009) Bloechle : Différence entre versions
De CIDE
imported>Abdelhakim Aidene (Page créée avec « {{Wicri avertissement création lien}} ;In:CIDE.12 (Montréal), 2009 * Média:CIDE (2009) Bloechle.pdf [[Catégorie:Article av... ») |
imported>Abdelhakim Aidene |
||
Ligne 1 : | Ligne 1 : | ||
− | {{ | + | {{Titre page article |
+ | |titre=Restructuration physique et logique de documents électroniques textuels | ||
+ | }} | ||
+ | {{CIDE boîte bibliographique|texte= | ||
+ | ;titre: [[A pour titre::Restructuration physique et logique de documents électroniques textuels]] | ||
+ | ;auteurs: [[A pour premier auteur::Jean-Luc Bloechle]] et [[A pour auteur::Rolf Ingold]]. | ||
+ | ;Affiliations: | ||
+ | :[[A pour affiliation auteur::Département d’Informatique]], [[A pour affiliation auteur::Université de Fribourg]], [[Suisse]]. | ||
;In:[[Est dans les actes::CIDE 2009 Montréal|CIDE.12 (Montréal)]], 2009 | ;In:[[Est dans les actes::CIDE 2009 Montréal|CIDE.12 (Montréal)]], 2009 | ||
− | + | ;En PDF : [[Media:CIDE (2009) Bloechle.pdf|CIDE (2009) Bloechle.pdf]] | |
+ | ;Mots-clés : PDF, OCD, XML, structure physique, structure logique, modèle de documen. | ||
+ | ;Keywords: PDF, OCD, XML, physical structure, logical structure, document model. | ||
+ | |||
+ | }} | ||
+ | __NOTOC__ | ||
+ | <div style="text-align:justify;"> | ||
+ | ;Résumé:La reconstruction des structures physiques et logiques de documents électroniques reste une problématique ouverte. Cet article présente une approche flexible et efficace permettant de régénérer de telles structures à partir de documents PDF. Une brève introduction présente tout d'abord le format PDF, ses atouts ainsi que ses défauts. Les principaux travaux dans le domaine de la restructuration de documents électroniques sont présentés. Un système complet de rétro-ingénierie du format PDF est ensuite exposé, celui-ci est basé sur une représentation intermédiaire appelée le document canonique, et permettant d'exprimer la structure physique tout en conservant l'apparence originale du document. L'étape finale de notre système d'analyse, la restructuration logique, est particulièrement mise en évidence. L'article conclut en exposant les travaux actuels et les éventuels améliorations futures. | ||
+ | |||
+ | |||
+ | {{boîte déroulante | ||
+ | |titre=English description | ||
+ | |contenu= | ||
+ | <div style="text-align:justify;"> | ||
+ | ;Abstract: Physical and logical structure recovering from electronic documents is still an open issue. In this paper, we propose a flexible and efficient approach for recovering document structures from PDF files. After a brief introduction of the PDF format and its major features, we report about different existing works for PDF content extraction and analysis. To overcome the weaknesses of these systems, we propose a new analysis strategy, based on an intermediate representation, called canonical document, which enables representing physical structures in a canonical way. This paper then describes the PDF reverse engineering workflow and focuses on the document logical restructuring. Finally, the paper concludes with potential future improvements. | ||
+ | |||
+ | |||
+ | }} | ||
+ | |||
+ | {{Clr}} | ||
+ | [[Catégorie:référence bibliographique, article de conférence]] | ||
[[Catégorie:Article avec PDF]] | [[Catégorie:Article avec PDF]] | ||
+ | [[Catégorie:Musée virtuel]] | ||
+ | [[Catégorie:Médiation numérique]] | ||
+ | __SHOWFACTBOX__ |
Version du 14 juin 2016 à 13:41
Restructuration physique et logique de documents électroniques textuels
|
- Résumé
- La reconstruction des structures physiques et logiques de documents électroniques reste une problématique ouverte. Cet article présente une approche flexible et efficace permettant de régénérer de telles structures à partir de documents PDF. Une brève introduction présente tout d'abord le format PDF, ses atouts ainsi que ses défauts. Les principaux travaux dans le domaine de la restructuration de documents électroniques sont présentés. Un système complet de rétro-ingénierie du format PDF est ensuite exposé, celui-ci est basé sur une représentation intermédiaire appelée le document canonique, et permettant d'exprimer la structure physique tout en conservant l'apparence originale du document. L'étape finale de notre système d'analyse, la restructuration logique, est particulièrement mise en évidence. L'article conclut en exposant les travaux actuels et les éventuels améliorations futures.
English description
- Abstract
- Physical and logical structure recovering from electronic documents is still an open issue. In this paper, we propose a flexible and efficient approach for recovering document structures from PDF files. After a brief introduction of the PDF format and its major features, we report about different existing works for PDF content extraction and analysis. To overcome the weaknesses of these systems, we propose a new analysis strategy, based on an intermediate representation, called canonical document, which enables representing physical structures in a canonical way. This paper then describes the PDF reverse engineering workflow and focuses on the document logical restructuring. Finally, the paper concludes with potential future improvements.
… davantage au sujet de « CIDE (2009) Bloechle »
Restructuration physique et logique de documents électroniques textuels +