CIDE (2009) Bloechle : Différence entre versions

De CIDE
imported>Abdelhakim Aidene
(Page créée avec « {{Wicri avertissement création lien}} ;In:CIDE.12 (Montréal), 2009 * Média:CIDE (2009) Bloechle.pdf [[Catégorie:Article av... »)
 
imported>Abdelhakim Aidene
Ligne 1 : Ligne 1 :
{{Wicri avertissement création lien}}
+
{{Titre page article
 +
|titre=Restructuration physique et logique de documents électroniques textuels
 +
}}
 +
{{CIDE boîte bibliographique|texte=
 +
;titre: [[A pour titre::Restructuration physique et logique de documents électroniques textuels]]
 +
;auteurs: [[A pour premier auteur::Jean-Luc Bloechle]] et [[A pour auteur::Rolf Ingold]].
 +
;Affiliations:
 +
:[[A pour affiliation auteur::Département d’Informatique]], [[A pour affiliation auteur::Université de Fribourg]], [[Suisse]].
 
;In:[[Est dans les actes::CIDE 2009 Montréal|CIDE.12 (Montréal)]], 2009
 
;In:[[Est dans les actes::CIDE 2009 Montréal|CIDE.12 (Montréal)]], 2009
* [[Média:CIDE (2009) Bloechle.pdf]]
+
;En PDF : [[Media:CIDE (2009) Bloechle.pdf|CIDE (2009) Bloechle.pdf]]
 +
;Mots-clés : PDF, OCD, XML, structure physique, structure logique, modèle de documen.
 +
;Keywords: PDF, OCD, XML, physical structure, logical structure, document model.
 +
 
 +
}}
 +
__NOTOC__
 +
<div style="text-align:justify;">
 +
;Résumé:La reconstruction des structures physiques et logiques de documents électroniques reste une problématique ouverte. Cet article présente une approche flexible et efficace permettant de régénérer de telles structures à partir de documents PDF. Une brève introduction présente tout d'abord le format PDF, ses atouts ainsi que ses défauts. Les principaux travaux dans le domaine de la restructuration de documents électroniques sont présentés. Un système complet de rétro-ingénierie du format PDF est ensuite exposé, celui-ci est basé sur une représentation intermédiaire appelée le document canonique, et permettant d'exprimer la structure physique tout en conservant l'apparence originale du document. L'étape finale de notre système d'analyse, la restructuration logique, est particulièrement mise en évidence. L'article conclut en exposant les travaux actuels et les éventuels améliorations futures.
 +
 
 +
 
 +
{{boîte déroulante
 +
  |titre=English description
 +
  |contenu=
 +
<div style="text-align:justify;">
 +
;Abstract: Physical and logical structure recovering from electronic documents  is still an open issue. In this paper, we propose a flexible and efficient approach for recovering document structures from PDF files. After a brief introduction of the PDF format and its major features, we report about different existing works for PDF content extraction and analysis. To overcome the weaknesses of these systems, we propose a new analysis strategy, based on an intermediate representation, called canonical document, which enables representing physical structures in a canonical way. This paper then describes the PDF reverse engineering workflow and focuses on the document logical restructuring.  Finally, the paper concludes with potential future improvements.
 +
 
 +
 
 +
}}
 +
 
 +
{{Clr}}
 +
[[Catégorie:référence bibliographique, article de conférence]]
 
[[Catégorie:Article avec PDF]]
 
[[Catégorie:Article avec PDF]]
 +
[[Catégorie:Musée virtuel]]
 +
[[Catégorie:Médiation numérique]]
 +
__SHOWFACTBOX__

Version du 14 juin 2016 à 14:41

Restructuration physique et logique de documents électroniques textuels


 
 

 
titre
Restructuration physique et logique de documents électroniques textuels
auteurs
Jean-Luc Bloechle et Rolf Ingold.
Affiliations
Département d’Informatique, Université de Fribourg, Suisse.
In
CIDE.12 (Montréal), 2009
En PDF 
CIDE (2009) Bloechle.pdf
Mots-clés 
PDF, OCD, XML, structure physique, structure logique, modèle de documen.
Keywords
PDF, OCD, XML, physical structure, logical structure, document model.
Résumé
La reconstruction des structures physiques et logiques de documents électroniques reste une problématique ouverte. Cet article présente une approche flexible et efficace permettant de régénérer de telles structures à partir de documents PDF. Une brève introduction présente tout d'abord le format PDF, ses atouts ainsi que ses défauts. Les principaux travaux dans le domaine de la restructuration de documents électroniques sont présentés. Un système complet de rétro-ingénierie du format PDF est ensuite exposé, celui-ci est basé sur une représentation intermédiaire appelée le document canonique, et permettant d'exprimer la structure physique tout en conservant l'apparence originale du document. L'étape finale de notre système d'analyse, la restructuration logique, est particulièrement mise en évidence. L'article conclut en exposant les travaux actuels et les éventuels améliorations futures.