CIDE (2009) Bloechle : Différence entre versions

De CIDE
imported>Ziwei Hu
(1 Introduction)
imported>Ziwei Hu
 
(39 révisions intermédiaires par le même utilisateur non affichées)
Ligne 34 : Ligne 34 :
 
=='''1 Introduction'''==
 
=='''1 Introduction'''==
  
Depuis sa publication en 1993, le format PDF de Adobe Systems est devenu le format standard pour l'échange et l'archivage de documents électroniques textuels et graphiques. En effet, le format PDF permet de restituer fidèlement l'apparence d'un document électronique quelconque aussi bien sur un écran que sur une imprimante. D'après Adobe Systems Incorporation, plus de 200 millions de documents PDF sont disponibles sur le web. Le format PDF peut être considéré comme un format universelle dans le sens où il est capable de reproduire toute information imprimable telle que du texte, des graphiques, des images, etc. Dans l'article "Why PDF is Everywhere" [1]{{CIDE lien citation|McKinley, T, 1997}}, McKinley met en évidence les points forts de ce format pour la gestion de documents et la recherche d'information. Le format PDF est d'ailleurs reconnu par les industries et gouvernements du monde entier. Dernièrement, un standard ISO a même été développé par l'organisation internationale pour la  standardisation dans le but de spécifier un format PDF épuré nommé PDF/A et destiné à l'archivage à long terme.
+
Depuis sa publication en 1993, le format PDF de Adobe Systems est devenu le format standard pour l'échange et l'archivage de documents électroniques textuels et graphiques. En effet, le format PDF permet de restituer fidèlement l'apparence d'un document électronique quelconque aussi bien sur un écran que sur une imprimante. D'après Adobe Systems Incorporation, plus de 200 millions de documents PDF sont disponibles sur le web. Le format PDF peut être considéré comme un format universelle dans le sens où il est capable de reproduire toute information imprimable telle que du texte, des graphiques, des images, etc. Dans l'article "Why PDF is Everywhere" ({{CIDE lien citation|McKinley, 1997}}), McKinley met en évidence les points forts de ce format pour la gestion de documents et la recherche d'information. Le format PDF est d'ailleurs reconnu par les industries et gouvernements du monde entier. Dernièrement, un standard ISO a même été développé par l'organisation internationale pour la  standardisation dans le but de spécifier un format PDF épuré nommé PDF/A et destiné à l'archivage à long terme.
  
 
Malgré toutes les qualités précitées, le format PDF n'est de loin pas parfait. En réalité, la spécification PDF a été définie afin de pouvoir reproduire tout document imprimable fidèlement et ceci au détriment de sa structure interne. Bien que les récentes spécifications du format PDF permettent d'incorporer des méta-données au contenu, la plupart des imprimantes PDF actuelles n'utilisent pas de telles possibilités. En conséquence, beaucoup de caractéristiques intéressantes liées aux structures du document sont perdues, alors qu'elles existaient au moment de l'édition. Cette perte d'information limite grandement la réutilisation  de documents PDF, par exemple, la réédition ou le reformatage sont impossible, tandis que même des opérations aussi simple que  copier/coller sont compromises.
 
Malgré toutes les qualités précitées, le format PDF n'est de loin pas parfait. En réalité, la spécification PDF a été définie afin de pouvoir reproduire tout document imprimable fidèlement et ceci au détriment de sa structure interne. Bien que les récentes spécifications du format PDF permettent d'incorporer des méta-données au contenu, la plupart des imprimantes PDF actuelles n'utilisent pas de telles possibilités. En conséquence, beaucoup de caractéristiques intéressantes liées aux structures du document sont perdues, alors qu'elles existaient au moment de l'édition. Cette perte d'information limite grandement la réutilisation  de documents PDF, par exemple, la réédition ou le reformatage sont impossible, tandis que même des opérations aussi simple que  copier/coller sont compromises.
Ligne 48 : Ligne 48 :
 
=='''2 Taxonomie des méthodes existantes pour l'analyse de PDF'''==
 
=='''2 Taxonomie des méthodes existantes pour l'analyse de PDF'''==
  
Un nombre restreint de travaux et recherches ont été accomplis [2]{{CIDE lien citation|Bloechle, J.-L., Rigamonti, M., Hadjar, K., Lalanne, D. and Ingold, R.  XCDF, 2006}} afin d’exploiter le contenu des documents PDF, d’en extraire les structures physiques et logiques, et d’en dériver certaines annotations.
+
Un nombre restreint de travaux et recherches ont été accomplis ({{CIDE lien citation|Bloechle, 2006}}) afin d’exploiter le contenu des documents PDF, d’en extraire les structures physiques et logiques, et d’en dériver certaines annotations.
L’analyse de l’image du document bénéficie de méthodes qui ont mûri durant ces dernières décénies, de telles méthodes peuvent également être appliquées à des documents synthétique, sans bruits et imprimés en haute résolution [3]{{CIDE lien citation|Hadjar, K. and Ingold, R, 2003}}, afin de retrouver le contenu et les structures originales de documents électroniques. Tandis que l’analyse direct du contenu électronique du document [4]{{CIDE lien citation|Paknad, M.D. and Ayers, R.M., 1998}} profite de techniques partiellement dérivées de celles de l'analyse d’image. Ces méthodes récentes utilisent les primitives internes des document PDF [5]{{CIDE lien citation|Rigamonti,  M.,  Bloechle,  J.-L.,  Hadjar,  K.,  Lalanne,  D.  and  Ingold,  R., 2005}}. Dans [6, 7][{{CIDE lien citation|Hadjar, K., Rigamonti, M., Lalanne, D. and Ingold, R. Xed, 2004}}, {{CIDE lien citation|Rigamonti, M., Hadjar, K., Lalanne, D. and Ingold, R. Xed, 2004}}], nous avons proposé de mélanger les deux méthodologies afin de pouvoir analyser  tout type de PDF.
+
L’analyse de l’image du document bénéficie de méthodes qui ont mûri durant ces dernières décénies, de telles méthodes peuvent également être appliquées à des documents synthétique, sans bruits et imprimés en haute résolution ({{CIDE lien citation|Hadjar, 2003}}), afin de retrouver le contenu et les structures originales de documents électroniques. Tandis que l’analyse direct du contenu électronique du document ({{CIDE lien citation|Paknad, 1998}}) profite de techniques partiellement dérivées de celles de l'analyse d’image. Ces méthodes récentes utilisent les primitives internes des document PDF ({{CIDE lien citation|Rigamonti, 2005}}). Dans ({{CIDE lien citation|Hadjar, 2004}}, {{CIDE lien citation|Rigamonti, 2004}}), nous avons proposé de mélanger les deux méthodologies afin de pouvoir analyser  tout type de PDF.
  
L’analyse du contenu électronique est à son tour composée de méthodes extensives et de restructuration. Les premières analysent le contenu du document afin de reconstituer les structures originales et y ajouter des annotations (tags PDF) sans réorganisation des primitives du document électronique. Ces techniques ont été appliquées avec des résultats intéressants dans plusieurs travaux [8, 9, 10][{{CIDE lien citation|Bagley, S.R., Brailsford, D.F. and Hardy, M.R.B., 2003}}, {{CIDE lien citation|Hardy, M.R., Brailford, D. and Thomas, P.L., 2004}}, {{CIDE lien citation|Lovegrove, W.S. and Brailsford, D.F., 1995}}]. L’objectif des techniques de restructuration est de représenter le document électronique en utilisant un format différent du PDF, par exemple XML, pour permettre d’accéder facilement à l’information. Le cas le plus intéressant de restructuration est celui de la ré-ingénierie, qui vise à réorganiser le contenu du document en fonction des structures découvertes [11, 12, 13, 14, 15][{{CIDE lien citation|Anjewierden, A. AIDAS, 2001}}, {{CIDE lien citation|Chao, H. and Fan, J., 2005}}, {{CIDE lien citation|Dejan, H. and Meunier, J.L., 2006}}, {{CIDE lien citation|Futrelle, R.P., Shap, M., Cieslick, C. and Grimes, A.E., 2003}}, {{CIDE lien citation|Rahman, F.  and Alam, H., 2003}}]. La conversion  est un cas particulier de restructuration dans lequel aucune structure n’est extraite, le fichier PDF étant simplement transformé dans un format plus facile à manier [2]{{CIDE lien citation|Bloechle, J.-L., Rigamonti, M., Hadjar, K., Lalanne, D. and Ingold, R.  XCDF, 2006}}.
+
L’analyse du contenu électronique est à son tour composée de méthodes extensives et de restructuration. Les premières analysent le contenu du document afin de reconstituer les structures originales et y ajouter des annotations (tags PDF) sans réorganisation des primitives du document électronique. Ces techniques ont été appliquées avec des résultats intéressants dans plusieurs travaux ({{CIDE lien citation|Bagley, 2003}}, {{CIDE lien citation|Hardy, 2004}}, {{CIDE lien citation|Lovegrove, 1995}}). L’objectif des techniques de restructuration est de représenter le document électronique en utilisant un format différent du PDF, par exemple XML, pour permettre d’accéder facilement à l’information. Le cas le plus intéressant de restructuration est celui de la ré-ingénierie, qui vise à réorganiser le contenu du document en fonction des structures découvertes ({{CIDE lien citation|Anjewierden, 2001}}, {{CIDE lien citation|Chao, 2005}}, {{CIDE lien citation|Dejan, 2006}}, {{CIDE lien citation|Futrelle, 2003}}, {{CIDE lien citation|Rahman, 2003}}). La conversion  est un cas particulier de restructuration dans lequel aucune structure n’est extraite, le fichier PDF étant simplement transformé dans un format plus facile à manier ({{CIDE lien citation|Bloechle, 2006}}).
  
 
=='''3 Format canonique et restructuration physique'''==
 
=='''3 Format canonique et restructuration physique'''==
  
Le format canonique est un format développé au sein de notre groupe de recherche préservant fidèlement l'apparence d'un document électronique tout en y incorporant ses structures physiques. Le processus permettant de générer un tel document est le suivant : le contenu d'un fichier PDF est tout d'abord extrait par XED [7]{{CIDE lien citation|Rigamonti, M., Hadjar, K., Lalanne, D. and Ingold, R. Xed, 2004}}, puis la restructuration physique du document au format canonique est effectuée en utilisant une approche hybride. La restructuration physique a pour but de segmenter l'information textuelle en paragraphes homogènes composés de lignes elles-mêmes composées d'unités lexicales. L'algorithme de restructuration est divisé en trois phases :
+
Le format canonique est un format développé au sein de notre groupe de recherche préservant fidèlement l'apparence d'un document électronique tout en y incorporant ses structures physiques. Le processus permettant de générer un tel document est le suivant : le contenu d'un fichier PDF est tout d'abord extrait par XED ({{CIDE lien citation|Rigamonti, 2004}}), puis la restructuration physique du document au format canonique est effectuée en utilisant une approche hybride. La restructuration physique a pour but de segmenter l'information textuelle en paragraphes homogènes composés de lignes elles-mêmes composées d'unités lexicales. L'algorithme de restructuration est divisé en trois phases :
*pré-traitement : normalisation, cristallisation, tri;
+
 
*phase ascendante : lexicalisation,  linéarisation,  fusion  en  blocs, fusion rétroactive, post-linéarisation;
+
-pré-traitement : normalisation, cristallisation, tri;
*phase descendante : détection de changement d'interligne, détection de changement d'alignement.
+
 
 +
-phase ascendante : lexicalisation,  linéarisation,  fusion  en  blocs, fusion rétroactive, post-linéarisation;
 +
 
 +
-phase descendante : détection de changement d'interligne, détection de changement d'alignement.
  
 
[[Fichier:15218735 10202489654359848 430454676 n.jpg|center|550px|thumb|Figure 3 : texte PDF brut à gauche et document canonique à droite]]
 
[[Fichier:15218735 10202489654359848 430454676 n.jpg|center|550px|thumb|Figure 3 : texte PDF brut à gauche et document canonique à droite]]
  
Toutes les étapes de l'algorithme utilisent des seuils dynamiques, relatifs  à la taille de la police courante, permettant de fusionner ou segmenter le texte avec précision. La recherche des seuils a été faite empiriquement, tout d'abord par une estimation a priori de leurs valeurs, puis par un affinage minutieux sur un corpus éclectique de documents PDF. Quatre seuils ont été nécessaires au bon fonctionnement de l'algorithme: un seuil pour la fusion des caractères en mots, un seuil pour la fusion des mots  en lignes, un seuil pour la fusion des lignes en blocs de texte, et finalement un seuil plus général appelé seuil de précision (utile pour des tests d'alignement ou d'interligne par exemple). Une présentation détaillée de l'algorithme a déjà été présentée dans [2]{{CIDE lien citation|Bloechle, J.-L., Rigamonti, M., Hadjar, K., Lalanne, D. and Ingold, R.  XCDF, 2006}} et [16]{{CIDE lien citation|Bloechle, J.-L., Lalanne, D. and Ingold, R. OCD, 2009}}. La Figure 3 ci-dessous présente un extrait de texte PDF brut à gauche, puis sa version segmentée à droite.
+
Toutes les étapes de l'algorithme utilisent des seuils dynamiques, relatifs  à la taille de la police courante, permettant de fusionner ou segmenter le texte avec précision. La recherche des seuils a été faite empiriquement, tout d'abord par une estimation a priori de leurs valeurs, puis par un affinage minutieux sur un corpus éclectique de documents PDF. Quatre seuils ont été nécessaires au bon fonctionnement de l'algorithme: un seuil pour la fusion des caractères en mots, un seuil pour la fusion des mots  en lignes, un seuil pour la fusion des lignes en blocs de texte, et finalement un seuil plus général appelé seuil de précision (utile pour des tests d'alignement ou d'interligne par exemple). Une présentation détaillée de l'algorithme a déjà été présentée dans ({{CIDE lien citation|Bloechle, 2006}}) et ({{CIDE lien citation|Bloechle, 2009}}). La Figure 3 ci-dessous présente un extrait de texte PDF brut à gauche, puis sa version segmentée à droite.
  
 
L'extraction de la structure physique a été appliquée sur trois documents différents, dont deux à structures complexes, les résultats obtenus sont exposés sur le Tableau 1.
 
L'extraction de la structure physique a été appliquée sur trois documents différents, dont deux à structures complexes, les résultats obtenus sont exposés sur le Tableau 1.
Ligne 70 : Ligne 73 :
 
=='''4 OCD, un formalisme XML optimisé pour le contenu physique'''==
 
=='''4 OCD, un formalisme XML optimisé pour le contenu physique'''==
  
Le stockage permanent d'un document canonique au format OCD (Optimized Canonical Document) [16]{{CIDE lien citation|Bloechle, J.-L., Lalanne, D. and Ingold, R. OCD, 2009}} permet à la fois de représenter la structure physique et de garantir la reproduction fidèle de ce document.  Le format OCD est une description XML compacte et simple permettant le stockage permanent d'un document au format canonique sur un support physique. Son but n'est pas de concurrencer un quelconque autre format, mais bien de conserver un document structuré tout en préservant son aspect visuel d'origine, et cela d'une manière simple et synthétique. L'accès aux informations d'un tel format doit être facilité au maximum.
+
Le stockage permanent d'un document canonique au format OCD (Optimized Canonical Document) ({{CIDE lien citation|Bloechle, 2009}}) permet à la fois de représenter la structure physique et de garantir la reproduction fidèle de ce document.  Le format OCD est une description XML compacte et simple permettant le stockage permanent d'un document au format canonique sur un support physique. Son but n'est pas de concurrencer un quelconque autre format, mais bien de conserver un document structuré tout en préservant son aspect visuel d'origine, et cela d'une manière simple et synthétique. L'accès aux informations d'un tel format doit être facilité au maximum.
  
 
[[Fichier:figure 4 un extrait du format canonique représenté en OCD.png|center|600px|thumb|Figure 4 : un extrait du format canonique représenté en OCD]]
 
[[Fichier:figure 4 un extrait du format canonique représenté en OCD.png|center|600px|thumb|Figure 4 : un extrait du format canonique représenté en OCD]]
Ligne 76 : Ligne 79 :
 
OCD supporte trois sortes de primitives graphiques : texte, image, et graphique vectoriel. Chaque primitive textuelle, graphique ou image y est décrite relativement à un état graphique de la page courante. Ainsi, un attribut est déclaré uniquement si celui-ci a changé de valeur relativement à l'état graphique qui lui-même mis à jour avec la nouvelle valeur de l'attribut. Les représentations des primitives utilisent des descriptions synthétiques. Les images sont compressées au formats JPG ou PNG puis insérées dans le document XML sous forme de flux hexadécimal. Les graphiques utilisent une description similaire à SVG, des coordonnées relatives sont employées à l'intérieur d'un même graphique. La représentation du texte bénéficie grandement du regroupement homogène des entités textuelles du format canonique permettant ainsi une description très réduite. Les primitives textuelles utilisent les largeurs de caractère de la fonte courante ainsi que des opérateurs d'espacement de caractère, de mot et d'interligne (cf. Figure 4). Le positionnement de chaque caractère est de ce fait respecté avec précision et cela avec un minimum d'espace disque. Finalement le fichier XML résultant est compressé en suivant le standard GZIP.
 
OCD supporte trois sortes de primitives graphiques : texte, image, et graphique vectoriel. Chaque primitive textuelle, graphique ou image y est décrite relativement à un état graphique de la page courante. Ainsi, un attribut est déclaré uniquement si celui-ci a changé de valeur relativement à l'état graphique qui lui-même mis à jour avec la nouvelle valeur de l'attribut. Les représentations des primitives utilisent des descriptions synthétiques. Les images sont compressées au formats JPG ou PNG puis insérées dans le document XML sous forme de flux hexadécimal. Les graphiques utilisent une description similaire à SVG, des coordonnées relatives sont employées à l'intérieur d'un même graphique. La représentation du texte bénéficie grandement du regroupement homogène des entités textuelles du format canonique permettant ainsi une description très réduite. Les primitives textuelles utilisent les largeurs de caractère de la fonte courante ainsi que des opérateurs d'espacement de caractère, de mot et d'interligne (cf. Figure 4). Le positionnement de chaque caractère est de ce fait respecté avec précision et cela avec un minimum d'espace disque. Finalement le fichier XML résultant est compressé en suivant le standard GZIP.
  
Ainsi, bien que OCD soit basé sur une représentation XML, sa taille est extrêmement réduite. Le Tableau 2 montre en effet que, par rapport au format PDF, notre format OCD permet de substantielles réductions de tailles de fichiers sur des documents textuels. Le tableau compare également notre format de fichiers aux formats XPS (le format de Microsoft) et XCD (ou XCDF, notre ancien format de stockage de documents canoniques [2]{{CIDE lien citation|Bloechle, J.-L., Rigamonti, M., Hadjar, K., Lalanne, D. and Ingold, R.  XCDF, 2006}}).
+
Ainsi, bien que OCD soit basé sur une représentation XML, sa taille est extrêmement réduite. Le Tableau 2 montre en effet que, par rapport au format PDF, notre format OCD permet de substantielles réductions de tailles de fichiers sur des documents textuels. Le tableau compare également notre format de fichiers aux formats XPS (le format de Microsoft) et XCD (ou XCDF, notre ancien format de stockage de documents canoniques ({{CIDE lien citation|Bloechle, 2006}})).
  
 
[[Fichier:Tableau_2_évaluation_du_forma_OCD_par_rapport_à_PDF,_XPS,_et_XCD.png‎|center|600px|thumb|Tableau 2 : évaluation du format OCD par rapport à PDF, XPS, et XCD]]
 
[[Fichier:Tableau_2_évaluation_du_forma_OCD_par_rapport_à_PDF,_XPS,_et_XCD.png‎|center|600px|thumb|Tableau 2 : évaluation du format OCD par rapport à PDF, XPS, et XCD]]
Ligne 82 : Ligne 85 :
 
=='''5 Dolores : un outil interactif pour la restructuration logique'''==
 
=='''5 Dolores : un outil interactif pour la restructuration logique'''==
  
A partir d'un document au format canonique, Dolores [17]{{CIDE lien citation|Bloechle, J.-L., Pugin, C. and Ingold., R. Dolores, 2008}} (Document Logical Restructuring) permet de régénérer une structure logique par apprentissage interactif incrémental. L'utilisateur créé un modèle par interaction, apprentissage et correction. Il peut ensuite l'appliquer à d'autre documents d'une même classe et améliorer ce même modèle grâce à l'apprentissage incrémental (cf. Figure 5). Trois phase principales peuvent être mise en évidence dans ce processus : l'extraction des caractéristiques, l'étiquetage logique et l'apprentissage.
+
A partir d'un document au format canonique, Dolores ({{CIDE lien citation|Bloechle, 2008}}) (Document Logical Restructuring) permet de régénérer une structure logique par apprentissage interactif incrémental. L'utilisateur créé un modèle par interaction, apprentissage et correction. Il peut ensuite l'appliquer à d'autre documents d'une même classe et améliorer ce même modèle grâce à l'apprentissage incrémental (cf. Figure 5). Trois phase principales peuvent être mise en évidence dans ce processus : l'extraction des caractéristiques, l'étiquetage logique et l'apprentissage.
  
 
[[Fichier:Figure 5 Capture d'écran de Dolores, à gauche le document étiqueté, à droite le modèle.png|center|600px|thumb|Figure 5 : Capture d'écran de Dolores, à gauche le document étiqueté, à droite le modèle]]
 
[[Fichier:Figure 5 Capture d'écran de Dolores, à gauche le document étiqueté, à droite le modèle.png|center|600px|thumb|Figure 5 : Capture d'écran de Dolores, à gauche le document étiqueté, à droite le modèle]]
Ligne 100 : Ligne 103 :
  
 
L'interface fournit des informations cruciales à l'utilisateur, lui permettant d'effectuer son étiquetage aisément et rapidement. Par exemple, la classe (l'étiquette logique) attribuée à chaque bloc de texte par le modèle est représentée par une surface rectangulaire colorée et semi-transparente (la couleur étant définie au préalable par l'utilisateur). Chaque bloc de texte contenu dans l'ensemble d'entraînement est encadré par un rectangle englobant dont la couleur correspond à celle de son étiquetage. Une barre horizontale est également affichée en-bas de chaque bloc de texte, son pourcentage de remplissage exprime le taux de confidence de l'étiquette attribuée par le modèle. Ainsi un taux de confidence bas indique qu'il est préférable de continuer à étiqueter la classe correspondante. Finalement, lorsque l'utilisateur passe sur un bloc de texte, celui-ci est mis en  évidence par la superposition d'une surface rectangulaire grise semi- transparente, son étiquette logique s'affiche au centre de celui-ci, le code couleur pouvant parfois s'avérer insuffisant (s'il y a beaucoup de classes par exemple).
 
L'interface fournit des informations cruciales à l'utilisateur, lui permettant d'effectuer son étiquetage aisément et rapidement. Par exemple, la classe (l'étiquette logique) attribuée à chaque bloc de texte par le modèle est représentée par une surface rectangulaire colorée et semi-transparente (la couleur étant définie au préalable par l'utilisateur). Chaque bloc de texte contenu dans l'ensemble d'entraînement est encadré par un rectangle englobant dont la couleur correspond à celle de son étiquetage. Une barre horizontale est également affichée en-bas de chaque bloc de texte, son pourcentage de remplissage exprime le taux de confidence de l'étiquette attribuée par le modèle. Ainsi un taux de confidence bas indique qu'il est préférable de continuer à étiqueter la classe correspondante. Finalement, lorsque l'utilisateur passe sur un bloc de texte, celui-ci est mis en  évidence par la superposition d'une surface rectangulaire grise semi- transparente, son étiquette logique s'affiche au centre de celui-ci, le code couleur pouvant parfois s'avérer insuffisant (s'il y a beaucoup de classes par exemple).
 +
  
 
==='''6.2 Modèle et apprentissage'''===
 
==='''6.2 Modèle et apprentissage'''===
Ligne 106 : Ligne 110 :
  
 
L'affichage du réseau neuronal met en évidence la force des pondérations ainsi que la pertinence de chaque caractéristique d'entrée par rapport à l'ensemble des classes ou alors pour une classe donnée (en pointant un neurone de sortie avec le curseur de la souris). Ceci permet à l'utilisateur d'appréhender d'un seul regard les caractéristiques discriminantes du réseau dans sa globalité ou pour chaque classe séparément. L'interface du réseau de neurone offre également la possibilité de désactiver un neurone d'entrée, afin de voir son impact sur le modèle. Un graphe d'erreur est affiché en dessous du réseau de neurones, il contient la courbe d'erreur ainsi que le taux de reconnaissance sur l'ensemble d'apprentissage et éventuellement sur un ensemble de validation/test. Enfin, il est possible de sauvegarder et d'ouvrir les modèles afin de les appliquer sur d'autres documents, ou éventuellement de les améliorer.
 
L'affichage du réseau neuronal met en évidence la force des pondérations ainsi que la pertinence de chaque caractéristique d'entrée par rapport à l'ensemble des classes ou alors pour une classe donnée (en pointant un neurone de sortie avec le curseur de la souris). Ceci permet à l'utilisateur d'appréhender d'un seul regard les caractéristiques discriminantes du réseau dans sa globalité ou pour chaque classe séparément. L'interface du réseau de neurone offre également la possibilité de désactiver un neurone d'entrée, afin de voir son impact sur le modèle. Un graphe d'erreur est affiché en dessous du réseau de neurones, il contient la courbe d'erreur ainsi que le taux de reconnaissance sur l'ensemble d'apprentissage et éventuellement sur un ensemble de validation/test. Enfin, il est possible de sauvegarder et d'ouvrir les modèles afin de les appliquer sur d'autres documents, ou éventuellement de les améliorer.
 +
  
 
=='''7 Conclusion'''==
 
=='''7 Conclusion'''==
  
 
Cette article présente un système complet d'analyse de documents électroniques textuels. A partir d'un document PDF, ou tout autre document électronique textuel imprimable, le système extrait toutes les données textes, images et graphiques. Une restructuration physique est ensuite effectuée sur le document, le résultat est alors sauvegardé au format OCD. L'étape de restructuration logique est assurée par Dolores, un outil interactif pour l'apprentissage incrémental de modèles de documents. Actuellement, seul les étiquettes logiques sont supportées par le modèle. La reconstruction de la hiérarchie fait partie des travaux futurs. Tandis que l'étude approfondie de la génération des modèles, ainsi que l'impact des divers paramètres d'apprentissage sur le taux de reconnaissance sont en cours d'évaluation. Le résultat de la restructuration logique d'un document peut finalement être conservé directement dans le format canonique au moyen de liens internes et sauvegardé sur disque grâce à un format étendant OCD nommé OCDL. Le développement d'un processus complet permettant la réutilisation de contenus PDF est une gageure qui ne saurait être mise de côté, en effet, un tel processus permet de réactiver le cycle de vie des documents électroniques.
 
Cette article présente un système complet d'analyse de documents électroniques textuels. A partir d'un document PDF, ou tout autre document électronique textuel imprimable, le système extrait toutes les données textes, images et graphiques. Une restructuration physique est ensuite effectuée sur le document, le résultat est alors sauvegardé au format OCD. L'étape de restructuration logique est assurée par Dolores, un outil interactif pour l'apprentissage incrémental de modèles de documents. Actuellement, seul les étiquettes logiques sont supportées par le modèle. La reconstruction de la hiérarchie fait partie des travaux futurs. Tandis que l'étude approfondie de la génération des modèles, ainsi que l'impact des divers paramètres d'apprentissage sur le taux de reconnaissance sont en cours d'évaluation. Le résultat de la restructuration logique d'un document peut finalement être conservé directement dans le format canonique au moyen de liens internes et sauvegardé sur disque grâce à un format étendant OCD nommé OCDL. Le développement d'un processus complet permettant la réutilisation de contenus PDF est une gageure qui ne saurait être mise de côté, en effet, un tel processus permet de réactiver le cycle de vie des documents électroniques.
 +
  
 
=='''8 Références bibliographiques'''==
 
=='''8 Références bibliographiques'''==
  
 
{{CIDE biblio
 
{{CIDE biblio
  |id=McKinley, T, 1997
+
  |id=McKinley, 1997
 
  |id édité=[[A pour auteur cité::McKinley, T|McKinley, T.]] (1997)
 
  |id édité=[[A pour auteur cité::McKinley, T|McKinley, T.]] (1997)
  |texte= Why PDF is Everywhere. Inform, the journal of AIIM, 11(8), 1997.  
+
  |texte= « Why PDF is Everywhere », ''Inform'', the journal of AIIM, 11(8), 1997.  
 
}}
 
}}
  
 
{{CIDE biblio
 
{{CIDE biblio
|id=Bloechle, J.-L., Rigamonti, M., Hadjar, K., Lalanne, D. and Ingold, R.  XCDF, 2006
+
|id=Bloechle, 2006
|id édité=[[A pour auteur cité::Bloechle, J.-L., Rigamonti, M., Hadjar, K., Lalanne, D. and Ingold, R.  XCDF|Bloechle, J.-L., Rigamonti, M., Hadjar, K., Lalanne, D. and Ingold, R.  XCDF.]] (2006)
+
|id édité=[[A pour auteur cité::Jean-Luc Bloechle]], [[A pour auteur cité::Maurizio Rigamonti]], [[A pour auteur cité::Karim Hadjar]], [[A pour auteur cité::Denis Lalanne]] and [[A pour auteur cité::Rolf Ingold]] (2006)
|texte= A canonical and structured document format.  In 7th International Workshop, DAS'06, pages 141-152, Nelson, New Zealand, February 2006. Springer-Verlag.  
+
|texte=« XCDF : A canonical and structured document format », in 7th International Workshop, DAS'06, pages 141-152, Nelson, New Zealand, February 2006. Springer-Verlag.  
 
}}
 
}}
  
 
{{CIDE biblio
 
{{CIDE biblio
  |id=Hadjar, K. and Ingold, R, 2003
+
  |id=Hadjar, 2003
  |id édité=[[A pour auteur cité::Hadjar, K. and Ingold, R|Hadjar, K. and Ingold, R.]] (2003)
+
  |id édité=[[A pour auteur cité::Karim Hadjar]] and [[A pour auteur cité::Rolf Ingold|Karim Hadjar]] and [[A pour auteur cité::Rolf Ingold]] (2003)
  |texte= Arabic Newspaper Page Segmentation. In Proceedings of the Seventh international Conference on Document Analysis and Recognition - Volume 2 (August 03 - 06, 2003). ICDAR. IEEE Computer Society, Washington, DC,  895.  
+
  |texte= « Arabic Newspaper Page Segmentation. In Proceedings of the Seventh international Conference on Document Analysis and Recognition » - Volume 2 (August 03 - 06, 2003). ICDAR. IEEE Computer Society, Washington, DC,  895.  
 
}}
 
}}
  
 
{{CIDE biblio
 
{{CIDE biblio
  |id=Paknad, M.D. and Ayers, R.M., 1998
+
  |id=Paknad, 1998
  |id édité=[[A pour auteur cité::Paknad, M.D. and Ayers, R.M.]] (1998)
+
  |id édité=[[A pour auteur cité::Mohammad Daryoush Paknad]] and [[A pour auteur cité::Robert Moss Ayres]] (1998)
  |texte= Method and  apparatus  for  identifying  words described in a portable electronic document, U.S. Patent  5,832,530, 1998.
+
  |texte= « Method and  apparatus  for  identifying  words described in a portable electronic document », U.S. Patent  5,832,530, 1998.
 
}}
 
}}
  
 
{{CIDE biblio
 
{{CIDE biblio
  |id=Rigamonti,  M.,  Bloechle,  J.-L.,  Hadjar,  K.,  Lalanne,  D.  and  Ingold,  R., 2005
+
  |id=Rigamonti, 2005
  |id édité=[[A pour auteur cité::Rigamonti, M.,  Bloechle, J.-L.,  Hadjar, K.,  Lalanne,  D.  and Ingold,  R.]] (2005)
+
  |id édité=[[A pour auteur cité::Maurizio Rigamonti]], [[A pour auteur cité::Jean-Luc Bloechle]], [[A pour auteur cité::Karim Hadjar]], [[A pour auteur cité::Denis Lalanne]] and [[A pour auteur cité::Rolf Ingold]] (2005)
  |texte= Towards a Canonical and Structured Representation of PDF Documents through Reverse Engineering. ICDAR’05, 2005, pp. 1050-1054.  
+
  |texte= « Towards a Canonical and Structured Representation of PDF Documents through Reverse Engineering ». ICDAR’05, 2005, pp. 1050-1054.  
 
}}
 
}}
  
 
{{CIDE biblio
 
{{CIDE biblio
  |id=Hadjar, K., Rigamonti, M., Lalanne, D. and Ingold, R. Xed, 2004
+
  |id=Hadjar, 2004
  |id édité=[[A pour auteur cité::Hadjar, K., Rigamonti, M., Lalanne, D. and Ingold, R. Xed.]] (2004)
+
  |id édité=[[A pour auteur cité::Karim Hadjar]], [[A pour auteur cité::Maurizio Rigamonti]], [[A pour auteur cité::Denis Lalanne]] and [[A pour auteur cité::Rolf Ingold]] (2004)
  |texte= a new tool for eXtracting hidden structures from Electronic Documents. DIAL’04,  2004, pp. 212-221.
+
  |texte= « Xed : a new tool for eXtracting hidden structures from Electronic Documents ». DIAL’04,  2004, pp. 212-221.
 
}}  
 
}}  
  
 
{{CIDE biblio
 
{{CIDE biblio
  |id=Rigamonti, M., Hadjar, K., Lalanne, D. and Ingold, R. Xed, 2004
+
  |id=Rigamonti, 2004
  |id édité=[[A pour auteur cité::Rigamonti, M., Hadjar, K., Lalanne, D. and Ingold, R. Xed.]] (2004)
+
  |id édité=[[A pour auteur cité::Maurizio Rigamonti]], [[A pour auteur cité::Karim Hadjar]], [[A pour auteur cité::Denis Lalanne]] and [[A pour auteur cité::Rolf Ingold]] (2004)
  |texte= un outil pour l'extraction et l'analyse de documents PDF, CIFED’04, 2004, pp.  85-90.
+
  |texte= « Xed : un outil pour l'extraction et l'analyse de documents PDF », CIFED’04, 2004, pp.  85-90.
 
}}  
 
}}  
  
 
{{CIDE biblio
 
{{CIDE biblio
  |id=Bagley, S.R., Brailsford, D.F. and Hardy, M.R.B., 2003
+
  |id=Bagley, 2003
  |id édité=[[A pour auteur cité::Bagley, S.R., Brailsford, D.F. and Hardy, M.R.B..]] (2003)
+
  |id édité=[[A pour auteur cité::Bagley Steve R.]], [[A pour auteur cité::David F. Brailsford]] and [[A pour auteur cité::Hardy, M.R.B.]] (2003)
  |texte= Creating reusable well- structured PDF as a sequence of component object graphic (COG) elements. DocEng’03, 2003, pp. 58-67.
+
  |texte= « Creating reusable well- structured PDF as a sequence of component object graphic (COG) elements ». DocEng’03, 2003, pp. 58-67.
 
}}  
 
}}  
  
 
{{CIDE biblio
 
{{CIDE biblio
  |id=Hardy, M.R., Brailford, D. and Thomas, P.L., 2004
+
  |id=Hardy, 2004
  |id édité=[[A pour auteur cité::Hardy, M.R., Brailford, D. and Thomas, P.L..]] (2004)
+
  |id édité=[[A pour auteur cité::Hardy Matthew R.]], [[A pour auteur cité::David Brailford]] and [[A pour auteur cité::Thomas Peter L.]] (2004)
  |texte= Creating Structured PDF Files Using XML Templates, DocEng’04, 2004, pp.  99-108.
+
  |texte= « Creating Structured PDF Files Using XML Templates », DocEng’04, 2004, pp.  99-108.
 
}}  
 
}}  
  
 
{{CIDE biblio
 
{{CIDE biblio
  |id=Lovegrove, W.S. and Brailsford, D.F., 1995
+
  |id=Lovegrove, 1995
  |id édité=[[A pour auteur cité::Lovegrove, W.S. and Brailsford, D.F..]] (1995)
+
  |id édité=[[A pour auteur cité::Lovegrove William S.]] and [[A pour auteur cité::David F. Brailsford]] (1995)
  |texte= Document analysis of PDF files: methods, results and implications. Electronic Publishing, 1995, pp. 207- 220.
+
  |texte= « Document analysis of PDF files: methods, results and implications ». Electronic Publishing, 1995, pp. 207- 220.
 
}}  
 
}}  
  
 
{{CIDE biblio
 
{{CIDE biblio
  |id=Anjewierden, A. AIDAS, 2001
+
  |id=Anjewierden, 2001
  |id édité=[[A pour auteur cité::Anjewierden, A. AIDAS.]] (2001)
+
  |id édité=[[A pour auteur cité::Anjewierden Anjo AIDAS.]] (2001)
  |texte= Incremental logical structure discovery in PDF document. ICDAR’01, 2001, pp.  374-377.
+
  |texte= « Incremental logical structure discovery in PDF document ». ICDAR’01, 2001, pp.  374-377.
 
}}  
 
}}  
  
 
{{CIDE biblio
 
{{CIDE biblio
  |id=Chao, H. and Fan, J., 2005
+
  |id=Chao, 2005
  |id édité=[[A pour auteur cité::Chao, H. and Fan, J..]] (2005)
+
  |id édité=[[A pour auteur cité::Hui Chao]] and [[A pour auteur cité::Fan, J.]] (2005)
  |texte= Capturing the Layout of electronic Documents for Reuse in Variable Data. ICDAR’05, 2005, pp.  940-944.
+
  |texte= « Capturing the Layout of electronic Documents for Reuse in Variable Data ». ICDAR’05, 2005, pp.  940-944.
 
}}  
 
}}  
  
 
{{CIDE biblio
 
{{CIDE biblio
  |id=Dejan, H. and Meunier, J.L., 2006
+
  |id=Dejan, 2006
  |id édité=[[A pour auteur cité::Dejan, H. and Meunier, J.L..]] (2006)
+
  |id édité=[[A pour auteur cité::Hervé Dejan]] and [[A pour auteur cité::Jean-Luc Meunier]] (2006)
  |texte= A System for Converting PDF Documents into Structured XML Format. DAS’06, 2006, pp.  129-140.
+
  |texte= « A System for Converting PDF Documents into Structured XML Format ». DAS’06, 2006, pp.  129-140.
 
}}  
 
}}  
  
 
{{CIDE biblio
 
{{CIDE biblio
  |id=Futrelle, R.P., Shap, M., Cieslick, C. and Grimes, A.E., 2003
+
  |id=Futrelle, 2003
  |id édité=[[A pour auteur cité::Futrelle, R.P., Shap, M., Cieslick, C. and Grimes, A.E..]] (2003)
+
  |id édité=[[A pour auteur cité::Robert P. Futrelle]], [[A pour auteur cité::Mingyan Shao]], [[A pour auteur cité::Chris Cieslick]] and [[A pour auteur cité::Andrea Elaina Grimes]] (2003)
  |texte= Extraction, layout analysis and classification of diagrams in PDF documents. ICDAR’03, 2003, pp. 1007-1012.
+
  |texte= « Extraction, layout analysis and classification of diagrams in PDF documents ». ICDAR’03, 2003, pp. 1007-1012.
 
}}  
 
}}  
  
 
{{CIDE biblio
 
{{CIDE biblio
  |id=Rahman, F.  and Alam, H., 2003
+
  |id=Rahman, 2003
  |id édité=[[A pour auteur cité::Rahman, F. and Alam, H..]] (2003)
+
  |id édité=[[A pour auteur cité::Fuad Rahman]] and [[A pour auteur cité::Hassan Alam]] (2003)
  |texte= Conversion of  PDF documents into HTML: a  case study of document image analysis. Asilomar CSS’03, 2003, pp.  87-91.
+
  |texte= « Conversion of  PDF documents into HTML: a  case study of document image analysis ». Asilomar CSS’03, 2003, pp.  87-91.
 
}}  
 
}}  
  
 
{{CIDE biblio
 
{{CIDE biblio
  |id=Bloechle, J.-L., Lalanne, D. and Ingold, R. OCD, 2009
+
  |id=Bloechle, 2009
  |id édité=[[A pour auteur cité::Bloechle, J.-L., Lalanne, D. and Ingold, R. OCD.]] (2009)
+
  |id édité=[[A pour auteur cité::Jean-Luc Bloechle]], [[A pour auteur cité::Denis Lalanne]] and [[A pour auteur cité::Rolf Ingold]] (2009)
  |texte= An Optimized and Canonical Document Format. In 10th International Conference on Document Analysis and Recognition, ICDAR'09, Barcelona, Spain, July 2009, pp. 236-240.
+
  |texte= « OCD : An Optimized and Canonical Document Format ». In 10th International Conference on Document Analysis and Recognition, ICDAR'09, Barcelona, Spain, July 2009, pp. 236-240.
 
}}  
 
}}  
  
 
{{CIDE biblio
 
{{CIDE biblio
  |id=Bloechle, J.-L., Pugin, C. and Ingold., R. Dolores, 2008
+
  |id=Bloechle, 2008
  |id édité=[[A pour auteur cité::Bloechle, J.-L., Pugin, C. and Ingold., R. Dolores.]] (2008)
+
  |id édité=[[A pour auteur cité::Jean-Luc Bloechle]], [[A pour auteur cité::Catherine Pugin]] and [[A pour auteur cité::Rolf Ingold]] (2008)
  |texte= An Interactive and Class-Free Approach for Document Logical Restructuring. In 8th International Workshop, DAS'08, pages  644-652,  Nara,  Japan, September 2008.
+
  |texte= « Dolores : An Interactive and Class-Free Approach for Document Logical Restructuring ». In 8th International Workshop, DAS'08, pages  644-652,  Nara,  Japan, September 2008.
 
}}
 
}}
  

Version actuelle datée du 11 décembre 2016 à 20:32

Restructuration physique et logique de documents électroniques textuels


 
 

 
titre
Restructuration physique et logique de documents électroniques textuels
auteurs
Jean-Luc Bloechle et Rolf Ingold.
Affiliations
Département d’Informatique, Université de Fribourg, Suisse.
In
CIDE.12 (Montréal), 2009
En PDF 
CIDE (2009) Bloechle.pdf
Mots-clés 
PDF, OCD, XML, structure physique, structure logique, modèle de documen.
Keywords
PDF, OCD, XML, physical structure, logical structure, document model.
Résumé
La reconstruction des structures physiques et logiques de documents électroniques reste une problématique ouverte. Cet article présente une approche flexible et efficace permettant de régénérer de telles structures à partir de documents PDF. Une brève introduction présente tout d'abord le format PDF, ses atouts ainsi que ses défauts. Les principaux travaux dans le domaine de la restructuration de documents électroniques sont présentés. Un système complet de rétro-ingénierie du format PDF est ensuite exposé, celui-ci est basé sur une représentation intermédiaire appelée le document canonique, et permettant d'exprimer la structure physique tout en conservant l'apparence originale du document. L'étape finale de notre système d'analyse, la restructuration logique, est particulièrement mise en évidence. L'article conclut en exposant les travaux actuels et les éventuels améliorations futures.