CIDE (2009) Bloechle : Différence entre versions

De CIDE
imported>Ziwei Hu
(1 Introduction)
imported>Ziwei Hu
Ligne 45 : Ligne 45 :
  
 
[[Fichier:Figure 2 une sélection multicolonnes erronée ne respectant pas l'ordre de lecture.png|center|600px|thumb|Figure 2 : une sélection multicolonnes erronée ne respectant pas l'ordre de lecture]]
 
[[Fichier:Figure 2 une sélection multicolonnes erronée ne respectant pas l'ordre de lecture.png|center|600px|thumb|Figure 2 : une sélection multicolonnes erronée ne respectant pas l'ordre de lecture]]
 +
  
 
=='''2 Taxonomie des méthodes existantes pour l'analyse de PDF'''==
 
=='''2 Taxonomie des méthodes existantes pour l'analyse de PDF'''==
Ligne 52 : Ligne 53 :
  
 
L’analyse du contenu électronique est à son tour composée de méthodes extensives et de restructuration. Les premières analysent le contenu du document afin de reconstituer les structures originales et y ajouter des annotations (tags PDF) sans réorganisation des primitives du document électronique. Ces techniques ont été appliquées avec des résultats intéressants dans plusieurs travaux [8, 9, 10][{{CIDE lien citation|Bagley, S.R., Brailsford, D.F. and Hardy, M.R.B., 2003}}, {{CIDE lien citation|Hardy, M.R., Brailford, D. and Thomas, P.L., 2004}}, {{CIDE lien citation|Lovegrove, W.S. and Brailsford, D.F., 1995}}]. L’objectif des techniques de restructuration est de représenter le document électronique en utilisant un format différent du PDF, par exemple XML, pour permettre d’accéder facilement à l’information. Le cas le plus intéressant de restructuration est celui de la ré-ingénierie, qui vise à réorganiser le contenu du document en fonction des structures découvertes [11, 12, 13, 14, 15][{{CIDE lien citation|Anjewierden, A. AIDAS, 2001}}, {{CIDE lien citation|Chao, H. and Fan, J., 2005}}, {{CIDE lien citation|Dejan, H. and Meunier, J.L., 2006}}, {{CIDE lien citation|Futrelle, R.P., Shap, M., Cieslick, C. and Grimes, A.E., 2003}}, {{CIDE lien citation|Rahman, F.  and Alam, H., 2003}}]. La conversion  est un cas particulier de restructuration dans lequel aucune structure n’est extraite, le fichier PDF étant simplement transformé dans un format plus facile à manier [2]{{CIDE lien citation|Bloechle, J.-L., Rigamonti, M., Hadjar, K., Lalanne, D. and Ingold, R.  XCDF, 2006}}.
 
L’analyse du contenu électronique est à son tour composée de méthodes extensives et de restructuration. Les premières analysent le contenu du document afin de reconstituer les structures originales et y ajouter des annotations (tags PDF) sans réorganisation des primitives du document électronique. Ces techniques ont été appliquées avec des résultats intéressants dans plusieurs travaux [8, 9, 10][{{CIDE lien citation|Bagley, S.R., Brailsford, D.F. and Hardy, M.R.B., 2003}}, {{CIDE lien citation|Hardy, M.R., Brailford, D. and Thomas, P.L., 2004}}, {{CIDE lien citation|Lovegrove, W.S. and Brailsford, D.F., 1995}}]. L’objectif des techniques de restructuration est de représenter le document électronique en utilisant un format différent du PDF, par exemple XML, pour permettre d’accéder facilement à l’information. Le cas le plus intéressant de restructuration est celui de la ré-ingénierie, qui vise à réorganiser le contenu du document en fonction des structures découvertes [11, 12, 13, 14, 15][{{CIDE lien citation|Anjewierden, A. AIDAS, 2001}}, {{CIDE lien citation|Chao, H. and Fan, J., 2005}}, {{CIDE lien citation|Dejan, H. and Meunier, J.L., 2006}}, {{CIDE lien citation|Futrelle, R.P., Shap, M., Cieslick, C. and Grimes, A.E., 2003}}, {{CIDE lien citation|Rahman, F.  and Alam, H., 2003}}]. La conversion  est un cas particulier de restructuration dans lequel aucune structure n’est extraite, le fichier PDF étant simplement transformé dans un format plus facile à manier [2]{{CIDE lien citation|Bloechle, J.-L., Rigamonti, M., Hadjar, K., Lalanne, D. and Ingold, R.  XCDF, 2006}}.
 +
  
 
=='''3 Format canonique et restructuration physique'''==
 
=='''3 Format canonique et restructuration physique'''==
Ligne 67 : Ligne 69 :
  
 
[[Fichier:Tableau_1_résultats_de_l'extraction_de_la_structure_physique_sur_trois_documents.png‎|center|600px|thumb|Tableau 1 : résultats de l'extraction de la structure physique sur trois documents]]
 
[[Fichier:Tableau_1_résultats_de_l'extraction_de_la_structure_physique_sur_trois_documents.png‎|center|600px|thumb|Tableau 1 : résultats de l'extraction de la structure physique sur trois documents]]
 +
  
 
=='''4 OCD, un formalisme XML optimisé pour le contenu physique'''==
 
=='''4 OCD, un formalisme XML optimisé pour le contenu physique'''==
Ligne 79 : Ligne 82 :
  
 
[[Fichier:Tableau_2_évaluation_du_forma_OCD_par_rapport_à_PDF,_XPS,_et_XCD.png‎|center|600px|thumb|Tableau 2 : évaluation du format OCD par rapport à PDF, XPS, et XCD]]
 
[[Fichier:Tableau_2_évaluation_du_forma_OCD_par_rapport_à_PDF,_XPS,_et_XCD.png‎|center|600px|thumb|Tableau 2 : évaluation du format OCD par rapport à PDF, XPS, et XCD]]
 +
  
 
=='''5 Dolores : un outil interactif pour la restructuration logique'''==
 
=='''5 Dolores : un outil interactif pour la restructuration logique'''==
Ligne 85 : Ligne 89 :
  
 
[[Fichier:Figure 5 Capture d'écran de Dolores, à gauche le document étiqueté, à droite le modèle.png|center|600px|thumb|Figure 5 : Capture d'écran de Dolores, à gauche le document étiqueté, à droite le modèle]]
 
[[Fichier:Figure 5 Capture d'écran de Dolores, à gauche le document étiqueté, à droite le modèle.png|center|600px|thumb|Figure 5 : Capture d'écran de Dolores, à gauche le document étiqueté, à droite le modèle]]
 +
  
 
=='''6 Extraction des caractéristiques'''==
 
=='''6 Extraction des caractéristiques'''==
Ligne 100 : Ligne 105 :
  
 
L'interface fournit des informations cruciales à l'utilisateur, lui permettant d'effectuer son étiquetage aisément et rapidement. Par exemple, la classe (l'étiquette logique) attribuée à chaque bloc de texte par le modèle est représentée par une surface rectangulaire colorée et semi-transparente (la couleur étant définie au préalable par l'utilisateur). Chaque bloc de texte contenu dans l'ensemble d'entraînement est encadré par un rectangle englobant dont la couleur correspond à celle de son étiquetage. Une barre horizontale est également affichée en-bas de chaque bloc de texte, son pourcentage de remplissage exprime le taux de confidence de l'étiquette attribuée par le modèle. Ainsi un taux de confidence bas indique qu'il est préférable de continuer à étiqueter la classe correspondante. Finalement, lorsque l'utilisateur passe sur un bloc de texte, celui-ci est mis en  évidence par la superposition d'une surface rectangulaire grise semi- transparente, son étiquette logique s'affiche au centre de celui-ci, le code couleur pouvant parfois s'avérer insuffisant (s'il y a beaucoup de classes par exemple).
 
L'interface fournit des informations cruciales à l'utilisateur, lui permettant d'effectuer son étiquetage aisément et rapidement. Par exemple, la classe (l'étiquette logique) attribuée à chaque bloc de texte par le modèle est représentée par une surface rectangulaire colorée et semi-transparente (la couleur étant définie au préalable par l'utilisateur). Chaque bloc de texte contenu dans l'ensemble d'entraînement est encadré par un rectangle englobant dont la couleur correspond à celle de son étiquetage. Une barre horizontale est également affichée en-bas de chaque bloc de texte, son pourcentage de remplissage exprime le taux de confidence de l'étiquette attribuée par le modèle. Ainsi un taux de confidence bas indique qu'il est préférable de continuer à étiqueter la classe correspondante. Finalement, lorsque l'utilisateur passe sur un bloc de texte, celui-ci est mis en  évidence par la superposition d'une surface rectangulaire grise semi- transparente, son étiquette logique s'affiche au centre de celui-ci, le code couleur pouvant parfois s'avérer insuffisant (s'il y a beaucoup de classes par exemple).
 +
  
 
==='''6.2 Modèle et apprentissage'''===
 
==='''6.2 Modèle et apprentissage'''===
Ligne 106 : Ligne 112 :
  
 
L'affichage du réseau neuronal met en évidence la force des pondérations ainsi que la pertinence de chaque caractéristique d'entrée par rapport à l'ensemble des classes ou alors pour une classe donnée (en pointant un neurone de sortie avec le curseur de la souris). Ceci permet à l'utilisateur d'appréhender d'un seul regard les caractéristiques discriminantes du réseau dans sa globalité ou pour chaque classe séparément. L'interface du réseau de neurone offre également la possibilité de désactiver un neurone d'entrée, afin de voir son impact sur le modèle. Un graphe d'erreur est affiché en dessous du réseau de neurones, il contient la courbe d'erreur ainsi que le taux de reconnaissance sur l'ensemble d'apprentissage et éventuellement sur un ensemble de validation/test. Enfin, il est possible de sauvegarder et d'ouvrir les modèles afin de les appliquer sur d'autres documents, ou éventuellement de les améliorer.
 
L'affichage du réseau neuronal met en évidence la force des pondérations ainsi que la pertinence de chaque caractéristique d'entrée par rapport à l'ensemble des classes ou alors pour une classe donnée (en pointant un neurone de sortie avec le curseur de la souris). Ceci permet à l'utilisateur d'appréhender d'un seul regard les caractéristiques discriminantes du réseau dans sa globalité ou pour chaque classe séparément. L'interface du réseau de neurone offre également la possibilité de désactiver un neurone d'entrée, afin de voir son impact sur le modèle. Un graphe d'erreur est affiché en dessous du réseau de neurones, il contient la courbe d'erreur ainsi que le taux de reconnaissance sur l'ensemble d'apprentissage et éventuellement sur un ensemble de validation/test. Enfin, il est possible de sauvegarder et d'ouvrir les modèles afin de les appliquer sur d'autres documents, ou éventuellement de les améliorer.
 +
  
 
=='''7 Conclusion'''==
 
=='''7 Conclusion'''==
  
 
Cette article présente un système complet d'analyse de documents électroniques textuels. A partir d'un document PDF, ou tout autre document électronique textuel imprimable, le système extrait toutes les données textes, images et graphiques. Une restructuration physique est ensuite effectuée sur le document, le résultat est alors sauvegardé au format OCD. L'étape de restructuration logique est assurée par Dolores, un outil interactif pour l'apprentissage incrémental de modèles de documents. Actuellement, seul les étiquettes logiques sont supportées par le modèle. La reconstruction de la hiérarchie fait partie des travaux futurs. Tandis que l'étude approfondie de la génération des modèles, ainsi que l'impact des divers paramètres d'apprentissage sur le taux de reconnaissance sont en cours d'évaluation. Le résultat de la restructuration logique d'un document peut finalement être conservé directement dans le format canonique au moyen de liens internes et sauvegardé sur disque grâce à un format étendant OCD nommé OCDL. Le développement d'un processus complet permettant la réutilisation de contenus PDF est une gageure qui ne saurait être mise de côté, en effet, un tel processus permet de réactiver le cycle de vie des documents électroniques.
 
Cette article présente un système complet d'analyse de documents électroniques textuels. A partir d'un document PDF, ou tout autre document électronique textuel imprimable, le système extrait toutes les données textes, images et graphiques. Une restructuration physique est ensuite effectuée sur le document, le résultat est alors sauvegardé au format OCD. L'étape de restructuration logique est assurée par Dolores, un outil interactif pour l'apprentissage incrémental de modèles de documents. Actuellement, seul les étiquettes logiques sont supportées par le modèle. La reconstruction de la hiérarchie fait partie des travaux futurs. Tandis que l'étude approfondie de la génération des modèles, ainsi que l'impact des divers paramètres d'apprentissage sur le taux de reconnaissance sont en cours d'évaluation. Le résultat de la restructuration logique d'un document peut finalement être conservé directement dans le format canonique au moyen de liens internes et sauvegardé sur disque grâce à un format étendant OCD nommé OCDL. Le développement d'un processus complet permettant la réutilisation de contenus PDF est une gageure qui ne saurait être mise de côté, en effet, un tel processus permet de réactiver le cycle de vie des documents électroniques.
 +
  
 
=='''8 Références bibliographiques'''==
 
=='''8 Références bibliographiques'''==

Version du 9 décembre 2016 à 15:53

Restructuration physique et logique de documents électroniques textuels


 
 

 
titre
Restructuration physique et logique de documents électroniques textuels
auteurs
Jean-Luc Bloechle et Rolf Ingold.
Affiliations
Département d’Informatique, Université de Fribourg, Suisse.
In
CIDE.12 (Montréal), 2009
En PDF 
CIDE (2009) Bloechle.pdf
Mots-clés 
PDF, OCD, XML, structure physique, structure logique, modèle de documen.
Keywords
PDF, OCD, XML, physical structure, logical structure, document model.
Résumé
La reconstruction des structures physiques et logiques de documents électroniques reste une problématique ouverte. Cet article présente une approche flexible et efficace permettant de régénérer de telles structures à partir de documents PDF. Une brève introduction présente tout d'abord le format PDF, ses atouts ainsi que ses défauts. Les principaux travaux dans le domaine de la restructuration de documents électroniques sont présentés. Un système complet de rétro-ingénierie du format PDF est ensuite exposé, celui-ci est basé sur une représentation intermédiaire appelée le document canonique, et permettant d'exprimer la structure physique tout en conservant l'apparence originale du document. L'étape finale de notre système d'analyse, la restructuration logique, est particulièrement mise en évidence. L'article conclut en exposant les travaux actuels et les éventuels améliorations futures.