CIDE (2009) Bloechle : Différence entre versions

De CIDE
imported>Ziwei Hu
(6.2 Modèle et apprentissage)
imported>Ziwei Hu
Ligne 45 : Ligne 45 :
  
 
[[Fichier:Figure 2 une sélection multicolonnes erronée ne respectant pas l'ordre de lecture.png|center|600px|thumb|Figure 2 une sélection multicolonnes erronée ne respectant pas l'ordre de lecture]]
 
[[Fichier:Figure 2 une sélection multicolonnes erronée ne respectant pas l'ordre de lecture.png|center|600px|thumb|Figure 2 une sélection multicolonnes erronée ne respectant pas l'ordre de lecture]]
 +
  
 
=='''2 Taxonomie des méthodes existantes pour l'analyse de PDF'''==
 
=='''2 Taxonomie des méthodes existantes pour l'analyse de PDF'''==
Ligne 53 : Ligne 54 :
  
 
format différent du PDF, par exemple XML, pour permettre d’accéder facilement à l’information. Le cas le plus intéressant de restructuration est celui de la ré-ingénierie, qui vise à réorganiser le contenu du document en fonction des structures découvertes [11, 12, 13, 14, 15][{{CIDE lien citation|Anjewierden, A. AIDAS, 2001}}, {{CIDE lien citation|Chao, H. and Fan, J., 2005}}, {{CIDE lien citation|Dejan, H. and Meunier, J.L., 2006}}, {{CIDE lien citation|Futrelle, R.P., Shap, M., Cieslick, C. and Grimes, A.E., 2003}}, {{CIDE lien citation|Rahman, F.  and Alam, H., 2003}}]. La conversion  est un cas particulier de restructuration dans lequel aucune structure n’est extraite, le fichier PDF étant simplement transformé dans un format plus facile à manier [2]{{CIDE lien citation|Bloechle, J.-L., Rigamonti, M., Hadjar, K., Lalanne, D. and Ingold, R.  XCDF, 2006}}.
 
format différent du PDF, par exemple XML, pour permettre d’accéder facilement à l’information. Le cas le plus intéressant de restructuration est celui de la ré-ingénierie, qui vise à réorganiser le contenu du document en fonction des structures découvertes [11, 12, 13, 14, 15][{{CIDE lien citation|Anjewierden, A. AIDAS, 2001}}, {{CIDE lien citation|Chao, H. and Fan, J., 2005}}, {{CIDE lien citation|Dejan, H. and Meunier, J.L., 2006}}, {{CIDE lien citation|Futrelle, R.P., Shap, M., Cieslick, C. and Grimes, A.E., 2003}}, {{CIDE lien citation|Rahman, F.  and Alam, H., 2003}}]. La conversion  est un cas particulier de restructuration dans lequel aucune structure n’est extraite, le fichier PDF étant simplement transformé dans un format plus facile à manier [2]{{CIDE lien citation|Bloechle, J.-L., Rigamonti, M., Hadjar, K., Lalanne, D. and Ingold, R.  XCDF, 2006}}.
 +
  
 
=='''3 Format canonique et restructuration physique'''==
 
=='''3 Format canonique et restructuration physique'''==
Ligne 67 : Ligne 69 :
  
 
[[Fichier:Tableau_1_résultats_de_l'extraction_de_la_structure_physique_sur_trois_documents.png‎|center|600px|thumb|Tableau 1 résultats de l'extraction de la structure physique sur trois documents]]
 
[[Fichier:Tableau_1_résultats_de_l'extraction_de_la_structure_physique_sur_trois_documents.png‎|center|600px|thumb|Tableau 1 résultats de l'extraction de la structure physique sur trois documents]]
 +
  
 
=='''4 OCD, un formalisme XML optimisé pour le contenu physique'''==
 
=='''4 OCD, un formalisme XML optimisé pour le contenu physique'''==
Ligne 73 : Ligne 76 :
  
 
[[Fichier:figure 4 un extrait du format canonique représenté en OCD.png|center|600px|thumb|figure 4 un extrait du format canonique représenté en OCD]]
 
[[Fichier:figure 4 un extrait du format canonique représenté en OCD.png|center|600px|thumb|figure 4 un extrait du format canonique représenté en OCD]]
 
  
 
OCD supporte trois sortes de primitives graphiques : texte, image, et graphique vectoriel. Chaque primitive textuelle, graphique ou image y est décrite relativement à un état graphique de la page courante. Ainsi, un attribut est déclaré uniquement si celui-ci a changé de valeur relativement à l'état graphique qui lui-même mis à jour avec la nouvelle valeur de l'attribut. Les représentations des primitives utilisent des descriptions synthétiques. Les images sont compressées au formats JPG ou PNG puis insérées dans le document XML sous forme de flux hexadécimal. Les graphiques utilisent une description similaire à SVG, des coordonnées relatives sont employées à l'intérieur d'un même graphique. La représentation du texte bénéficie grandement du regroupement homogène des entités textuelles du format canonique permettant ainsi une description très réduite. Les primitives textuelles utilisent les largeurs de caractère de la fonte courante ainsi que des opérateurs d'espacement de caractère, de mot et d'interligne (cf. Figure 4). Le positionnement de chaque caractère est de ce fait respecté avec précision et cela avec un minimum d'espace disque. Finalement le fichier XML résultant est compressé en suivant le standard GZIP.
 
OCD supporte trois sortes de primitives graphiques : texte, image, et graphique vectoriel. Chaque primitive textuelle, graphique ou image y est décrite relativement à un état graphique de la page courante. Ainsi, un attribut est déclaré uniquement si celui-ci a changé de valeur relativement à l'état graphique qui lui-même mis à jour avec la nouvelle valeur de l'attribut. Les représentations des primitives utilisent des descriptions synthétiques. Les images sont compressées au formats JPG ou PNG puis insérées dans le document XML sous forme de flux hexadécimal. Les graphiques utilisent une description similaire à SVG, des coordonnées relatives sont employées à l'intérieur d'un même graphique. La représentation du texte bénéficie grandement du regroupement homogène des entités textuelles du format canonique permettant ainsi une description très réduite. Les primitives textuelles utilisent les largeurs de caractère de la fonte courante ainsi que des opérateurs d'espacement de caractère, de mot et d'interligne (cf. Figure 4). Le positionnement de chaque caractère est de ce fait respecté avec précision et cela avec un minimum d'espace disque. Finalement le fichier XML résultant est compressé en suivant le standard GZIP.
Ligne 79 : Ligne 81 :
  
 
[[Fichier:Tableau_2_évaluation_du_forma_OCD_par_rapport_à_PDF,_XPS,_et_XCD.png‎|center|600px|thumb|Tableau 2  évaluation du format OCD par rapport à PDF, XPS, et XCD]]
 
[[Fichier:Tableau_2_évaluation_du_forma_OCD_par_rapport_à_PDF,_XPS,_et_XCD.png‎|center|600px|thumb|Tableau 2  évaluation du format OCD par rapport à PDF, XPS, et XCD]]
 +
  
 
=='''5 Dolores : un outil interactif pour la restructuration logique'''==
 
=='''5 Dolores : un outil interactif pour la restructuration logique'''==
Ligne 87 : Ligne 90 :
  
 
[[Fichier:Figure 5 Capture d'écran de Dolores, à gauche le document étiqueté, à droite le modèle.png|center|600px|thumb|Figure 5 Capture d'écran de Dolores, à gauche le document étiqueté, à droite le modèle]]
 
[[Fichier:Figure 5 Capture d'écran de Dolores, à gauche le document étiqueté, à droite le modèle.png|center|600px|thumb|Figure 5 Capture d'écran de Dolores, à gauche le document étiqueté, à droite le modèle]]
 +
  
 
=='''6 Extraction des caractéristiques'''==
 
=='''6 Extraction des caractéristiques'''==
Ligne 94 : Ligne 98 :
  
 
Deux autres classes de caractéristiques sont également prises en compte : les régions et les expressions régulières. Concernant les régions, l'intersection des surfaces des blocs de texte (boîte englobante) d'une même classe est calculée, si celle-ci n'est pas nulle, la boîte englobante résultante est ajoutée comme caractéristique au modèle. La valeur de la caractéristique est le pourcentage de recouvrement de la surface d'intersection avec le bloc de texte courant. Concernant les expressions régulières, le principe est le même, une expression régulière est générée pour chaque échantillon (bloc de texte), l'expression régulière commune à chaque classe est recherchée, en cas de succès, celle-ci est ajoutée au caractéristiques du modèle.
 
Deux autres classes de caractéristiques sont également prises en compte : les régions et les expressions régulières. Concernant les régions, l'intersection des surfaces des blocs de texte (boîte englobante) d'une même classe est calculée, si celle-ci n'est pas nulle, la boîte englobante résultante est ajoutée comme caractéristique au modèle. La valeur de la caractéristique est le pourcentage de recouvrement de la surface d'intersection avec le bloc de texte courant. Concernant les expressions régulières, le principe est le même, une expression régulière est générée pour chaque échantillon (bloc de texte), l'expression régulière commune à chaque classe est recherchée, en cas de succès, celle-ci est ajoutée au caractéristiques du modèle.
 +
  
 
==='''6.1 L'étiquetage logique'''===
 
==='''6.1 L'étiquetage logique'''===
Ligne 105 : Ligne 110 :
 
L'apprentissage est géré par un perceptron multicouches. Le modèle de document comprend à la fois l'ensemble des échantillons étiquetés (blocs de texte) ainsi que les données définissant le réseau de neurone. Une interface simple et conviviale implique que l'apprentissage soit totalement automatisé et instantané. De ce fait, la topologie du réseau est dynamique, elle s'adapte automatiquement au nombre d'entrées et de sorties. Le  réseau contient une couche cachée. La couche d'entrée est totalement connectée à la couche cachée tandis que chaque neurone de la couche de sortie est connecté à quatre neurones de la couche cachée. Ceci assure à chaque neurone de sortie un nombre égale de neurones caché et évite que ceux-ci soit accaparés par un autre neurone de sortie dont la probabilité a priori est beaucoup plus élevée. Sans entrer dans les détails, l'algorithme d'entraînement du réseau est une rétro-propagation stochastique avec moment d'inertie. Le taux d'apprentissage diminue en fonction de l'erreur en sortie d'un neurone. Ces caractéristiques assurent un apprentissage convergeant et rapide, tout en minimisant le risque de stagner dans des minima locaux. Actuellement, l'apprentissage s'arrête lorsque le taux de reconnaissance est de 100% sur un minimum de 30 cycles consécutif (avec une borne temporel).
 
L'apprentissage est géré par un perceptron multicouches. Le modèle de document comprend à la fois l'ensemble des échantillons étiquetés (blocs de texte) ainsi que les données définissant le réseau de neurone. Une interface simple et conviviale implique que l'apprentissage soit totalement automatisé et instantané. De ce fait, la topologie du réseau est dynamique, elle s'adapte automatiquement au nombre d'entrées et de sorties. Le  réseau contient une couche cachée. La couche d'entrée est totalement connectée à la couche cachée tandis que chaque neurone de la couche de sortie est connecté à quatre neurones de la couche cachée. Ceci assure à chaque neurone de sortie un nombre égale de neurones caché et évite que ceux-ci soit accaparés par un autre neurone de sortie dont la probabilité a priori est beaucoup plus élevée. Sans entrer dans les détails, l'algorithme d'entraînement du réseau est une rétro-propagation stochastique avec moment d'inertie. Le taux d'apprentissage diminue en fonction de l'erreur en sortie d'un neurone. Ces caractéristiques assurent un apprentissage convergeant et rapide, tout en minimisant le risque de stagner dans des minima locaux. Actuellement, l'apprentissage s'arrête lorsque le taux de reconnaissance est de 100% sur un minimum de 30 cycles consécutif (avec une borne temporel).
 
L'affichage du réseau neuronal met en évidence la force des pondérations ainsi que la pertinence de chaque caractéristique d'entrée par rapport à l'ensemble des classes ou alors pour une classe donnée (en pointant un neurone de sortie avec le curseur de la souris). Ceci permet à l'utilisateur d'appréhender d'un seul regard les caractéristiques discriminantes du réseau dans sa globalité ou pour chaque classe séparément. L'interface du réseau de neurone offre également la possibilité de désactiver un neurone d'entrée, afin de voir son impact sur le modèle. Un graphe d'erreur est affiché en dessous du réseau de neurones, il contient la courbe d'erreur ainsi que le taux de reconnaissance sur l'ensemble d'apprentissage et éventuellement sur un ensemble de validation/test. Enfin, il est possible de sauvegarder et d'ouvrir les modèles afin de les appliquer sur d'autres documents, ou éventuellement de les améliorer.
 
L'affichage du réseau neuronal met en évidence la force des pondérations ainsi que la pertinence de chaque caractéristique d'entrée par rapport à l'ensemble des classes ou alors pour une classe donnée (en pointant un neurone de sortie avec le curseur de la souris). Ceci permet à l'utilisateur d'appréhender d'un seul regard les caractéristiques discriminantes du réseau dans sa globalité ou pour chaque classe séparément. L'interface du réseau de neurone offre également la possibilité de désactiver un neurone d'entrée, afin de voir son impact sur le modèle. Un graphe d'erreur est affiché en dessous du réseau de neurones, il contient la courbe d'erreur ainsi que le taux de reconnaissance sur l'ensemble d'apprentissage et éventuellement sur un ensemble de validation/test. Enfin, il est possible de sauvegarder et d'ouvrir les modèles afin de les appliquer sur d'autres documents, ou éventuellement de les améliorer.
 +
  
 
=='''7 Conclusion'''==
 
=='''7 Conclusion'''==
Ligne 111 : Ligne 117 :
  
 
ensuite effectuée sur le document, le résultat est alors sauvegardé au format OCD. L'étape de restructuration logique est assurée par Dolores, un outil interactif pour l'apprentissage incrémental de modèles de documents. Actuellement, seul les étiquettes logiques sont supportées par le modèle. La reconstruction de la hiérarchie fait partie des travaux futurs. Tandis que l'étude approfondie de la génération des modèles, ainsi que l'impact des divers paramètres d'apprentissage sur le taux de reconnaissance sont en cours d'évaluation. Le résultat de la restructuration logique d'un document peut finalement être conservé directement dans le format canonique au moyen de liens internes et sauvegardé sur disque grâce à un format étendant OCD nommé OCDL. Le développement d'un processus complet permettant la réutilisation de contenus PDF est une gageure qui ne saurait être mise de côté, en effet,  un tel processus permet de réactiver le cycle de vie des documents électroniques.
 
ensuite effectuée sur le document, le résultat est alors sauvegardé au format OCD. L'étape de restructuration logique est assurée par Dolores, un outil interactif pour l'apprentissage incrémental de modèles de documents. Actuellement, seul les étiquettes logiques sont supportées par le modèle. La reconstruction de la hiérarchie fait partie des travaux futurs. Tandis que l'étude approfondie de la génération des modèles, ainsi que l'impact des divers paramètres d'apprentissage sur le taux de reconnaissance sont en cours d'évaluation. Le résultat de la restructuration logique d'un document peut finalement être conservé directement dans le format canonique au moyen de liens internes et sauvegardé sur disque grâce à un format étendant OCD nommé OCDL. Le développement d'un processus complet permettant la réutilisation de contenus PDF est une gageure qui ne saurait être mise de côté, en effet,  un tel processus permet de réactiver le cycle de vie des documents électroniques.
 +
  
 
=='''8 Références bibliographiques'''==
 
=='''8 Références bibliographiques'''==

Version du 9 décembre 2016 à 15:36

Restructuration physique et logique de documents électroniques textuels


 
 

 
titre
Restructuration physique et logique de documents électroniques textuels
auteurs
Jean-Luc Bloechle et Rolf Ingold.
Affiliations
Département d’Informatique, Université de Fribourg, Suisse.
In
CIDE.12 (Montréal), 2009
En PDF 
CIDE (2009) Bloechle.pdf
Mots-clés 
PDF, OCD, XML, structure physique, structure logique, modèle de documen.
Keywords
PDF, OCD, XML, physical structure, logical structure, document model.
Résumé
La reconstruction des structures physiques et logiques de documents électroniques reste une problématique ouverte. Cet article présente une approche flexible et efficace permettant de régénérer de telles structures à partir de documents PDF. Une brève introduction présente tout d'abord le format PDF, ses atouts ainsi que ses défauts. Les principaux travaux dans le domaine de la restructuration de documents électroniques sont présentés. Un système complet de rétro-ingénierie du format PDF est ensuite exposé, celui-ci est basé sur une représentation intermédiaire appelée le document canonique, et permettant d'exprimer la structure physique tout en conservant l'apparence originale du document. L'étape finale de notre système d'analyse, la restructuration logique, est particulièrement mise en évidence. L'article conclut en exposant les travaux actuels et les éventuels améliorations futures.