CIDE (2007) Belaïd : Différence entre versions

Version du 3 mai 2012 à 09:57

Représentation des données en XML pour l’analyse d’images de documents

Titre: Représentation des données en XML pour l’analyse d’images de documents.

Auteurs

Abdel Belaïd et Yves Rangoni et Ingrid Falk.

abdel.belaid@loria.fr

yves.rangoni@loria.fr

ingrid.falk@loria.fr

Affiliation: Abdel Belaïd, LORIA – Nancy Université, Yves Rangoni, CNRS – ATILF Nancy
Mots-clés: ALTO ; TEI ; METS ; XSLT ; OCR ; reconnaissance d’images de documents

.Résumé : Nous présentons dans cet article l'utilisation du standard XML à la fois pour représenter les modèles de documents ainsi que pour décrire les résultats des différentes étapes de reconnaissance. Notre choix s'est porté sur ALTO pour la structure physique issue des OCR, sur la TEI pour la représentation de la structure logique reconnue par un système dédié, et enfin sur METS pour coordonner les deux dernières. Ne voulant pas toucher aux représentations internes des outils existants, nous avons proposé des transformations type XSL pour dériver ces formats XML. Les expérimentations menées à la fois sur la reconnaissance de documents modernes au niveau macro-structurel et sur des documents anciens au niveau micro-structurel montrent comment ce choix d'association permet de conserver les données cohérentes tout au long du processus mais aussi de proposer un résultat de rétro-conversion accessible, standardisé et pérenne.

English description

Abstract: This paper presents the use of XML format for document modelling and describing the results of document analysis and recognition steps. We have chosen ALTO for physical structure stemmed from OCR, TEI for logical structures and METS for the relationships between both. As the system tools representations are not homogeneous, we have proposed a series of XSL transforms for harmonization. The experiments performed on two kinds of documents: scientific with a macro-structure and historical with micro-structures show how this standard choice can maintain the coherence of data along all the processing chain.

Introduction

Cet article propose une solution au problème de la représentation des données par des standards dans l'analyse et la reconnaissance de documents (ARD). Les tâches principales des traitements à effectuer sont d'une part la reconnaissance de la structure physique (la forme) et d'autre part la reconnaissance de la structure logique (le fond) qui nécessitent toutes deux un format de représentation. De plus, comme la plupart des systèmes de reconnaissance manipulent en parallèle ces deux structures, les relations possibles entre physique et logique doivent aussi être représentées ^[1]. Cette dernière tâche est d'autant plus difficile que la correspondance entre structure physique et structure logique n'est jamais bijective ni unique et finalement dépend assez souvent de l'interprétation que l'utilisateur se donne du document. Un certain nombre de formats ad hoc ont été développés pour réaliser cet objectif. Peu d'entre eux ont fait l'objet de publications ou n'ont été utilisés que dans le cadre d'une application très restreinte. Quelques travaux comme DAFS ^[2] existent et proposent un formalisme mais au final, aucun n'a été réellement adopté sur une période longue, laissant à penser que les solutions proposées n'étaient pas assez extensibles ou assez complètes pour résoudre un grand nombre de cas tout en respectant les besoins des utilisateurs.

Il existe pour ainsi dire autant de formats de représentation des données que de systèmes de stockage ou de reconnaissance de document. Cette grande diversité est un frein certain à l'échange des données d'un environnement à un autre, d'une plate-forme à une autre et rend souvent les sorties de certains systèmes utilisables uniquement par eux-mêmes. Le seul point commun entre les différents formats est sans doute l'adoption de plus en plus fréquente d'une représentation en XML des données. Son utilisation est déjà un grand pas vers la normalisation même s'il est rarement possible de l'utiliser directement pour échanger des données.

Afin de résoudre le problème d'interopérabilité des systèmes manipulant des documents numériques, nous avons étudié une représentation générique utilisant des formats reconnus et standardisés. La solution proposée utilise les formats XML TEI, ALTO et METS. Nous allons montrer dans cet article comment l'association de ces trois formats peut être utilisée pour représenter toutes les données provenant d'un système de reconnaissance de documents et ceci à n'importe quelle étape de l'analyse.

Structures de documents en ARD

La Figure montre les principaux composants d’un système ARD et les types des structure qui interviennent dans ces modules. Le modèle générique présente à l’entrée les deux structures physique et logique associées dans la description d’une classe de documents. De ce modèle, on génère des hypothèses de travail pour le système de reconnaissance : c’est-à-dire les objets physiques à localiser à chaque instant dans l’image en fonction du contexte connu à ce point de l’analyse et la nature du contenu associé. L’OCR quant à lui présente le résultat de la reconnaissance du moteur utilisé, généralement sous forme physique. Finalement, le document de vérité exhibe la structure attendue qui peut être comparée à celle reconnue par le système, dans un mode d’évaluation a posteriori.

Figure 1 : Structures de documents dans un système ARD

Structurellement parlant, chacun de ces modules travaille sur un type de format propre dans lequel il exprime les particularités des structures employées.

- L’OCR limite sa sortie essentiellement à la production d’une structure physique même si quelques moteurs commencent à fournir maintenant quelques bribes de structure logique. Les éléments du XML propriétaire constitue une hiérarchie, décomposant des pages en blocs, des blocs en lignes et des lignes en caractères pour le texte, accompagnés d’attributs relatifs aux espacements et à la fonte.

- Le modèle générique met l’accent sur les constructeurs de structure (en ne se limitant pas qu’à la décomposition hiérarchique), et essentiellement sur les relations entre les contenants (éléments physiques) et les contenus (éléments logiques). La non bijection entre les deux structures conduit généralement à la mise en place de relation de correspondance plus ou moins complexes. Nous avons défini dans le système Graphein [8] un modèle physico-logique pour la description des structures pour la classe des articles scientifiques. Le modèle regroupe les deux structures pour des problèmes de visibilité. On distingue dans ce modèle :

Des constructeurs de type séquence, agrégat, mosaïque et choix avec des orientations haut bas pour les deux premiers (TB : Top-Bottom), gauche-droite (LR : Left-Right), choix.

Des séparateurs qui sont des blocs graphiques ou autres, horizontaux (HS : Horizontal Separator), verticaux (VS : Vertical Separator), etc.

Des qualificatifs concernant les objets subordonnés, comme OPT (optionnel), REQ (obligatoire) ou OC (Optionnel Conditionnel). Cela veut dire que la présence de l’objet est tributaire d’un contexte ou d’une condition de manière générale. Ce qualificatif peut être exprimé par une fonction qui exprime la conditionnalité et permet de résoudre le problème de non bijection entre la représentation physique et le contenu logique de l’objet, comme par exemple la section courante est à cheval sur deux blocs successifs.

Figure 2 : Exemple de modèle générique dans Graphein

-Le format pivot est un schéma très simplifié qu’utilise le moteur de reconnaissance du système. Il est composé d’une hiérarchie de blocs dans des pages. Chaque bloc (texte ou image) est décrit par du texte (contenu ou description) et des catégories définissant des types de propriétés. Ces dernières sont données par des attributs. Ce format est d’abord initialisé au début par le résultat de l’OCR, puis complété au fur et à mesure par le moteur de reconnaissance.
-Le document de vérité est généralement un document écrit par l’expert et correspond à ce que l’on cherche à reconnaître dans le document. Il peut être une instance du modèle générique auquel on pourrait adjoindre le contenu. A l’heure actuelle, la littérature mentionne peu de ces cas pour les documents, dont le format reste très sommaire à cause de la complexité de la représentation de ce que l’on veut valider.
-Le modèle spécifique est une instance du modèle générique. On peut utiliser un seul modèle regroupant les deux structures ou deux modèles séparés suivant l’utilité affichée pour l’une ou l’autre des deux structures. Idéalement, un seul format serait suffisant pour représenter tous ces modèles et faciliter le transfert des données entre les modules du système. Cependant, nous avons observé que chaque modèle utilise en général son propre format. Notre compréhension du potentiel offert par XML dans la représentation des structures documentaires nous a finalement conduit à laisser chaque modèle exprimé en XML avec sa propre structure, et à utiliser des transformations type XSL pour permettre les passages entre modèles, comme cela est montré dans la Figure 3.

Figure 3 : Schéma de transformation XML dans le système de reconnaissance

Notes

↑ The Text Encoding Initiative, Guidelines, manuals, tutorials, tools for encoding text. www.tei-c.org
↑ Analyzed Layout and Text Object, References and technical details about the ALTO schema. www.ccs-gmbh.com/alto

[1] The Text Encoding Initiative, Guidelines, manuals, tutorials, tools for encoding text. www.tei-c.org

[2] Analyzed Layout and Text Object, References and technical details about the ALTO schema. www.ccs-gmbh.com/alto

[1]

[2]

@@ Ligne 44 : / Ligne 44 : @@
 *Des qualificatifs concernant les objets subordonnés, comme OPT (optionnel), REQ (obligatoire) ou OC (Optionnel Conditionnel). Cela veut dire que la présence de l’objet est tributaire d’un contexte ou d’une condition de manière générale. Ce qualificatif peut être exprimé par une fonction qui exprime la conditionnalité et permet de résoudre le problème de non bijection entre la représentation physique et le contenu logique de l’objet, comme par exemple la section courante est à cheval sur deux blocs successifs.
-[[Image: CIDE 08 Belaïd 2.png|200px|thumb|center|Figure 2 : Exemple de modèle générique dans Graphein]]
+[[Image: CIDE 08 Belaïd 2.jpg|200px|thumb|center|Figure 2 : Exemple de modèle générique dans Graphein]]
 -Le format pivot est un schéma très simplifié qu’utilise le moteur de reconnaissance du système.  Il est composé d’une hiérarchie de blocs dans des pages. Chaque bloc (texte ou image) est décrit par du texte (contenu ou description) et des catégories définissant des types de propriétés. Ces dernières sont données par des attributs. Ce format est d’abord initialisé au début par le résultat de l’OCR, puis complété au fur et à mesure par le moteur de reconnaissance. <br/>
@@ Ligne 50 : / Ligne 50 : @@
 -Le modèle spécifique est une instance du modèle générique. On peut utiliser un seul modèle regroupant les deux structures ou deux modèles séparés suivant l’utilité affichée pour l’une ou l’autre des deux structures.
 Idéalement, un seul format serait suffisant pour représenter tous ces modèles et faciliter le transfert des données entre les modules du système. Cependant, nous avons observé que chaque modèle utilise en général son propre format. Notre compréhension du potentiel offert par XML dans la représentation des structures documentaires nous a finalement conduit à laisser chaque modèle exprimé en XML avec sa propre structure, et à utiliser des transformations type XSL pour permettre les  passages entre modèles, comme cela est montré dans la Figure 3.
-[[Image:CIDE 08 Belaïd 3.jpg|200px|thumb|center|Figure 3 : Schéma de transformation XML dans le système de reconnaissance]]
+[[Image:CIDE 08 Belaïd 3.png|200px|thumb|center|Figure 3 : Schéma de transformation XML dans le système de reconnaissance]]
 ==Notes==
 <references/>

CIDE (2007) Belaïd : Différence entre versions

Version du 3 mai 2012 à 09:57

Sommaire

Introduction

Structures de documents en ARD

Notes

Menu de navigation

Affichages

Outils personnels

Navigation

Rechercher

Outils