CIDE (2007) Belaïd
Représentation des données en XML pour l’analyse d’images de documents
|
Sommaire
.Résumé : Nous présentons dans cet article l'utilisation du standard XML à la fois pour représenter les modèles de documents ainsi que pour décrire les résultats des différentes étapes de reconnaissance. Notre choix s'est porté sur ALTO pour la structure physique issue des OCR, sur la TEI pour la représentation de la structure logique reconnue par un système dédié, et enfin sur METS pour coordonner les deux dernières. Ne voulant pas toucher aux représentations internes des outils existants, nous avons proposé des transformations type XSL pour dériver ces formats XML. Les expérimentations menées à la fois sur la reconnaissance de documents modernes au niveau macro-structurel et sur des documents anciens au niveau micro-structurel montrent comment ce choix d'association permet de conserver les données cohérentes tout au long du processus mais aussi de proposer un résultat de rétro-conversion accessible, standardisé et pérenne.
- Abstract
- This paper presents the use of XML format for document modelling and describing the results of document analysis and recognition steps. We have chosen ALTO for physical structure stemmed from OCR, TEI for logical structures and METS for the relationships between both. As the system tools representations are not homogeneous, we have proposed a series of XSL transforms for harmonization. The experiments performed on two kinds of documents: scientific with a macro-structure and historical with micro-structures show how this standard choice can maintain the coherence of data along all the processing chain.
Introduction
Cet article propose une solution au problème de la représentation des données par des standards dans l'analyse et la reconnaissance de documents (ARD). Les tâches principales des traitements à effectuer sont d'une part la reconnaissance de la structure physique (la forme) et d'autre part la reconnaissance de la structure logique (le fond) qui nécessitent toutes deux un format de représentation. De plus, comme la plupart des systèmes de reconnaissance manipulent en parallèle ces deux structures, les relations possibles entre physique et logique doivent aussi être représentées [1]. Cette dernière tâche est d'autant plus difficile que la correspondance entre structure physique et structure logique n'est jamais bijective ni unique et finalement dépend assez souvent de l'interprétation que l'utilisateur se donne du document. Un certain nombre de formats ad hoc ont été développés pour réaliser cet objectif. Peu d'entre eux ont fait l'objet de publications ou n'ont été utilisés que dans le cadre d'une application très restreinte. Quelques travaux comme DAFS [2] existent et proposent un formalisme mais au final, aucun n'a été réellement adopté sur une période longue, laissant à penser que les solutions proposées n'étaient pas assez extensibles ou assez complètes pour résoudre un grand nombre de cas tout en respectant les besoins des utilisateurs.
Il existe pour ainsi dire autant de formats de représentation des données que de systèmes de stockage ou de reconnaissance de document. Cette grande diversité est un frein certain à l'échange des données d'un environnement à un autre, d'une plate-forme à une autre et rend souvent les sorties de certains systèmes utilisables uniquement par eux-mêmes. Le seul point commun entre les différents formats est sans doute l'adoption de plus en plus fréquente d'une représentation en XML des données. Son utilisation est déjà un grand pas vers la normalisation même s'il est rarement possible de l'utiliser directement pour échanger des données.
Afin de résoudre le problème d'interopérabilité des systèmes manipulant des documents numériques, nous avons étudié une représentation générique utilisant des formats reconnus et standardisés. La solution proposée utilise les formats XML TEI, ALTO et METS. Nous allons montrer dans cet article comment l'association de ces trois formats peut être utilisée pour représenter toutes les données provenant d'un système de reconnaissance de documents et ceci à n'importe quelle étape de l'analyse.