CIDE (1998) Richy

Édition comparative et hypertextuelle

Titre: Édition comparative et hypertextuelle
Auteurs: Hélène Richy(1) et Jacques André(2)
Affiliations: (1) Irisa/Cnrs; (2) Irisa/Inria
In: CIDE.01 (Rabat 1998)
En ligne: http://www.irisa.fr/imadoc/articles/1998/cide98.ps.gz

Sommaire

1 Introduction
2 Méthode de comparaison
3 Hypertexte
- 3.1 Modèle logique et modèle visuel
- 3.2 Mise en œuvre
4 Expérimentation et perspectives
5 Annexe : document de synthèse
- 5.1 Modèle logique (Thot)
6 Bibliographie
7 Notes

Résumé: L'environnement d'édition comparative de documents que nous présentons propose une commande de comparaison de texte mot à mot et produit un hypertexte issu des textes comparés : cet hypertexte offre une représentation synthétique qui associe entre eux les passages semblables et permet d'analyser les transformations que ces textes ont subies, en offrant un choix de points de vue. La méthode de comparaison de textes mot à mot est une adaptation des algorithmes classiques de comparaison de chaînes de caractères dont les performances ont récemment améliorées pour répondre aux besoins de l'analyse moléculaire des séquences génétiques en biologie moléculaire.

Introduction

L’environnement d’édition comparative que nous proposons ici permet de produire un document synthétique hypertextuel mettant en évidence les similitudes de deux textes. Cet environnement est expérimenté dans le cadre du projet Philectre ^[1]. Une commande de comparaison adaptée au travail d’édition textuelle prend en compte la spécificité des textes et leur composition en mots, phrases ou paragraphes, et permet d’effectuer des recherches exactes ou approchées dans un ou plusieurs documents.

Cet environnement offre une première solution au problème de comparaison entre manuscrits qui joue un rôle crucial dans le domaine des éditions savantes (et ce depuis longtemps, voir par exemple la synopse des évangiles [6]).

En effet, l’objectif d’un environnement d’édition comparative est de favoriser l’étude des similitudes entre différents textes ou différents passages d’un même ouvrage. Cette recherche des similitudes revêt en réalité des aspects fort différents selon le type des passages que l’utilisateur souhaite localiser. La liste suivante n’est évidemment pas exhaustive :

localisation de passages identiques, c’est-à-dire composés des mêmes mots,dans le même ordre ;
localisation de passages proches (approximate matching), c’est-à-dire comportant quelques variations de contenu, résultant d’insertion, de suppression ou de remplacements de certains mots par d’autres ;
localisation de passages sémantiquement proches, c’est-à-dire dont le sens est voisin ;
localisation de passages construits de la même manière : structure grammaticale, rhétorique ou logique identique ou similaire, etc.

Afin de prendre en compte la diversité de ces objectifs, nous proposons une technique de comparaison évolutive ainsi qu’un modèle de document visant à favoriser la compréhension de ces similitudes :

l’algorithme de comparaison, décrit dans la section 2, permet de déterminer différents types de passages : le plus long, le plus proche, tous les passages identiques, etc.
à travers différentes représentations visuelles, les documents structurés offrent une vision synthétique et hypertextuelle facilitant l’édition comparative, qui est décrite dans la section 3. Le document de synthèse produit est un document de travail qui peut être transformé et édité par l’utilisateur.

Méthode de comparaison

Des algorithmes de comparaison développés depuis les années 1970 [1, 15, 26, 27] sont utilisés sur ordinateurs pour comparer des séquences de caractères (comparateur de fichiers [12], correcteur dactylographique [2, 24]). Ces algorithmes, qui ont été généralisés pour faciliter la recherche de sous-séquences semblables ou l’alignement de séquences [11, 19, 25, 28], ont une application directe en biologie moléculaire et en reconnaissance de la parole. Des améliorations concernant le temps de calcul et l’occupation mémoire ont été apportées à l’algorithme de base, permettant d’étendre son application à la comparaison de données volumineuses. Compte-tenu de ces récentes améliorations, il est maintenant réaliste d’envisager d’adapter ces algorithmes à l’analyse des similitudes de textes, de plusieurs pages, voire plusieurs dizaines de pages, composés de dizaines de milliers de mots.

Principe général

Les méthodes de comparaison caractère par caractère reposent sur les opérations d’édition : la substitution, l’insertion et l’omission. Toute chaîne de caractères peut être transformée à l’aide de ces opérations en une autre chaîne. On appelle distance de deux chaînes A et B, le nombre minimum d’opérations ^[2] requises pour obtenir la chaîne B à partir de la chaîne A.

Le principe général de la méthode de comparaison reste le même lorsqu’elle est appliquée à des mots entiers et non plus à des caractères. Il suffit de pouvoir définir, pour n’importe quel mot, quelle est sa distance avec n’importe quel autre mot. Le calcul le plus simple consiste à considérer que la distance de deux mots est nulle si ces deux mots sont identiques (composés des mêmes caractères, dans le même ordre) et non nulle dans tous les autres cas.

Le calcul de la distance entre deux textes s’appuie sur une matrice de similitude $H$ de dimension $n\times m$ , dans laquelle $n$ est le nombre d’éléments du premier texte et $m$ le nombre d’éléments du second texte. Cette matrice est calculée récursivement de telle sorte que les plus fortes valeurs coïncident avec les plus longs passages communs. Ainsi, appliquée aux mots d’un texte, cette méthode permet de localiser les passages qui sont composés exactement des mêmes mots, dans le même ordre (section 2.2), quels que soient ces mots, ou les passages dont le contenu est très proche (section 2.3).

Recherche exacte

Lorsque l’objectif du calcul est de trouver la position exacte des passages identiques de deux textes, il suffit de poser $H(i,j)=H(i-1,j-1)+1$ si l’élément de rang i du premier texte est égal à l’élément de rang j du second texte et $H(i,j)=0$ si ces deux éléments sont différents. On obtient ainsi dans la matrice H des coefficients croissants alignés en diagonale lorsqu’apparraissent des passages communs : par exemple, dans la comparaison des textes^[3] ABEFBCDXF et ABCDEF, quatre passages communs sont identifies par la présence de coefficients non nuls dans la matrice. Comme l’indique le coefficient maximum de la figure 1, le plus long passage est composé de 3 éléments (BCD).

Recherche approchée

Lorsque l’on souhaite une identification des passages similaires, c’est-à-dire des passages qui ne différent que sur un petit nombre d’éléments, on peut là aussi, de finir le degré ́ de ressemblance par la distance d’édition: celle qui correspond au nombre minimal de substitutions, d’insertions ou de suppressions d’éléments à effectuer sur un passage pour qu’il soit identique à un autre passage. Des algorithmes de recherche approchée ont été développés pour résoudre ce type de problème, tel celui que Smith et Waterman [25, 28] ont adapté pour la recherche d’alignement des séquences génétiques.Une application simple de cet algorithme consiste, par exemple, à utiliser la formule de calcul suivante pour construire la matrice H :

Échec d'analyse (erreur de syntaxe): {\displaystyle H(i,j) = Max(0,H(i,j-1)-α,H(i-1,j)-α,H(i-1,j-1)+Sbt(i,j)} où Sbt est le coût de substitution de deux éléments et α le coût d’une insertion ou omission. La figure 3 montre la matrice de comparaison des textes (de Céline) TA = « Puis il m’observe sans hardiesse » et TB = « il m’observe aussi sans hardiesse » avec cette formule et les paramètres :α=1,Échec d'analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité): Réponse invalide(« Math extension cannot connect to Restbase. ») du serveur « https://wikimedia.org/api/rest_v1/ » :): {\displaystyle Sbt(i,j)=±100} [4]. Pour localiser les passages similaires à partir d’une telle matrice, la méthode de recherche approchée consiste à trouver le coefficient maximum. Un algorithme récursif de parcours en arrière [11] permet de remonter depuis ce maximum jusqu’à l’origine du passage où se trouve un coefficient nul, en suivant un parcours non rectiligne dans la matrice. Pour retrouver d’autres passages similaires, il suffit de remettre à zéro la trace du parcours trouvé et d’annuler les effets qui lui sont associés en recalculant les coefficients voisins, puis de trouver le nouveau maximum et refaire un parcours en arriére pour déterminer le meilleur passage.

Interprétation des résultats

Le choix des paramètres (coût de la première insertion et coût des insertions suivantes, coût des suppressions, etc.) et de la fonction Sbt permet d’obtenir des séquences plus ou moins longues et plus ou moins proches. La diversité ́ des résultats obtenus par différents parametrages est souvent intéressante à analyser. En effet, la notion de proximité de deux séquences est difficilement mesurable. Seule une connaissance sémantique, propre à l’application (biologie, structure grammaticale, etc.) peut permettre d’interpréter correctement ces résultats, comme le montre l’exemple suivant (figure 2) : sur les deux textes ABEFBCDXF et ABCDEF, on peut considérer que le premier texte a subi l’une des transformations suivantes :

Suppression de EFB après AB, puis remplacement de X par E : AB(EFB)CD(X)[E]F (trace x)
Insertion de CD après AB, puis suppression de BCDXF après EF : AB[CD]EF(BCDXF) (trace y )
Suppression de BEF après A, puis remplacement de X par E : A(BEF)BCD(X)[E]F (trace z )

S’agissant d’un texte composé de mots, l’interprétation sémantique ou grammaticale de ces transformations, peut permettre de privilégier certaines solutions. Dans l’exemple précédent la solution (3) sera retenue si les passages (BEF) et (BCD) correspondent à un groupe grammatical.

Améliorations

L’approche que nous avons choisie pour comparer des textes mot à mot est indépendante de toute considération sémantique sur le contenu des textes à comparer.

Figure 1 : Matrice des occurrences exactes

Figure 2 : Trace des similitudes

Figure 3 : Matrice de comparaison mot à mot

Toutefois, l’algorithme de comparaison étant basé sur un calcul de distance, il est possible d’envisager des adaptations pour répondre au troisième objectif de la section 1. Ces adaptations portent sur la définition des unités textuelles et le calcul de la distance entre ces unités.

récupération d'un article en Postscript

Les unités textuelles comparées sont généralement les mots d’un texte. Un mot est identifié comme une suite de caractères alphabétiques délimitée par des séparateurs qui sont les signes de ponctuation, les espaces ou les débuts et fin de paragraphes. Ces unités textuelles peuvent être définies autrement, par exemple :

en utilisant des lexiques de vocabulaire, on peut définir des unités textuelles qui sont non seulement des mots, mais aussi des groupes de mots : expressions usuelles, mots composés, etc.
en utilisant comme délimiteurs les balises d’un document structuré,on peut considérer comme unités textuelles le contenu des éléments balisés (avec les balises de la TEI (Text Encoding Initiative) [9], par exemple).

La suite de cette page est un simple copier/coller à partir d'un support tel que PDF ou Word.

Il a été laissé en ligne dans l'état pour permettre une sélection de type « full text » par le moteur de recherche du wiki.

Sa présence permet également d'améliorer la cohérence sémantique du wiki. Nous avons donc préconisé une approche opportuniste où les améliorations et finitions sont réalisées en fonction des besoins des utilisateurs de ce wiki.

Toute contribution pour améliorer la présentation est bienvenue.

récupération d'un article en Postscript

D’autre part, l’utilisation de ponde ́rations permet de de ́finir la proximite ́ se ́man- tique de deux mots ou groupes de mots. Par exemple, la distance entre unite ́s textuelles d’un meˆme lexique peut eˆtre conside ́re ́e comme plus faible que la distance entre unite ́s appartenant a` des lexiques diffe ́rents. Les mots au singulier et au pluriel, les formes conjugue ́es d’un meˆme verbe, etc. peuvent aussi eˆtre conside ́re ́s comme tre`s proches. 498 Ainsi, en conside ́rant la distance non plus comme une valeur de [0, 1] mais dans un intervalle [0, n], les re ́sultats de l’algorithme prennent une toute autre signification. La me ́thode de comparaison pre ́sente ́e ici permet donc de comparer non seule- ment les mots d’un texte, mais aussi, si elle est applique ́e a` des textes pre ́-de ́coupe ́s en fragments4 ou en unite ́s lexicales, des unite ́s textuelles quelconques,

Hypertexte

L’application des mode`les structure ́s et le de ́veloppement d’outils d’e ́dition inter- actifs favorise la consultation et la production d’(hyper)documents e ́lectroniques [21]. C’est pourquoi, nous proposons d’utiliser un tel mode`le de document pour synthe ́ti- ser le re ́sultat de la comparaison de deux textes. De plus, lorsque l’on ne s’inte ́resse pas uniquement a` la forme visuelle des documents, l’existence d’un mode`le logique inde ́pendant des machines et logiciels utilise ́s facilite l’e ́change des documents.

Un hypertexte de ́signe un document structure ́ interactif comme on en trouve sur l’internet (les documents HTML [22]) ou plus ge ́ne ́ralement dans le domaine de la documentation e ́lectronique structure ́e (les documents SGML [13]). Le concept de document structure ́ [10] offre un mode`le de l’organisation logique des e ́le ́ments d’un document et permet ainsi de de ́finir une se ́paration entre la structure de document, son contenu et sa forme visuelle. Ce concept privile ́gie la structuration hie ́rarchique. Tou- tefois, la notion de lien confe`re aux documents structure ́s une dimension hypertexte.

Par exemple, pour repre ́senter un renvoi a` une note ou a` une illustration dans un document structure ́, on utilisera des e ́le ́ments 􏰗􏰗 re ́fe ́rence 􏰘􏰘, de telle sorte qu’un simple clic sur cet e ́le ́ment 􏰗􏰗 re ́fe ́rence 􏰘􏰘 suffise a` faire apparaˆıtre la note ou l’illustration. Ainsi, l’image nume ́rique d’un manuscrit, par exemple, pourra eˆtre affiche ́e dynami- quement aux coˆte ́s de sa retranscription. En attendant que des programmes de recon- naissance automatique puissent produire automatiquement ce type de re ́sultat [23], l’utilisateur doit placer lui-meˆme les liens pertinents entre l’image du manuscrit et sa transcription.

Modèle logique et modèle visuel

Nous pre ́sentons le re ́sultat de la comparaison de deux textes par un document structure ́ qui contient, outre les deux textes compare ́s, une description des corres- pondances e ́tablies entre ces deux textes. Dans ce document de synthe`se, chacun des textes initiaux est de ́coupe ́ en fragments. Un fragment de ́limite un passage de texte qui peut eˆtre soit commun aux deux textes initiaux (passage identique), soit ajoute ́, soit supprime ́, soit modifie ́. Les correspondances entre ces deux textes sont ordonne ́es et permettent, par des liens explicites, de retrouver le passage correspondant dans chacun de ces textes.

4. Plusieurs expe ́riences effectue ́es lors de stages de DEA, dans le cadre du projet Ope ́ra, a` l’Imag de Grenoble (F. Burgnard et A. Delfosse en 1992, L. Boivin en 1994) ont permis de mettre en correspondance des documents dont la structure ou le contenu pre ́sentent des similitudes importantes. Plus pre ́cise ́ment, en de ́signant TA et TB les deux textes compare ́s dans le do- cument de synthe`se S, la comparaison de TA et TB est repre ́sente ́e par une mise en correspondance d’un fragment de TA avec un fragment de TB. Pour repre ́senter la suppression d’un passage qui existe dans TA, mais est absent de TB, un fragment vide est inse ́re ́ dans TB a` l’emplacement correspondant. Inversement, pour repre ́senter l’in- sertion d’un passage qui n’existait pas dans TA, un fragment vide est inse ́re ́ dans TA a` l’emplacement de cette insertion. Le mode`le logique d’un document de synthe`se peut eˆtre de ́crit en utilisant une description SGML, conforme a` la TEI (voir annexe).

L’utilisation de mode`les de structure et la se ́paration entre structure de document et contenu permet de de ́crire l’aspect visuel des documents a` partir des types logiques qui les composent en utilisant pour cela un langage de style [17]. L’inde ́pendance du mode`le visuel et du mode`le logique facilite l’expe ́rimentation: diffe ́rentes pre ́senta- tions peuvent eˆtre propose ́es et adapte ́es aux besoins spe ́cifiques des utilisateurs. Des vues comple ́mentaires facilitent la perception des lieux variants des textes compare ́s : index alphabe ́tique des mots, pre ́sentation d’une liste des passages communs classe ́s par taille de ́croissante, numme ́rotations des occurrences de certains passages, etc.

Mise en œuvre

Ne disposant pas actuellement d’un environnement d’e ́dition adapte ́ a` la TEI, nous avons effectue ́ une premie`re expe ́rimentation des commandes de comparaison en utilisant l’e ́diteur Thot, e ́diteur structure ́ interactif issu de Grif [7, 20]. L’architecture de cet e ́diteur est conc ̧ue pour faciliter l’inte ́gration de nouvelles commandes qui sont vues par l’utilisateur comme des outils comple ́mentaires accessibles depuis l’e ́diteur. Cette mise en œuvre pre ́sente les caracte ́ristiques suivantes. – Un mode`le logique expe ́rimental e ́quivalent a` celui de la TEI (de ́crit dans l’an- nexe) a e ́te ́ cre ́e ́ en langage S et est utilise ́ par l’e ́diteur Thot. – Une pre ́sentation expe ́rimentale adapte ́e a` ce mode`le logique a e ́te ́ de ́finie en langage P pour l’e ́diteur Thot. Cette spe ́cification, permet de de ́crire plusieurs vues pour un meˆme document: les fragments de texte sont affiche ́s en paralle`le ou juxtapose ́s pour faciliter la visualisation des correspondances. – La comparaison de texte repose sur deux nouvelles commandes 5 qui permettent de de ́limiter les textes a` comparer (Se ́lection A + Se ́lection B) et de lancer la comparaison de ces deux textes (Comparaison) en ayant pre ́alablement modifie ́, si ne ́cessaire, certaines options du comparateur. 􏰊

Expérimentation et perspectives

Choix d'implémentation

Pour les premie`res expe ́rimentation afin de faciliter l’ajustement des parame`tres, le comparateur a e ́te ́ utilise ́ sans avoir recours a` un lexique : les mots compare ́s sont les 5. Ces commandes sont programme ́es en langage C et utilisent l’API (Application Program- ming Interface) de Thot. mots simples, la ponctuation joue le roˆle de se ́parateur de mots, la distance entre mot est minimale (nulle) si les mots sont identiques et maximale si les mots sont diffe ́rents, meˆme s’ils ne diffe`rent que d’un ou deux caracte`res ou s’ils sont synonymes.

Les textes compare ́s re ́sultent d’une transcription fide`le de documents originaux, manuscrits ou imprime ́s: texte en franc ̧ais accentue ́ (code Iso-Latin1), incluant la typographie (ponctuation et capitales), structure ́s e ́ventuellement en paragraphe. Le calcul de la matrice de comparaison fait appel au calcul de deux matrices interme ́diaires et peut exiger un recalcul partiel pour la recherche successive de plu- sieurs passages proches. Pour comparer des textes volumineux, il est donc ne ́cessaire d’utiliser une me ́thode de programmation dynamique ou un environnement de calcul disposant de me ́moire virtuelle (Matlab [16] sur station Sun sous Unix, par exemple), ou encore un circuit spe ́cialise ́ tel que celui qui a e ́te ́ de ́veloppe ́ pour les se ́quences ge ́ne ́tiques [5, 14].

Options de notre comparateur

La commande de comparaison mot a` mot est accessible a` l’utilisateur directe- ment depuis l’interface d’e ́dition. Apre`s ouverture du ou des documents concerne ́s et la se ́lection des deux passages a` comparer, la commande de comparaison permet de choisir les options de la comparaison (prise en compte ou non des majuscules, production d’un re ́sultat graphique, algorithme) et de demander la construction d’un document de synthe`se.

Lorsque la comparaison est termine ́e, le document de synthe`se produit par le comparateur est ouvert et affiche ́ par l’e ́diteur comme n’importe quel autre document structure ́.

Édition interactive

Toutes les fonctions d’e ́dition habituelles sont disponibles pour consulter ou mo- difier le document de synthe`se ouvrir ou fermer des vues, suivre les liens vers des passages supprime ́s, de ́velopper les passages longs (figure ́s sous une forme contrac- te ́e), modifier les fragments, couper certains passages, modifier les couleurs, etc. Comme le montre la figure 4, la pre ́sentation du document de synthe`se ne fait pas apparaˆıtre les balises contenues dans le document (cad. les de ́limiteurs d’e ́le ́ments dans un document structure ́), mais uniquement le contenu de ce document : les textes a` comparer sont pre ́sente ́s se ́pare ́ment et juxtapose ́s, les superposistions indiquent les variantes, la couleur rappelle l’origine des textes, les liens entre les passages per- mettent de passer d’un texte a` l’autre.

Perspectives

Dans cet article nous avons pre ́sente ́ un environnement d’e ́dition comparative hypertextuelle et nous avons montre ́ que : – les me ́thodes de comparaison utilise ́es pour comparer des chaˆınes caracte`re par caracte`re sont utilisables pour comparer des textes mot a` mot et donnent des

FIG. 4 – Édition comparative avec Thot : en haut, deux extraits de diffe ́rentes versions de 􏰗􏰗 Fe ́e ́rie pour une autre fois 􏰘􏰘 de Ce ́line; a` gauche, vue synthe ́tique et liste des fragments; à droite, trace ́ comparatif

re ́sultats pre ́cis, – un mode`le structure ́ hypertextuel facilite la visualisation des lieux variants des textes compare ́s, – l’inte ́grationd’outilsdetraitementdestextesdansunenvironnementd’e ́ditionin- teractive multime ́dia permet de re ́pondre aux besoins des chercheurs en sciences humaines.

Les premie`res expe ́rimentations nous engagent a` poursuivre les recherches dans ces deux directions afin d’une part, d’ame ́liorer la comparaison en utilisant des res- sources lexicales et en identifiant des unite ́s textuelles quelconques et, d’autre part, de produire des (hyper)documents conformes aux normes de la communaute ́ interna- tionale (TEI [9], XML [8]). Ainsi, de nouveaux outils informatiques pourront-il eˆtre applique ́s aux livres e ́lectroniques et en particulier au domaine de la critique ge ́ne ́- tique, de`s que des expe ́rimentations en grandeur re ́elle auront e ́te ́ e ́value ́es par des spe ́cialistes en sciences humaines.

Annexe : document de synthèse

Modèle logique (Thot)

Le mode`le logique est repre ́sente ́ par l’arbre des types de la figure 5. Dans cet arbre, le rectangle arrondi figure une unite ́ de base (texte en trait plein et re ́fe ́rence en pointille ́), le rectangle ombre ́ repre ́sente une liste d’e ́le ́ments de meˆme type, le rectangle repre ́sente un agre ́gat d’e ́le ́ments de type diffe ́rents et l’ellipse ombre ́e re- pre ́sente un choix entre plusieurs types d’e ́le ́ments.

Segment Anchor Div_A Fragments Fragments Div_B Synthesis Fragment Link Com Diff Add Del TEXT NIL Ref (Segment) Ref (Segment) Ref (Segment) Ref (Segment) Ref (Anchor) Ref (Segment) Ref (Segment) Ref (Anchor) Compar_AB Links FIG. 5 – Mode`le logique d’un document de synthe`se (Synthesis) Conforme ́ment a` ce mode`le, les deux textes compare ́s TA et TB sont place ́s dans les e ́le ́ments Div A et Div B. Ils sont de ́coupe ́s en segments; des e ́le ́ments Anchor sont ajoute ́es pour marquer l’emplacement des insertions ou suppressions. La synthe`se de comparaison (Compar AB) est de ́crite par une liste ordonne ́e de couples de liens vers ces fragments : le premier lien pointe toujours sur un fragment de TA, le second sur un fragment de TB. Codage du document en SGML 􏰗TEI􏰘 La TEI pre ́voit diffe ́rents me ́canismes de mise en correspondance des textes. Une solution simple consiste a` de ́couper les textes en segments et a` repre ́senter les correspondances entre ces segments par un ensemble ordonne ́ de liens. Par exemple, le document de synthe`se ci-dessous (figure 6) code ́ en SGML utilise les balises 􏰚seg􏰛, 􏰚anchor􏰛 et 􏰚linkGrp􏰛 de la TEI . Mod􏰁ele visuel Plusieurs vues du document de synthe`se apparaissent dans la figure 4 : la vue glo- bale du document (Vue texte) qui permet d’afficher les deux textes et une pre ́sentation juxtaline ́aire des passages en correspondance et la vue des fragments (Vue fragments) qui donne la liste des fragments de chaque texte et, pour chaque correspondance, la juxtaposition des fragments. Ces vues sont spe ́cifie ́es pour Thot en langage P. Au travers de ces vues, l’utilisateur perc ̧oit les re ́sultats de l’analyse des textes : – la segmentation du texte re ́sultant de la comparaison,

<div1 id=TA corresp=TB>
<seg id=A1>puis </seg>
<seg id=A2>il m’observe</seg>
<anchor id=a1>
<seg id=A3>sans hardiesse</seg> </div1>
<div1 id=TB corresp=TA>
<anchor id=b1>
<seg id=B1>il m’observe </seg>
<seg id=B2>aussi </seg>
<seg id=B3>sans hardiesse </seg> </div1>
<linkGrp type=’compar’ domains=’TA TB’>
<link type=’del’ targType=’anchor seg’ targets=’A1 b1’> 
<link type=’com’ targType=’seg seg’ targets=’A2 B1’> 
<link type=’add’ targType=’seg seg’ targets=’a1 B2’> 
<link type=’com’ targType=’seg seg’ targets=’A3 B3’>
</linkGrp>

FIG. 6 – Document de synthèse (codage TEI)

– les diffe ́rences: une couleur diffe ́rente est attribue ́e a` chaque texte. Dans la vue comparative, les variantes d’un meˆme passage sont juxtapose ́es verticalement. Pour faciliter la vision globale, les passages trop longs sont contracte ́s (un simple clic permet d’en voir le contenu complet). – lacorrespondanceentrelesdeuxtextes:unsimpleclicdepuislavuecomparative permet de se ́lectionner le passage correspondant ou l’emplacement du passage manquant dans le texte initial. Lorsque les textes sont volumineux, on peut afficher le re ́sultat de la comparaison sous une forme graphique (figure 4) ce qui permet de choisir dans le document de synthe`se les passages inte ́ressants qui pourront eˆtre analyse ́s plus en de ́tail par la suite.

Bibliographie

[1] ↑ A. Aho, , « Algorithm for Finding Pattern in Strings », Handbook of Theorical Computer Science, J. van Leeuwen, ed., p. 257-300, MIT Press, 1990.

[2] ↑ J. André, « Les vérificateurs orthographiques »,Le document numérique,1(2),p.247-251, Hermès, juin 1997.

[3] ↑ J. André, et H. Richy, « Hypertextes ou documents structurés », Hypertextes et Hypermédias, 1(2-3-4), p. 13-26, Hermès, 1997.

[4] ↑ J. André, A. Morin et H. Richy, « Comparison of Literary Texts Using Biological Se- quence Comparisons and Structured Document Capabilities », Proceedings of the International Conference on Computational Linguistics, Speech and Document Processing, Indian Statistical Institute, Calcutta, India, 1998, p. D-1–D-7.

[5] ↑ L. Audoire, J.-J. Codani, D. Lavenier et P. Quinton, « Machines spécialisées pour la comparaison de séquences biologiques », Technique et Science Informatique, 14(1), 1995.

[6] ↑ P. Benoît et M.-E. Boismard, Synopse des Quatre E ́vangiles, Le Cerf, Paris, 1990.

[7] ↑ S. Bonhomme, V. Quint, H. Richy, C. Roisin, and I. Vatton, The Thot User’s Manual, OPERA project, Inria-Imag, http://opera/inrialpes.fr/doc/thot/Thotman-E.html, 1997.

[8] ↑ T. Bray and C.M. Sperberg-McQueen, Extensible Markup Language (XML), Working Draft, http://www.w3.org/pub/WWW/TR, 31 mars 1997.

[9] ↑ L.Burnard, and C. M. Sperberg-McQueen, TEI Lite : An Introduction to Text Encodingfor Interchange, TEI U 5, http://www.uic.edu/orgs/tei/intros, juin 1995. Voir aussi, Cahiers GUTenberg, 24, juin 1996.

[10] ↑ R. Furuta, V. Quint, and J. André, « Interactively Editing Structured Documents », Elec- tronic Publishing, 1(1), p. 20-44, avril 1988.

[11] ↑ O. Gotoh, « An improved Algorithm for Matching Biological Sequences », J. Mol. Biol., 162, p. 705-708, 1982.

[12] ↑ J. W. Hunt and T. G. Szymanski, « A fast algorithm for computing longuest common subsequences », Comm. ACM, 20(5), p. 350-353, 1977.

[13] ↑ ISO, Langage normalisé de balisage généralisé (SGML), ISO 8879, 1986.

[14] ↑ D. Lavenier, « Dedicated Hardware for Biological Sequence Comparison », Journal of Universal Computer Science, 2(2), février 1996.

[15] ↑ V.I.Levenshtein,« Binarycodes capable of correction deletions,insertion andr eversals», Sov. Phys. Dokl., 10, p. 707-710, février 1966.

[16] ↑ Matlab, High-Performance Numeric Computationand Vizualisation Software,The MathWorks, Inc., Natick, Mass., 1984-1993.

[17] ↑ H.Richy,« Feuilles de style pour le Web»,Cahiers GUTenberg, 26,133-145,1997.

[18] ↑ L. Likforman-Sulem, L. Robert, E. Lecolinet, J.-L. Lebrave et B. Cerquiglini, « E ́dition hypertextuelle et consultation de manuscrits : le projet Philectre », Hypertextes et Hyper- médias, 1(2-3-4), p. 299-310, Hermès, 1997.

[19] ↑ S. Needleman and C. Wunsch, « A General Method Applicable to the Search of Simi- liraties in the Amino Acid Sequence of Two Proteins », J. Biol. Mol., 48, p. 443-453, 1970.

[20] ↑ V. Quint, and I. Vatton, « Grif, an Interactive System for Structured Document Manipu- lation », Text Processing and Document Manipulation, Proceedings of the International Conference, J. C. van Vliet, ed., p. 200-213, Cambridge University Press, 1986.

[21] ↑ V. Quint and I. Vatton, « Making structured documents active », Electronic Publishing - Origination, Dissemination and Design, 7(2), p. 55-74, juin 1994.

[22] ↑ D. Ragget, HTML 3.2 Reference Specification, W3C Recommendation, http://www.w3.org/pub/WWW/TR/REC-html32.html, janvier 1997.

[23] ↑ L.Robert,L.Likforman-Sulem, and E.Lecolinet,« Imageand Text Coupling for Creating Electronic Books from Manuscripts », Proceedings ICDAR’97, Ulm, aouˆt 1997.

[24] ↑ H. Richy, P. Frison, and E. Picheral, « Multilingual String-to-String Correction in Grif, a Structured Editor », Proceedings of Electronic Publishing 1992 (EP92), C. Vanoirbeek et G. Coray, ed., p. 183-198, Cambridge University Press, avril 1992.

[25] ↑ T.Smithand M.Waterman,« Identification of common molecular subsequences»,J.Mol. Biol., 14(7), p. 195-197, 1981.

[26] ↑ G.S.Stephen,« String Searching Algorithms», Word Scientific,Singapour,1994.

[27] ↑ R. Wagner and M. Fischer, « The string-to-string correction problem », J. ACM, 21(1), p. 168-178, 1974.

[28] ↑ M. Waterman and M. Eggert, « A New Algorithm for Best Subsequence Alignments with Application to tRNA-rRNA Comparisons », J. Mol. Biol., 197, p. 723-728, 1987.

Notes

↑ Philectre[3][18]est un projet du GIS « Sciences de la Cognition » sur le thème « Mutation de l’édition induite par le livre électronique ».
↑ D’autres opérations, telles que la permutation ou les substitutions en cascade, etc. pourraient être considérées.
↑ Pour simplifier la description de cet exemple, chaque élément ou mot est représenté par une lettre capitale. Un passage est donc représenté par une ou plusieurs lettres capitales successives. On trouvera en figure 3 un exemple de comparaison de textes composés de mots.

[1] Philectre[3][18]est un projet du GIS « Sciences de la Cognition » sur le thème « Mutation de l’édition induite par le livre électronique ».

[2] D’autres opérations, telles que la permutation ou les substitutions en cascade, etc. pourraient être considérées.

[3] Pour simplifier la description de cet exemple, chaque élément ou mot est représenté par une lettre capitale. Un passage est donc représenté par une ou plusieurs lettres capitales successives. On trouvera en figure 3 un exemple de comparaison de textes composés de mots.

[1]

[2]

[3]