Vérification sémantique de liens hypertextes avec LSA

Philippe Dessus

Laboratoire des sciences de l’éducation,

Bât SHM, 1251 av. Centrale, BP 47,

Université Pierre-Mendès-France

38040 GRENOBLE CEDEX

Philippe.Dessus@upmf-grenoble.f

RESUME : L’objet de cet article est de vérifier si une méthode d’analyse factorielle multidimensionnelle issue de la recherche automatique de documents prédit de manière adéquate les liens hypertextes de deux types de bases textuelles sur l’astronomie : un dictionnaire encyclopédique et un ensemble de cours sur Internet. Notre première étude a montré que la relation de proximité sémantique entre deux termes (une entrée et une cible) liés hypertextuellement dans le dictionnaire croît avec la typicalité de l’entrée. À un niveau plus général, LSA prédit correctement l’ordonnance de documents WWW formant un cours. Il pourrait donc être utilisé à cette fin dans un logiciel générant des documents didactiques qui reste à implémenter. L’avantage de LSA est qu’il ne requiert pas, comme la plupart des systèmes issus de la recherche documentaire, d’index « manuel » dont la qualité est trop dépendante de la personne qui le construit. ABSTRACT : The purpose of this paper is to test whether LSA, a factorial analysis IR method, predicts hypertext links of two text corpora. Two documents were used: a hypertext dictionary and an Internet course, both in astronomy. A first study shows that given two linked terms (an entry and its target), the more the entry is typical, the more both terms are semantically close. In a second study we show that LSA predicts the WWW course structure. LSA does not require complex human pre-processing and could be used to automatically create hypertext courses. MOTS-CLES : Génération automatique de liens, LSA (latent semantic analysis), Recherche automatique de documents, Documents WWW, Encyclopédie sur CD-ROM. KEY WORDS : Automatic Hypertext Links Processing, LSA (Latent Semantic Analysis), Information Retrieval, Web documents, CD-ROM encyclopedia.

2 Titre de l’ouvrage

1. Introduction

L’objet de cet article est de vérifier si une méthode d’analyse factorielle multidimensionnelle issue de la recherche automatique de documents prédit de manière adéquate les liens hypertextes de deux types de bases textuelles sur l’astronomie : un dictionnaire encyclopédique et un ensemble de cours sur Internet. LSA (latent semantic analysis), le modèle utilisé ici, rend compte assez fidèlement de l’apprentissage et de l’utilisation du langage humain, pour peu qu’on lui ait fait traiter, au préalable, de grands corpora [LAN 97]. Il a également été testé avec succès dans l’évaluation de la cohérence textuelle [FOL 98]. Pour ces raisons, nous allons ici tester ses capacités pour révéler la nature sémantique de liens hypertextes dans de grands corpora textuels, en vérifiant les relations de synonymie entre deux termes liés hypertextuellement (une entrée et une cible), ainsi que la grandeur de l’effet de l’introduction d’un document de cours dans une base textuelle du même domaine. Si notre test s’avère concluant, LSA pourrait être utilisé comme aide à la génération de liens hypertextes ou à l’ordonnance de documents de cours, sans requérir préalablement de formalisation sémantique du domaine de la part du concepteur. On peut distinguer trois approches visant à hypertextualiser automatiquement un document [BAL 96] :

–l’approche structurelle qui permet une conversion automatique de textes en hypertexte, une fois que la structure du document a été définie par l’auteur [WEN 96]. Si la navigation dans un ensemble de liens hypertextes induit une charge mentale importante pour le lecteur [EDW 89], il en est de même pour l’auteur à propos de la conception de ces liens¹ . La conversion de plus larges corpora de textes devient donc encore plus longue et problématique ²;

— l’approche linguistique qui permet, à l’aide d’une indexation préalable (au niveau syntaxique), de proposer des mots-clés que le lecteur pourra suivre ; — l’approche statistique où l’on construit, par analyse factorielle, un espace vectoriel multidimensionnel où les documents et/ou termes sont représentés d’après leurs co-occurrences. Des requêtes [CUN 97] ou des cartes [CHE 97] permettent à l’utilisateur de se repérer au sein de cet espace vectoriel et de récupérer les documents correspondants.

L’approche que nous allons développer ici est de type statistique, car LSA manipule un espace vectoriel multidimensionnel, sur lequel il réalise une forme d’analyse factorielle. La différence avec les autres modèles présentés plus haut est qu’il réalise sur les données textuelles un mécanisme inductif qui rapproche sémantiquement des termes co-occurrents, ou des termes proches de termes cooccurrents. Ainsi, aucune connaissance du domaine, formalisée par un humain, n’est nécessaire au préalable (par exemple des thesauri). Après avoir décrit plus en détail le modèle de LSA ainsi que quelques-unes de ses validations, nous tenterons de répondre à deux questions : 1) LSA peut-il prédire les liens hypertextes d’un

––––––––––––––––––––––––––––––––––––

¹ Par exemple, HEFTI [CHI 91] demande une journée pour convertir un livre de 400 pages sous forme hypertextuelle.

² Balpe et al. [BAL 96] donnent quelques raisons à cela : les corpora et index sont volumineux, les données sont « diluées », c'est-à-dire que chaque unité-document n'utilise qu'une très faible proportion du vocabulaire et sont de type pick-any, c'est-à-dire que le choix des termes descripteurs pour l'indexation dépend fortement de la personne qui la réalise.

dictionnaire encyclopédique ? ; 2) LSA peut-il prédire l’ordonnance d’une série de documents WWW séquentiels ?

2. LSA, une méthode d’analyse factorielle multidimensionnelle

2.1. Description du modèle

LSA ³, pour latent semantic analysis (analyse sémantique latente) est un modèle statistique, fondé sur un type d’analyse factorielle ⁴ , permettant d’analyser la proximité sémantique à l’intérieur d’un grand ensemble d’unités d’informations textuelles. Initialement, LSA a été conçu pour améliorer l’efficacité de l’interrogation de systèmes documentaires informatisés, la plupart du temps fondés sur un appariement lexical plutôt que sémantique. Le modèle de LSA suppose que, étant donné plusieurs « contextes » (unités d’information textuelle, soit phrases, paragraphes, discours…), il existe une structure latente dans l’utilisation des mots communs à ces contextes et qu’une analyse statistique permet de mettre en évidence cette structure. Le modèle de LSA pose que la similarité sémantique de deux mots est liée à la probabilité que deux mots se retrouvent dans le même contexte, ou dans deux contextes différents dans lesquels apparaissent des mêmes mots. En d’autres termes, LSA tient compte des différents contextes dans lesquels apparaissent les mots ⁵ et il considère aussi comme proches deux mots n’apparaissant jamais dans le même contexte, mais dont les contextes respectifs contiennent des mots similaires. LSA permet deux types de calculs : celui de la centralité sémantique globale de termes, un terme étant d’autant plus central, donc typique, au sein du corpus qu’il est souvent associé à d’autres termes de ce corpus ; le calcul de la proximité sémantique entre deux termes (ou un terme et un contexte, deux contextes) donne un indice d’autant plus élevé que ces deux entités sont de sens voisin ou bien ont été fréquemment associées ⁶ . Décrivons plus précisément quelques études validant les performances de LSA.

–––––––––––––––––––––

³ LSA est écrit en langage C et fonctionne sur une station de travail Unix, il est déposé en 1990 par Bell Communications Research Inc. Le lecteur trouvera, sur le site Internet http://lsa.colorado.edu un grand nombre d'informations sur LSA par leurs auteurs, ainsi qu'une version de LSA interrogeable à distance.

⁴ Nous évitons délibérément la description mathématique du modèle utilisé par LSA. Brièvement, voici comment le logiciel traite les données. À partir de la table de contigence rassemblant les occurrences, par document, des mots apparaissant au moins deux fois, LSA réalise une décomposition aux valeurs singulières de cette matrice, puis « filtre » les cent dimensions les plus significatives. Chaque mot et résumé se trouve représenté par un vecteur dans cet espace. Pour plus de précisions, on se reportera à Landauer et Dumais [LAN 97] ou à Deerwester et al. [DEE 90].

⁵ LSA ne tient en revanche pas compte de la syntaxe, c'est-à-dire de l'ordre dans lequel sont écrits les mots.

⁶ Ainsi, deux termes ayant une forte proximité sémantique d'après LSA ne sont pas forcément des synonymes, mais peuvent être des termes souvent associés. Ce problème apparaît notamment lorsque la base textuelle traitée par LSA est trop peu importante.

4 Titre de l’ouvrage

2.2. Revue de quelques validations de LSA

De nombreux travaux ont été réalisés pour tester la validité de LSA, on se reportera à Landauer et Dumais [LAN 97] pour une vue complète. Exposons quelques résultats en rapport avec notre travail. Dumais [DUM 91] teste LSA avec de larges bases de données (médicale, d’aéronautique, de magazine). On peut recueillir, à partir de requêtes dans chaque base, les documents ayant une similarité maximale avec chaque requête. Les résultats montrent que les documents recueillis par LSA sont 20 % plus pertinents que ceux recueillis par une traditionnelle requête par mots-clés. Landauer et al. [LAN 93] ont incorporé LSI — latent semantic indexing, une version antérieure de LSA dédiée à la recherche automatique de documents — à SuperBook, un logiciel hypertexte de navigation dans de larges bases de données textuelles ou imagées (manuels, romans). Une comparaison de recherches sur document papier vs LSI montre qu’avec ce dernier, les recherches sont significativement plus précises lorsque la requête ne mentionne que des mots présents dans le corps du texte ou qu’elle est formulée avec des synonymes ; les performances sont en revanche similaires lorsque la requête contient des mots présents dans les titres du texte. Ces deux études, même si elles font intervenir LSA comme moteur de recherche par mots-clés, montrent que LSA pourrait être également utilisé pour générer des liens hypertextes, les termes recueillis par les requêtes étant sémantiquement pertinents. Deux autres études, l’une sur la mesure de la cohérence textuelle et l’autre sur les hypertextes nous incitent à penser cela. Foltz et al. [FOL 93] cités par Foltz [FOL 96], afin de mesurer la cohérence textuelle de productions écrites, ont tout d’abord « entraîné » LSA avec vingt et un articles d’un même thème. Ils ont ensuite pris quatre autres textes du même domaine, dans lesquels ils ont fait varier intentionnellement leur cohérence locale ainsi que leur macrocohérence. Ils ont calculé les proximités sémantiques des phrases de chacun des textes, prises deux à deux, afin d’obtenir une moyenne de chevauchements sémantiques pour chaque texte. Les résultats montrent que cette moyenne croît avec la cohérence attribuée aux textes. Les prédictions de cohérence textuelle calculées par LSA augmentent donc bien dans le sens attendu. Blustein et Webber [BLU 95] vérifient la qualité des liens hypertextes d’un corpus de messages d’un groupe de discussion en comparant la similarité sémantique, calculée par LSI, entre deux documents, au nombre minimal de liens hypertextes qui les séparent. Ils trouvent que la corrélation entre ces deux mesures est élevée (r = .73) lorsque les deux documents sont directement liés l’un à l’autre, sans nœud intermédiaire. Ces résultats montrent que l’on peut, avec LSA, effectuer des requêtes, obtenir une mesure de la cohérence textuelle et vérifier la nature sémantique de liens hypertextes. Ces résultats sont obtenus alors que LSA travaille à partir d’un large ensemble de textes, sans aucune connaissance formalisée au préalable, avec des performances satisfaisantes et parfois même voisines de celles obtenues par des humains. Ces résultats nous incitent à mettre en place deux études, la première vérifie la nature sémantique des liens hypertextes au sein d’un dictionnaire électronique ; la deuxième vérifie l’éventuel lien sémantique entre deux documents d’un cours, en se basant sur les capacités de LSA en termes de calculs de macrocohérence.

Utilisateur:Lamia Zarour

2. LSA, une méthode d’analyse factorielle multidimensionnelle

2.1. Description du modèle

2.2. Revue de quelques validations de LSA

Menu de navigation

Affichages

Outils personnels

Navigation

Rechercher

Outils