H2PTM (1989) Pomian

CATTLEYA : Un hypertexte dynamique appliqué à l'étude des textes littéraires

Titre: CATTLEYA : Un hypertexte dynamique appliqué à l'étude des textes littéraires
Auteurs: Joanna Pomian, Emmanuel Souchier
Affiliations: Centre d'études de l'écriture; Université Paris VI; Centre d'études de l'écriture; Université Paris VI
Dans: actes du colloque H²PTM 1989 Paris; publié dans H²PTM89 : Communication interactive, Paris, France, 1990

Introduction

Les systèmes hypertextuels permettent d'appréhender les textes littéraires d'une façon nouvelle. Toutefois, la construction manuelle des liens entre les portions de texte rend ces systèmes lourds à mettre en œuvre et difficiles à utiliser. Nous proposons ici une construction dynamique de liens hypertextuels permettant un libre parcours du texte. Cette construction repose sur la spatialisation de liens existant entre les éléments du texte analysé (programme CATTLEYA). Nous avons mené cette étude et l'avons testée sur le corpus Exercice de Style de Raymond Queneau.

Structuration des connaissances

Les principes de l'approche

L'approche décrite ci-dessous repose sur un certain nombre d'opérations permettant de passer d'un ensemble de résultats d'une analyse statistique à des structures porteuses de sens. Elle s'appuie sur les travaux relevant des courants dits « structuralistes » en sciences humaines.

Les principales étapes de traitement peuvent être résumées de la façon suivante :.

appliquer l'analyse statistique choisie aux données;

étudier les régularités apparaissant dans les résultats obtenus. Les régularités que nous prenons en compte ici sont des régularités de type spatial. Ainsi, on dira par exemple, qu'une forme particulière d’un nuage de points correspond à une certaine structure (Benzecri 75);

recenser les structures émergeant régulièrement et les décrire;

interpréter ces structures. Leur interprétation est indépendante du domaine sur lequel a porté l’analyse statistique. En revanche, elle est fortement dépendante des propriétés de l'analyse statistique de départ.

Les structures ainsi dégagées et les connaissances portant sur ces structures peuvent par la suite être utilisées pour exploiter des données qui possèdent les mêmes caractéristiques que les données premières.

Les connaissances portant sur les structures ont été appelées « connaissances de structure » (Pomian 90 ); elles sont indépendantes de tout domaine d'application et obtenues a partir de la transformation des résultats d'analyse statistique. Afin de construire ces connaissances nous avons utilisé l'analyse statistique dite « de mots associés » (Michelet 88 ).

Description de l'analyse statistique choisie

L’analyse des associations repose sur le choix d'une mesure de ces associations, c'est-à-dire sur le choix d’un coefficient d'association. La notion essentielle est celle de cooccurrence entre les mots. Toutefois, le simple comptage des co-occurrences n’est pas un bon moyen d’évaluation de la force des liens établis entre mots; en effet, une telle approche privilégierait les mots par trop fréquents. L'utilisation d’indices statisiques est donc nécessaire pour relativiser la mesure des associations en fonction des occurrences de mots. La stabilité des structures d'association est une des exigences formulées pour construire les associations entre les mots. Nous avons utilisé les travaux de B.Michelet qui montrent l'intérêt que l'on peut tirer d'un indice répondant au critère de stabilité : cet indice est appelé « indice d'équivalence » ou encore « indice E ».

L'indice E mesure l'implication mutuelle ou l'inclusion réciproque du mot i et du mot j:

Eij={\frac {Cij*Cij}{Ci*Cj}}

où Ci est l'occurrence du mot i et Cij la co-occurrence des mots i et j. Cet indice est le produit de la probabilité que le mot i se trouve dans un document contenant le mot j par la probabilité que j se trouve dans un document contenant i.

Construction des connaissances de structures

Les propriétés du coefficient E permettent d'associer à un mot une arborescence de mots. L intersection des arborescences associées à n mots permet d’engendrer le réseau d'associations composé de termes tous associés à ces n mots (appelés «mots d'interrogation »). Le parcours de ce réseau est effectué en respectant des critères tels que l' unicité du chemin parcouru et le choix systématique du chemin le plus court; un tel parcours permet de détecter la présence ou l’absence d'une structure, c’est-a-dire d'une configuration spatiale particulière des associations.

Les critères de parcours d'un réseau, engendré pour un nombre de mots d’interrogation quelconque, fournissent une connaissance générale portant sur les articulations potentielles pouvant exister dans les différentes configurations. Les connaissances de structure expriment l'organisation interne des structures dégagées à partir des configurations spatiales des réseaux de mots.

La mise en évidence et l'évolution de la description d’une structure particulière passe par les étapes suivantes :

examiner une configuration spatiale, en ne prenant en compte que les chemins de longueur identique, chemins les plus courts;

interpréter cette configuration;

à chaque fois que cela est possible, généraliser le nombre des liens présents;

interpréter la configuration générale.

Des associations directes peuvent exister entre les mots d'interrogation : il s’agit d’associations particulières qui impriment à la structure une signification spécifique. En effet, si les mots d’interrogation sont associés l’un à l'autre alors les chemins empruntés pour atteindre les mots du réseau peuvent soit passer alternativement par tous les mots d’interrogation : nous parlerons alors d'association réciproque; soit passer préférentiellement par un des mots d'interrogation : nous parlerons alors d'association d'inclusion. Si deux mots sont reliés par une association réciproque, ils ne peuvent pas être en même temps reliés par une association d’inclusion. Lorsqu'il n'y à aucune relation entre les mots d'interrogation, ceux-ci sont dits «indépendants »

Les structures se caractérisent par l'existence de relations d'associations typiques ou parfois par l'absence de ces relations. Les différentes structures qui possèdent la même relation typique peuvent être interprétées de la même façon. Elles ont été réunies au sein des « classes de structures ».

Une classe de structures est une forme abstraite reprenant les traits pertinents d'un ensemble de structures virtuelles. Les propriétés d'une classe dérivent des propriétés des associations. Le nombre des structures appartenant à une classe n est pas limité. En revanche, une classe permet d’identifier une structure, si elle existe, au sein d’un réseau d’associations; l'identification de la structure se faisant à partir des informations générales décrivant les propriétés de la classe.

L'approche suivie a permis d’identifier trois grandes classes de structures relatives à l'association réciproque, à l'association d'inclusion et à l'indépendance des mots d’interrogation.

Lorsqu’aucune relation typique n'est détectée, mais lorsqu'il est néanmoins possible de formaliser les écarts de configuration par rapport à ces relations, nous parlons alors de « structures mal formées ». La présence de classes de structures mal formées permet de diminuer le nombre de structures qui ne seraient pas identifiées si nous nous bornions à représenter uniquement les structures bien formées.

Il est tout aussi intéressant de détecter une structure mal formée qu'une structure bien formée. Toutefois, il peut n'y avoir aucune structure au sein d'un réseau d'associations; dans ce cas la conclusion qui s'impose consiste à dire que les mots d interrogation expriment des problématiques suffisamment éloignées et différentes pour qu' il ne soit pas possible de détecter une structure bien ou mal formée.

Application des connaissances de structure

Les connaissances de structure ont été utilisées par le programme CATTLEYA afin de permettre une analyse de relations existant entre les principaux termes des Exercices de Style.

Avant de présenter les résultats obtenus, il est nécessaire de rappeler quelques caractéristiques des Exercices de Style (présentées dans Souchier 86).

Pour l'ensemble des Exercices il est possible d'obtenir un «texte minimal» composé de «feux schémas de base et permettant de retrouver toutes les variantes de tous les Exercices. Ce texte est construit autour de deux relations : la relation propre au premier paragraphe des Exercices et la relation propre au second paragraphe. Les passerelles entre ces deux schémas sont constituées par des pronoms (tels que « je » ou « le »), des liens sémantiques et des embrayeurs spatio-temporels. L'étude des Exercices par les réseaux d'associations et les connaissances de structure permet de retrouver ces données qui avaient été mises en évidence avec des outils, d’analyse traditionnels.

La normalisation

Afin d'appliquer l'analyse des mots associés, nous avons dû «normaliser» le vocabulaire de l'auteur et opérer certains choix quant au vocabulaire retenu. Ainsi, ont été éliminés «te l'étude tous les Exercices qui reposent sur des déformations morphologiques du français comme : « Poor lay Zanglay », « Italianismes », « Macaronique » « Javanais », etc. Dans les autres Exercices, nous avons éliminé les articles les prépositions et les conjonctions. Toutefois, les pronoms personnels ont été gardés. Nous avons normalisé les verbes en utilisant l'infinitif et les noms et adjectifs en utilisant le masculin singulier.

Pour faire cette étude, chaque phrase a été transformée en un ensemble de mots. La base de départ est ainsi constituée d'un ensemble de phrases, les Exercices de Style étant considérés comme un seul texte et non comme série de textes distincts.

Les réseaux ne peuvent être créés qu'à partir de mots; la normalisation permet de diminuer le nombre de mots du lexique.

On nous objectera qu’une telle démarche semble a priori impliquer l'inutilité de la syntaxe; thèse absurde que nous ne saurions défendre sans définir le domaine d'intervention de chaque analyse. Si nous rejetons cette objection, c’est qu’elle s'invalide d'elle-même, dès lors qu’elle ne tient pas compte de l'espace d'application propre à la technique des réseaux de mots associés. Cette technique, bien que novatrice, n'a aucune visée «impérialiste» et ne prétend pas se situer dans un rapport d'exclusion, mais bien de complémentarité.

Nous nous émancipons de la syntaxe, de la linéarité textuelle pour entrer dans la structure profonde, dans l'espace de signification du texte. Le domaine d’intervention de la technique des réseaux de mots associés se situe dans « l'espace signifié » du texte; les réseaux constituent cet espace et le dénotent. En d'autres termes, nous élaborons l’architecture des signes tirés des « lexiques » ou « idiolectes » de l'auteur. Le parallèle avec la Sémiologie de l'image n’est pas fortuit. Barthes (Barthes 46)écrivait, en effet, que «l'image dans sa connotation, serait constituée par une architecture de signes tirés d’une profondeur variable de lexiques (d'idiolectes), chaque lexique, si «profond» soit-il, restant codé, si, comme on le pense maintenant, la psyché elle-même est articulée comme un langage; mieux encore, plus on descend dans la profondeur psychique d'un individu, plus les signes se raréfient et deviennent classables (...)».

Vu dans cette perspective les réseaux de mots associés peuvent donc être considérés comme un outil d'analyse sémiologique du texte.

Les hypothèses principales

Traiter le sens des mots employés dans un texte, et par là-même étudier le texte sans passer par un analyseur, correspond à un choix épistémologique lourd de conséquences, ce choix risque de heurter. En théorie, les réseaux de mots n'ont, pour les linguistes, qu'un intérêt mineur, voire nul. D’aucuns considèrent les morphèmes comme des unités chargées d'un sens acontextuel qui n’a, en apparence, aucune raison de se modifier selon l’usage ou l'auteur.

Disons simplement que, même en l'absence d'analyseur, ce type d'étude pourrait se justifier à la seule vue des résultats qu'elle permet d'obtenir si nous n'avions pas, au préalable, pris la précaution de situer notre domaine d'intervention, bref d'en définir la pertinence.

Le réseau de mots qui nous permet d'étudier les effets de contexte est construit par des moyens statistiques. Néanmoins nous pouvons lui donner une interprétation très générale qui dépasse l'environnement statistique de départ. L'approche trouve ici à la fois sa justification et ses limites, dans la mesure où la syntaxe est totalement évacuée et que seulement certains liens sémantiques privilégiés sont révélés par les procédés statistiques employés.

Nous reviendrons sur l'interprétation des réseaux obtenus. Mais nous pouvons d'ores et déjà voir que les réseaux d'associations engendrés peuvent s'interpréter en termes d'espaces sémantiques propres à un auteur.

Quoi qu'il en soit, dans le cadre d'un texte il est essentiel de souligner que, nous ne proposons pas un « sens », mais des réseaux, donc des liens, des connexions, des ouvertures et ce dans le cadre d'espaces privilégiés intrinsèques au texte. Nous ne nous situons pas au niveau du mot, mais au niveau de l'association des mots créée par la lecture. L'approche hypertextuelle permet d'exploiter de tels liens.

L'étude des associations entre les mots débouche sur une étude contextuelle. Cette étude est intéressante, car elle exploite uniquement les structures d'associations entre les mots. Des rapports de « synonymie » peuvent être détectés ainsi que des segments du discours auxquels renvoie une anaphore. Toutefois, tous les résultats obtenus ont un caractère statistique, et les résultats de CATTLEYA doivent être considérés comme des propositions que l'utilisateur aura tout loisir d'interpréter.

Interprétation de réseaux obtenus

Notre dictionnaire de mots de validation a été construit à partir de vingt-cinq Exercices (Notations, En Partie double, Litotes, Rétrograde, Surprises, Pronostications, Synchyses, L'arc-en-ciel, Analyse logique, Récit, Le côté subjectif, Autre subjectivité, Animisme, Lettre officielle, Prière d'insérer, Ignorance, Passé indéfini, Télégraphique, Présent, Passé simple, Imparfait, Tanka, Alors, Permutations par groupes croissantes de mots, Vers libres, (Queneau 47). Il comprend 94 termes distincts après élimination de tous les termes de fréquence 1 et de toutes les paires de cooccurrence 1. Ce corpus de validation est à la base des parcours effectués.

Premier exemple

Prenons l' exemple d'un choix initial de quatre mots : «il - lui - reprocher bousculer». Les mots obtenus par association sont : « l e- descendre - passer - gens ».

Le graphe de la figure 1 montre que les quatre termes d'origine sont associés aux quatre termes finaux. Par ailleurs, aucun pont n'est jeté vers un autre réseau d'associations.

Fig. 1. Réseau d 'associations obtenus pour quatre mots d interrogations (mots soulignés)

Le contexte d'apparition simultané des quatre termes demandés est délimité par les mots obtenus. L'ensemble de mots choisis et obtenus livre les « mots clefs » de la scène de la bousculade du premier paragraphe des Exercices de Style. Il s'agit d'un résumé par mots clefs de la scène en question ou, en d'autres termes, de son noyau prototypique.

Cet espace sémantique minimal devrait théoriquement être présent dans l'ensemble des Exercices de Style avec d'éventuelles associations propres à chaque Exercice.

Deuxième exemple

Le deuxième exemple présenté a été choisi car il devait définir un contexte précis. Or, à la lecture du réseau, il est apparu que nous avons omis dans notre présupposition un terme essentiel qui nous a fait sortir du contexte initial.

Fig. 2. Réseau de mots associés aux trois mots d interrotation soulignés.
Le trait épais correspond aux transitions multiples de trois mots soulignés en passant par le mot «je ».

Les trois mots étudiés sont : « autobus, plate-forme, arrière ». La liste obtenue est : « ligne, monter, S, je » (fig. 2). Le dernier terme obtenu, « je », apparaît dans le contexte des trois termes choisis au départ En outre il est poly-contextuel, ouvrant une grande quantité de transitions vers d'autres espaces associatifs qui sont, en l'occurrence, éclatés par rapport au noyau d’origine. Ce terme est un point de transition important qui relie un certain nombre d’espaces sémantiques inscrits dans le texte.

Ces espaces peuvent ne pas avoir de relation associative directe et, à un premier niveau, n'entretenir aucune relation contextuelle. Ainsi « autobus, plate-forme, arrière, gare» Saint-Lazare, cour, Rome » sont dans le texte des unités sémantiques contextuelles disjointes et indépendantes. La jonction entre ces espaces est réalisée par la présence commune du terme» « je ».

Certes, l'emploi du pronom personnel « je », qui est marque d'énonciation privilégiée, est par définition primordial dans la construction générale d'un texte. Mais, ce qui nous intéresse ici est le type de relation et de structure associative établi au niveau de l'ensemble des sous-espaces sémantiques par la jonction « je ».

Le texte est donc organisé autour d’un ensemble de sous-blocs sémantiques, reliés entre eux par des termes privilégiés, des connecteurs. Nous mettons ainsi en évidence la structure du scénario des Exercices de Style construit autour d'unités sémantiques minimales, reliées ou non par des rappels ou points d'articulation.

Troisième exemple

Pour le troisième exemple, nous avons cantonné notre choix à deux termes :

« bouton » et « pardessus ». La liste de termes obtenus est importante : dix liaisons de premier niveau et une de second niveau (fig 3)

Fig.3. Structure de «synonymiecontextuelle».

Outre le fait que les deux termes s'appellent simultanément, marquant ainsi leur co-présence dans un même contexte d'utilisation, l'ensemble de la chaine présente une liste de termes quantitativement très importante ce qui indique que le contexte d'utilisation des deux termes d'origine devrait être identique. Nous retrouvons la la structure de «synonymie contextuelle». En effet, «bouton» et «pardessus» ne sont pas synonymes, mais dans le contexte des Exercices l'apparition de l'un de ces termes implique très souvent l'apparition de l’autre.

Conclusion

Une simple étude des réseaux d'associations permet de mettre en évidence des phénomènes de restriction progressive du sens, de polycontextualité et de synonymie contextuelle. Du point de vue du projet initial, l'examen des réseaux d'associations apparaissait intéressant, car il permettait au critique littéraire de tester des hypothèses sur les liens contextuels entre les différents mots d'un texte.

Les résultats présentés plus haut montrent également qu’il est possible d'effectuer une étude approfondie d'un texte en ne s'appuyant que sur les formes spatiales des réseaux d’associations.

L'application des connaissances de structure

Etude d’indépendance des schémas de base

Exemple

Nous avons soumis à CATTLEYA deux termes, provenant chacun d'un schéma différent : « abandonner » qui appartient au schéma 1 (scène de l'autobus) et « ami » qui appartient au schéma 2 (scène de la gare). Les mots trouvés au cours de la recherche sont les suivants :

Fig.4. Liste de termes obtenus pour les termes « abandonner et ami ». Entre parenthèses figure(ent) le(s) schéma(s) d'appartenance de chacun de termes trouvés.

La liste des termes obtenus fait apparaître l’absence d’une structure appartenant à la classe de structures. Elle montre également que le schéma 1 est sur-représenté par rapport au schéma 2, ce qui n’est pas étonnant car ce dernier est moins dense et moins riche en vocabulaire que le schéma 1.

L’examen détaillé de tous les «micro-réseaux» correspondant à la liste de termes engendrés met en évidence deux «micro-structures» suivantes (Fig. 5) :

Application des structures «mal formées »

Reste le problème des structures «mal formées». Une analyse détaillée a permis d'établir que les classes de structures «mal formées» apparaissent uniquement à l'intérieur de chacun de deux grands schémas présents dans les «Exercices». Il n'est donc pas possible d'obtenir une structure «mal formée» à partir de termes pris respectivement dans les schémas 1 et 2. Ce résultat montre qu’a l'intérieur de la grande partition en deux schémas, notamment à l'intérieur du schéma 1, il y a des subdivisions plus fines auxquelles les classes de structures sont sensibles.

Fig.6. Exemple de message obtenu pour les mots d'interrogation « dire et gens »

Conclusion

Deux ou plusieurs termes pris dans les deux schémas engendrent des réseaux dépourvus de structures au sens des classes de structures. Les réseaux d'associations obtenus dans ce cas ont toutefois des formes caractéristiques qu'il serait certainement possible de modéliser.

Comme cela est confirmé dans (Souchier 86 ), le schéma 1 se subdivise en une série de sous-schémas étroitement imbriqués : ce résultat a été retrouvé grâce à l'étude de classes de structures mal formées, manifestement sensibles aux micro- contextes créés par les mots.

Une «découverte» de CATTLEYA

Cherchant à mettre en évidence une structure de synonymie contextuelle semblable au cas de «bouton» et «pardessus», l'expert a proposé d'étudier les termes «ami» et «camarade». En effet, ces deux termes semblaient jouer le rôle de synonymes, apparaissant dans un contexte identique : celui où la personne rencontrée dit au héros de mettre un bouton supplémentaire à son pardessus.

A la place d'une structure de synonymie contextuelle ou d'une autre structure, CATTLEYA à engendré une liste de termes : « pardessus, bouton, interpeller, conseiller, descendre, exprès, faire, ajouter, supplémentaire ». Pour étudier ce cas et comprendre l'infirmation de l'hypothèse de départ, nous avons examiné simultanément les termes associés à « ami », ceux associés à « camarade » et les phrases des Exerices dans lesquelles chacun de ces termes apparaît.

Mots associés à ami : ajouter, bouton, conseiller, faire, pardessus

Mots associés a camarade : falloir, supplémentaire, mettre

Le retour au texte a finalement montré que ces deux termes se trouvent dans des champs sémantiques différents. Globalement, l'ami « conseille d’ajouter un bouton » alors que le camarade emploie une tournure beaucoup plus directive et indique qu'il va « falloir mettre » un bouton « supplémentaire », le terme même de « bouton » étant souvent omis dans ces phrases. En définitive, l'absence de la structure attendue a permis de mettre en évidence une différenciation sémantique profonde existant chez l’auteur entre les termes d'« ami » et de « camarade », différence qui n'avait pas été remarquée jusque la et dont la signification ne peut être établie que par le critique littéraire.

CATTLEYA : un outil de navigation hypertextuelle

CATTLEYA dispose également d'une option « voir texte » qui permet de visualiser les phrases du texte dans lesquelles apparaissent les mots étudiés et l’un des mots trouvés au cours de la recherche. Cette option montre que CATTLEYA est un système hypertextuel dynamique : la navigation hypertextuelle telle qu'elle est couramment envisagée est ici enrichie par les connaissances de structure.

En effet, il est possible avec CATTLEYA de passer des mots aux phrases et des phrases au texte, ce qui permet une navigation entre le texte, les phrases, les interprétations engendrées et les mots proposés. Une telle approche associée à un modèle de gestion du texte permet, en lecture, d'appréhender librement le matériau textuel et elle privilégie la mise en espace du texte et de la lecture (Christin 89 ).

Cette façon d'envisager les connaissances d'un texte, cet « autre texte » qui est le produit d'un changement de paradigme nous a permis d'obtenir des résultats intéressants sans qu'a aucun moment CATTLEYA ne dépende d'une connaissance extérieure. Il faut également noter que la démarche proposée remet en cause les attitudes classiques d'analyse

La très grande particularité de CATTLEYA consiste à représenter la connaissance d’un texte sous une forme spatiale, enrichissant par la même la lecture verbale et syntaxique traditionnelle d'une lecture visuelle. Dans la mesure où l'approche préconisée n'est pas linéaire, qu'elle se construit virtuellement en fonction des préoccupations du lecteur, CATTLEYA se classe dans les systèmes hypertextuels.

Bibliographie

[Barthes 46] ↑ R. Barthes., «Sémiologie de l'image », Communications, n 4, Seuil, 1964, p.48.

[Benzecri 75] ↑ Benzecri., «Analyse des données», Dunod, 1975, T1.

[Callon 82] ↑ M. Callon, J.P. Courtial, W.A. Turner et S. Bauin, «De l'opération de traduction à l'analyse des réseaux problématiques : l'analyse des mots associés dans la littérature scientifique et technique», Information sur les Sciences Sociales, 1982.

[Christin 89] ↑ A. M. Christin, «Espaces de la page » in De la lettre au livre, CNRS, 1989.

[Michelet 88] ↑ B. Michelet, L’analyse des associations, thèse de l'Université Paris VII, 1988.

[Pomian 90] ↑ J. Pomian, Statistiques et connaissances de structure. Application à la reformulation de requêtes documentaires, thèse de l'Université Paris VI.

[Queneau 47] ↑ R.Queneau, Exercices de Style; Gallimard; 1947.

[Souchier 86] ↑ E. Souchier, Histoire et énonciation dans les Exercices de Style de Raymond Queneau à partir de l'établissement d'une édition critique, thèse de l'Université Paris VII, 1986.

H2PTM (1989) Pomian

Sommaire

Introduction

Structuration des connaissances

Les principes de l'approche

Description de l'analyse statistique choisie

Construction des connaissances de structures

Application des connaissances de structure

La normalisation

Les hypothèses principales

Interprétation de réseaux obtenus

Premier exemple

Deuxième exemple

Troisième exemple

Conclusion

L'application des connaissances de structure

Etude d’indépendance des schémas de base

Exemple

Application des structures «mal formées »

Conclusion

Une «découverte» de CATTLEYA

CATTLEYA : un outil de navigation hypertextuelle

Bibliographie

Menu de navigation

Affichages

Outils personnels

Navigation

Rechercher

Outils