Solaris (1995) Grivel

De Wicri SIC
Révision datée du 30 octobre 2013 à 12:47 par imported>Ali tebbakh

Cette page contient une réédition hypertexte d'un article de Luc Grivel et Claire François, « Une station de travail pour classer, cartographier et analyser l'information bibliographique dans une perspective de veille scientifique et technique » publié dans la revue Solaris en 1995.

Le contenu et le style initial ont été respectés. La seule adaptation dans le corps de l'article concerne l'insertion de liens hypertextes.

Solaris Btnacc.gif Solaris Btncom.gif Solaris Btnsom.gif Solaris Btn.gif

Une station de travail pour classer, cartographier et analyser l'information bibliographique dans une perspective de veille scientifique et technique

Luc GRIVEL, Claire FRANÇOIS



Solaris Sol2.gif

Cet article développe dans sa première partie les caractéristiques méthodologiques et technologiques d'une station d'analyse de l'information scientifique et technique fonctionnant sous UNIX et basée sur la norme SGML. Celle-ci permet de classer et représenter graphiquement d'énormes quantités d'information bibliographique en s'appuyant sur deux méthodes permettant de construire des cartes thématiques : une méthode éprouvée, les mots associés, et une autre plus récente associant une technique de classification, les K-means axiales, à une technique d'analyse factorielle courante : l'Analyse en Composantes Principales (ACP). Les deux méthodes sont présentées en détail et comparées d'un point de vue théorique. Il en ressort qu'il existe une grande symétrie entre les deux processus, expliquant les accords observés expérimentalement entre les résultats des deux méthodes.

En abordant dans la deuxième partie le problème de la qualification des résultats afin de limiter les risques d'erreurs lors de leur interprétation, nous exposons sur un exemple une démarche d'analyse et mettons l'accent sur la possibilité de mesurer les accords entre les résultats des deux méthodes d'analyse par des indicateurs globaux. Il reste cependant que les méthodes offrent des représentations différentes : classes de mots-clés structurées par les relations de cooccurrences dans un cas, classes de mots-clés floues et recouvrantes représentées par des demi-axes dans l'autre ; cartes thématiques fournissant des informations de natures différentes : indicateurs structurels et visualisation des réseaux locaux dans un cas, oppositions des thèmes selon deux axes principaux dans l'autre cas. Une richesse au niveau des représentations qui font de ce poste de travail un véritable instrument d'exploitation de l'information bibliographique dans une perspective de veille scientifique. En conclusion, nous présentons les évolutions envisagées pour cette station.



Solaris Btnup2.gif Introduction

Dans un contexte de veille scientifique, l'analyse infométrique de l'information scientifique et technique comprend non seulement une analyse de contenu à partir des mots-clés, résumés et titres mais aussi une analyse de ses acteurs, leurs relations, leurs moyens de communications (revues, rapports, congrès, ...), son actualité.

Dans cette perspective, nous présentons ici une station d'analyse de l'information scientifique et technique développée dans le cadre du programme de recherche en infométrie de l'INIST [1]/CNRS [2]. D'un point de vue fonctionnel, elle doit non seulement fournir tous les indicateurs numériques usuellement mis en oeuvre pour prendre la mesure de l'information bibliographique, mais également proposer des représentations du contenu de la production scientifique [3]. Elle automatise l'élaboration des distributions bibliométriques (statistiques unidimensionnelles sur les champs bibliographiques), et elle supporte deux méthodes permettant de construire des cartes thématiques : une méthode éprouvée, les mots associés [Callon et al 1983]), et une autre plus récente associant une technique de classification, les K-means axiales [Lelu 1990 et 1993] à une technique d'analyse factorielle courante : l'Analyse en Composantes Principales (ACP).

Notre objectif est de classer et représenter d'énormes quantités d'information bibliographique afin d'en extraire des synthèses élaborées utilisables pour effectuer une veille scientifique (données chiffrées caractérisant un ensemble de références bibliographiques, hypertextes thématiques, documents de synthèse tels que des cartes de l'information scientifique et technique).

La première partie de cet article décrit les méthodes mises en oeuvre pour représenter le contenu de l'information et montre leur spécificité et leur complémentarité. Nous y exposons également nos choix technologiques, puis nous décrivons l'objet technique réalisé : une chaîne de traitement infométrique sous Unix, basée sur la norme SGML.

La deuxième partie est consacrée à l'analyse des résultats. Nous abordons ici le problème de la qualification des résultats afin de limiter les risques d'erreurs lors de leur interprétation. L'analyse des distributions bibliométriques n'est qu'esquissée. Elle ne présente, à notre avis, pas de difficultés majeures, puisqu'il est possible de s'appuyer sur des lois qui décrivent leur comportement. Par contre, l'exploitation des résultats de méthodes d'analyse de données demande quelques précautions car il ne faut pas oublier qu'elles procèdent par réduction de données. Nous exposons donc une démarche d'analyse basée sur l'observation d'indicateurs permettant d'apprécier la qualité des résultats produits par notre station de travail. Pour illustrer cette démarche, nous utilisons les résultats du traitement d'un petit corpus [4] de références bibliographiques (quelques centaines de documents).

En conclusion, nous effectuons un bilan comparatif des deux méthodes et décrivons les évolutions futures de la station de travail.


Solaris Btnup2.gif 2 - Choix méthodologiques et technologiques
Les mots associés
La méthode basée sur les K-means axiales et l'ACP
Complémentarité des méthodes
Une conception modulaire basée sur des standards
Interface utilisateur : Scénarii d'analyse standard et mise en forme des résultats
La préparation des données (phase 2)
Des distributions bibliométriques (phase 3)
L'analyse des données (phase 4)
La mise en forme des résultats (phase 5)

Solaris Btnup3.gif 2.1 - Méthodes mises en œuvre

Si les méthodes à mettre en oeuvre pour obtenir les distributions bibliométriques sont relativement bien standardisées et banalisées, il n'en est pas de même pour la représentation de l'IST. C'est pourquoi nous nous contenterons de développer ce deuxième aspect.


Les indicateurs que nous utilisons pour représenter le contenu de l'information sont les cartes thématiques. D'une manière générale, nous définissons une carte thématique comme étant une représentation de la topologie des relations entre des disciplines ou des thèmes de recherche, telle qu'elles sont matérialisées sous la forme de données bibliographiques. Pour construire ces cartes, notre choix s'est porté en priorité sur deux méthodes d'analyse de corpus documentaire déjà décrites dans la littérature : la méthode des mots associés implémentée par le logiciel SDOC, et une méthode associant les K-means axiales à une Analyse en Composantes Principales (ACP) implémentée par le logiciel NEURODOC.


Pour des raisons historiques, ces méthodes sont bien connues de notre programme de recherche. Nous bénéficions de l'expérience acquise par le SERPIA [5], département de R & D du CDST [6] avant la fondation de l'INIST. En effet, la méthode des mots associés est le fruit d'une collaboration entre le Centre de Sociologie de l'Innovation de l'Ecole des Mines de Paris et le CDST [Callon et al 1983]. Le logiciel développé à l'époque s'appelle LEXIMAPPE. Quant à la méthode basée sur les K-means axiales et l'ACP, elle a été mise au point par A. Lelu, alors qu'il était membre du SERPIA [Lelu 1990].


Ces deux méthodes utilisent les mots-clés qui indexent les références bibliographiques pour construire les structures thématiques "enfouies" dans les bases de données. Pour schématiser, elles trouvent les thèmes abordés et classent les documents selon ces thèmes. Ceux-ci sont ensuite disposés sur un espace à 2 dimensions : "carte thématique".


  • Les mots associés [Callon et al. 1983, 1986, 1993] [Courtial 1990]
Cette méthode considère les mots-clés comme des indicateurs de connaissance (contenu des documents indexés) et se base sur leurs cooccurrences pour mettre en évidence la structure de leurs relations (clusters [7]). L'idée de cooccurrence est essentielle. En effet, si on considère que deux documents sont proches parce qu'ils sont indexés par des mots-clés similaires, alors deux mots-clés figurant ensemble dans un grand nombre de documents seront considérés comme proches. Cependant, la cooccurrence ne permet pas à elle seule de mesurer la force des associations entre mots-clés (leur proximité), car elle avantage les mots-clés de haute fréquence par rapport à ceux de basse fréquence. L'emploi d'un indice statistique approprié permet de normaliser la mesure de l'association entre deux mots-clés. En pratique, nous utilisons le plus souvent l'indice d'Équivalence dont les valeurs varient entre 0 et 1 : Eij = Cij2 / (Ci * Cj) ; où Cij est le nombre de cooccurrences des mots-clés i et j, Ci la fréquence du mot-clé i, Cj la fréquence du mot-clé j.
A partir des mesures de proximité entre les mots, un algorithme de classification hiérarchique construit des groupes de mots proches les uns des autres (clusters) n'excédant pas une taille maximale (nombre de mots) fixée par l'utilisateur. Ainsi la figure 1 montre deux clusters C1 et C2 contenant respectivement : les mots-clés A, B, C, D, E d'une part ; F, G, H, I d'autre part. Un cluster est donc constitué de mots associés les uns aux autres (associations internes). Les clusters peuvent avoir des relations entre eux. Ceci se produit lorsqu'il existe une association entre 2 mots-clés appartenant à 2 clusters différents (association externe) et que la taille du nouveau cluster qui aurait résulté de la réunion de ces 2 clusters dépasse la taille maximum définie par l'utilisateur. Ainsi C1 et C2 sont reliés par une association externe entre C et F car la taille des clusters ne peut excéder un maximum de cinq mots dans l'exemple présenté.
Figure 1 -- deux clusters C1 et C2 de 5 mots maximum


Après le processus de classification des mots-clés, les documents sont affectés aux clusters de la manière suivante : un document est associé à un cluster, si dans sa liste de mots-clés, il existe au moins un couple de mots-clés qui pourrait constituer une association interne ou externe du cluster.


La classification est principalement paramétrée par le nombre maximal de mots pouvant constituer un cluster. C'est une variante de la procédure statistique habituelle qui consisterait à utiliser un seuil fixe (une "distance limite" à partir de laquelle aucune agrégation n'est plus effectuée). C'est un moyen pratique pour moduler la coupure dans l'arbre de classification (dendrogramme). En conséquence du critère de taille maximale, les classes résultantes sont très hétérogènes en densité. La première classe obtenue sera constituée des mots-clés les plus fortement liés alors que la dernière sera très lâche, restituant en cela la structure du réseau d'associations. On peut également limiter le nombre d'associations intra ou inter-clusters dans un souci de lisibilité. Les autres paramètres de la méthode se situent en amont de la classification (filtrages au niveau du vocabulaire d'indexation : fréquence des mots-clés, cooccurrence, ...), ou en aval (filtrage des clusters par le nombre de mots ou de documents qu'ils comportent, ...).