Solaris (1995) Grivel

De Wicri SIC
Révision datée du 29 octobre 2013 à 17:52 par imported>Jacques Ducloy

Cette page contient une réédition hypertexte d'un article de Luc Grivel et Claire François, « Une station de travail pour classer, cartographier et analyser l'information bibliographique dans une perspective de veille scientifique et technique » publié dans la revue Solaris en 1995.

Le contenu et le style initial ont été respectés. La seule adaptation dans le corps de l'article concerne l'insertion de liens hypertextes.

Solaris Btnacc.gif Solaris Btncom.gif Solaris Btnsom.gif Solaris Btn.gif

Une station de travail pour classer, cartographier et analyser l'information bibliographique dans une perspective de veille scientifique et technique

Luc GRIVEL, Claire FRANÇOIS



Solaris Sol2.gif

Cet article développe dans sa première partie les caractéristiques méthodologiques et technologiques d'une station d'analyse de l'information scientifique et technique fonctionnant sous UNIX et basée sur la norme SGML. Celle-ci permet de classer et représenter graphiquement d'énormes quantités d'information bibliographique en s'appuyant sur deux méthodes permettant de construire des cartes thématiques : une méthode éprouvée, les mots associés, et une autre plus récente associant une technique de classification, les K-means axiales, à une technique d'analyse factorielle courante : l'Analyse en Composantes Principales (ACP). Les deux méthodes sont présentées en détail et comparées d'un point de vue théorique. Il en ressort qu'il existe une grande symétrie entre les deux processus, expliquant les accords observés expérimentalement entre les résultats des deux méthodes.

En abordant dans la deuxième partie le problème de la qualification des résultats afin de limiter les risques d'erreurs lors de leur interprétation, nous exposons sur un exemple une démarche d'analyse et mettons l'accent sur la possibilité de mesurer les accords entre les résultats des deux méthodes d'analyse par des indicateurs globaux. Il reste cependant que les méthodes offrent des représentations différentes : classes de mots-clés structurées par les relations de cooccurrences dans un cas, classes de mots-clés floues et recouvrantes représentées par des demi-axes dans l'autre ; cartes thématiques fournissant des informations de natures différentes : indicateurs structurels et visualisation des réseaux locaux dans un cas, oppositions des thèmes selon deux axes principaux dans l'autre cas. Une richesse au niveau des représentations qui font de ce poste de travail un véritable instrument d'exploitation de l'information bibliographique dans une perspective de veille scientifique. En conclusion, nous présentons les évolutions envisagées pour cette station.



Solaris Btnup2.gif Introduction

Dans un contexte de veille scientifique, l'analyse infométrique de l'information scientifique et technique comprend non seulement une analyse de contenu à partir des mots-clés, résumés et titres mais aussi une analyse de ses acteurs, leurs relations, leurs moyens de communications (revues, rapports, congrès, ...), son actualité.

Dans cette perspective, nous présentons ici une station d'analyse de l'information scientifique et technique développée dans le cadre du programme de recherche en infométrie de l'INIST [1]/CNRS [2]. D'un point de vue fonctionnel, elle doit non seulement fournir tous les indicateurs numériques usuellement mis en oeuvre pour prendre la mesure de l'information bibliographique, mais également proposer des représentations du contenu de la production scientifique [3]. Elle automatise l'élaboration des distributions bibliométriques (statistiques unidimensionnelles sur les champs bibliographiques), et elle supporte deux méthodes permettant de construire des cartes thématiques : une méthode éprouvée, les mots associés [Callon et al 1983]), et une autre plus récente associant une technique de classification, les K-means axiales [Lelu 1990 et 1993] à une technique d'analyse factorielle courante : l'Analyse en Composantes Principales (ACP).

Notre objectif est de classer et représenter d'énormes quantités d'information bibliographique afin d'en extraire des synthèses élaborées utilisables pour effectuer une veille scientifique (données chiffrées caractérisant un ensemble de références bibliographiques, hypertextes thématiques, documents de synthèse tels que des cartes de l'information scientifique et technique).

La première partie de cet article décrit les méthodes mises en oeuvre pour représenter le contenu de l'information et montre leur spécificité et leur complémentarité. Nous y exposons également nos choix technologiques, puis nous décrivons l'objet technique réalisé : une chaîne de traitement infométrique sous Unix, basée sur la norme SGML.

La deuxième partie est consacrée à l'analyse des résultats. Nous abordons ici le problème de la qualification des résultats afin de limiter les risques d'erreurs lors de leur interprétation. L'analyse des distributions bibliométriques n'est qu'esquissée. Elle ne présente, à notre avis, pas de difficultés majeures, puisqu'il est possible de s'appuyer sur des lois qui décrivent leur comportement. Par contre, l'exploitation des résultats de méthodes d'analyse de données demande quelques précautions car il ne faut pas oublier qu'elles procèdent par réduction de données. Nous exposons donc une démarche d'analyse basée sur l'observation d'indicateurs permettant d'apprécier la qualité des résultats produits par notre station de travail. Pour illustrer cette démarche, nous utilisons les résultats du traitement d'un petit corpus [4] de références bibliographiques (quelques centaines de documents).

En conclusion, nous effectuons un bilan comparatif des deux méthodes et décrivons les évolutions futures de la station de travail.