Solaris (1995) Grivel : Différence entre versions
imported>Jacques Ducloy |
imported>Jacques Ducloy |
||
Ligne 51 : | Ligne 51 : | ||
{{Solaris hr}} | {{Solaris hr}} | ||
<span id="Sommaire 2"></span> | <span id="Sommaire 2"></span> | ||
− | 2 - Choix méthodologiques et technologiques | + | {{Solaris h2|2 - Choix méthodologiques et technologiques}} |
:2.1 - Méthodes mises en œuvre | :2.1 - Méthodes mises en œuvre |
Version du 29 octobre 2013 à 18:08
Cette page contient une réédition hypertexte d'un article de Luc Grivel et Claire François, « Une station de travail pour classer, cartographier et analyser l'information bibliographique dans une perspective de veille scientifique et technique » publié dans la revue Solaris en 1995.
Le contenu et le style initial ont été respectés. La seule adaptation dans le corps de l'article concerne l'insertion de liens hypertextes.
Luc GRIVEL, Claire FRANÇOIS
Dans un contexte de veille scientifique, l'analyse infométrique de l'information scientifique et technique comprend non seulement une analyse de contenu à partir des mots-clés, résumés et titres mais aussi une analyse de ses acteurs, leurs relations, leurs moyens de communications (revues, rapports, congrès, ...), son actualité.
Dans cette perspective, nous présentons ici une station d'analyse de l'information scientifique et technique développée dans le cadre du programme de recherche en infométrie de l'INIST [1]/CNRS [2]. D'un point de vue fonctionnel, elle doit non seulement fournir tous les indicateurs numériques usuellement mis en oeuvre pour prendre la mesure de l'information bibliographique, mais également proposer des représentations du contenu de la production scientifique [3]. Elle automatise l'élaboration des distributions bibliométriques (statistiques unidimensionnelles sur les champs bibliographiques), et elle supporte deux méthodes permettant de construire des cartes thématiques : une méthode éprouvée, les mots associés [Callon et al 1983]), et une autre plus récente associant une technique de classification, les K-means axiales [Lelu 1990 et 1993] à une technique d'analyse factorielle courante : l'Analyse en Composantes Principales (ACP).
Notre objectif est de classer et représenter d'énormes quantités d'information bibliographique afin d'en extraire des synthèses élaborées utilisables pour effectuer une veille scientifique (données chiffrées caractérisant un ensemble de références bibliographiques, hypertextes thématiques, documents de synthèse tels que des cartes de l'information scientifique et technique).
La première partie de cet article décrit les méthodes mises en oeuvre pour représenter le contenu de l'information et montre leur spécificité et leur complémentarité. Nous y exposons également nos choix technologiques, puis nous décrivons l'objet technique réalisé : une chaîne de traitement infométrique sous Unix, basée sur la norme SGML.
La deuxième partie est consacrée à l'analyse des résultats. Nous abordons ici le problème de la qualification des résultats afin de limiter les risques d'erreurs lors de leur interprétation. L'analyse des distributions bibliométriques n'est qu'esquissée. Elle ne présente, à notre avis, pas de difficultés majeures, puisqu'il est possible de s'appuyer sur des lois qui décrivent leur comportement. Par contre, l'exploitation des résultats de méthodes d'analyse de données demande quelques précautions car il ne faut pas oublier qu'elles procèdent par réduction de données. Nous exposons donc une démarche d'analyse basée sur l'observation d'indicateurs permettant d'apprécier la qualité des résultats produits par notre station de travail. Pour illustrer cette démarche, nous utilisons les résultats du traitement d'un petit corpus [4] de références bibliographiques (quelques centaines de documents).
En conclusion, nous effectuons un bilan comparatif des deux méthodes et décrivons les évolutions futures de la station de travail.
- 2.1 - Méthodes mises en œuvre
- Les mots associés
La méthode basée sur les K-means axiales et l'ACP Complémentarité des méthodes
2.2 - Technologie informatique Une conception modulaire basée sur des standards Interface utilisateur : Scénarii d'analyse standard et mise en forme des résultats
2.3 - La chaîne de traitement infométrique La préparation des données (phase 2) Des distributions bibliométriques (phase 3) L'analyse des données (phase 4) La mise en forme des résultats (phase 5)