JIE (1999) Nauer

De l'importance de la normalisation en bibliométrie

Journées sur l'information élaborée
JIE 1999 Ile Rousse

1999

Titre

De l'importance de la normalisation en bibliométrie

Auteur

Emmanuel Nauer

Affiliation

Loria, équipe Orpailleur – CNRS : UMR7503 – « [[A pour affiliation auteur » contient un caractère désigné « [ » dans un libellé de propriété, et a été classé conséquemment comme non valide. - Nancy I – Université Nancy II – Institut National Polytechnique de Lorraine (INPL) France ]]

En ligne

site du CRM

Résumé: Si la consultation de multiples sources d'information garantit une meilleure couverture du sujet, elle nécessite -en parallèle- de prendre en compte l'hétérogénéité des données. En effet, comme chaque producteur d'information possède son propre modèle de document, on obtient des représentations différentes d'une même information. Cette hétérogénéité occasionne deux problèmes majeurs pour la bibliométrie qui faussent statistiques et analyses. Ces difficultés concernent : • la présence de variations pour représenter une même information (auteurs, descripteurs, affiliation, etc.) ; • la présence de doublons (c'est-à-dire plusieurs représentations de la même référence bibliographique). Dans cet article, nous proposons une approche visant à pallier ces problèmes. Nous discutons tout d'abord les choix retenus en terme de normalisation et de dédoublonnage.

Sommaire

1 Introduction
2 Normalisation des données
- 2.1 Normalisation de la structure
- 2.2 Normalisation des contenus
3 Les descripteurs
- 3.1 Les descripteurs initiaux
4 Notes
5 Bibliographie

Introduction

L’interrogation de plusieurs banques de données est une nécessité dans la constitution d’une bibliographie exhaustive sur un sujet pluridisciplinaire [Gehanno 1998]. Or, si la consultation de multiples sources d’information garantit une meilleure couverture du sujet, elle nécessite -en parallèle- de prendre en compte l’hétérogénéité des données. En effet, comme chaque producteur d’information possède son propre modèle de document, on obtient des représentations différentes d’une même information. Cette hétérogénéité occasionne deux problèmes majeurs pour la bibliométrie qui faussent statistiques et analyses. Ces difficultés concernent :

la présence de variations pour représenter une même information (auteurs, descripteurs, affiliation, etc.) ;
la présence de doublons (c’est-à-dire plusieurs représentations de la même référence bibliographique).

Dans cet article, nous proposons une approche visant à pallier ces problèmes. Nous discutons tout d’abord les choix retenus en terme de normalisation et de dédoublonnage.

Nous présentons ensuite la chaîne de traitement mise en place dans le but de fusionner de multiples sources. Cette chaîne repose sur une structure pivot de représentation des documents en SGML^[1] et inclut la normalisation des structures et des contenus. Nous détaillons ici plus particulièrement nos travaux sur la normalisation des auteurs et des descripteurs, ainsi que sur le dédoublonnage des notices. Pour cela, nous décrivons une méthode générale pour établir des équivalences (d’auteurs, de descripteurs, de notices, etc.) et présentons l’algorithme que nous avons utilisé pour la normalisation des auteurs, des descripteurs et pour le dédoublonnage.

Nous insisterons, au fil de cet article, sur le caractère essentiel de la normalisation et du dédoublonnage dans le domaine de la bibliométrie, à travers une étude menée en collaboration avec l’INRS^[2] Cette étude porte sur un corpus documentaire concernant le stress professionnel et contenant 26251 références bibliographiques provenant de l’interrogation de 8 sources différentes (Medline, Embase, Biosis, Psyclit, NIOSHTIC, Cisilo, INRS-B et Pascal). Nous montrons également comment nous avons utilisé le thésaurus de l’UMLS^[3] pour normaliser les descripteurs.

Normalisation des données

L’approche que nous avons adoptée consiste à fédérer les multiples sources d’information avec un souci d’homogénéisation, afin de prendre en compte les diversités de représentation des informations, et afin d’aboutir à un modèle cohérent de représentation capable d’unifier les différents contenus.

Pour cela, nous avons défini un modèle de données vers lequel nous avons fait converger les différents modèles initiaux. La chaîne de traitement mise en place opère tout d’abord une normalisation de la structure des notices, puis une normalisation du contenu de chacun des champs, comme le préconise [Dou 91].

Nous décrivons les principales étapes nécessaires à la normalisation et renvoyons à [Jolibois 1999] pour une revue détaillée des normes.

Normalisation de la structure

Chaque base dispose d’une structure spécifique, constituée d’un nombre variable de champs. Si certains champs sont communs à toutes les bases (Auteurs, Titre, Date de publication, etc.), d’autres sont spécifiques à une ou deux bases seulement (les tags^[4], par exemple, sont uniquement proposés par Medline, Embase et Psyclit). D’autres enfin apparaissent sous des formes différentes selon qu’ils sont fusionnés ou non. A titre d’exemple, le Titre du périodique, le Volume, le Fascicule et la Pagination apparaissent dans Medline PubMed dans un unique champ Source.

La normalisation de la structure peut être possible en utilisant des normes préexistantes.

Celles-ci concernent la structure logique (de quelles informations une référence est-elle constituée ?) et la structure physique (quel format informatique utiliser pour gérer les références ?).

La normalisation de la structure logique peut reposer sur l’utilisation de différentes normes :

• des normes de catalogage, comme l’[ISBD 1992] (General International Standard Bibliographic Description) , l’[AACR2:1988] (Anglo-American Cataloguing Rules 2nd edition) ;

et/ou

• des normes éditoriales, comme l’[ISO 690:1987], le style de Vancouver [ICMJE 1997], qui fait autorité en médecine, etc.

Après avoir pris en compte les différentes normes citées ci-dessus, nous avons défini un modèle de données homogène comprenant un ensemble bien défini de champs (structure logique), et avons opté pour l’utilisation de la norme SGML (structure physique) pour bénéficier des nombreux outils de manipulation de données SGML disponibles gratuitement.

Pour uniformiser les données provenant de différentes bases, il a donc été nécessaire :

• de supprimer des champs jugés non pertinents par rapport aux besoins de la bibliométrie (numéros de contrôle, date d’entrée et de mise à jour dans la base originale, CODEN^[5], cote, etc.) ; • d’éclater certains champs afin de ventiler leur contenu dans des champs plus précis, dans le but de les exploiter directement. Par exemple le champ Source de Medline a été éclaté en Titre de périodique, Volume, Fascicule, Pagination, Lieu de publication, Editeur, Date de publication ; • de créer de nouveaux champs, absents de certaines bases. Par exemple, dans le NIOSHTIC, le Type de publication n’est (initialement) pas un champ, mais l’information apparaît parmi les descripteurs ; • de normaliser les intitulés des champs retenus (Auteurs, Titre, Descripteurs, etc.).

Normalisation des contenus

Une fois les structures de notices uniformisées, il est nécessaire de normaliser les contenus des champs les plus importants pour l’exploitation bibliométrique du corpus. Cela concerne les auteurs, l’affiliation de l’auteur principal, le pays d’affiliation de l’auteur principal, le type de publication, la date de publication, la langue de publication, le titre de périodique et les descripteurs.

Là aussi, on peut se référer à différentes normes déjà définies. On peut citer l’[ISO 3166:1997] pour les codes de pays, l’[ISO 639:1988] pour les codes de langues, l’[ISO 8601:1998] pour les dates, etc. Nous avons choisi de détailler, ci-après, nos travaux sur les auteurs et les descripteurs, deux champs fondamentaux pour les analyses bibliométriques, plutôt que de décrire l’approche mise en place pour la normalisation de l’ensemble des champs. La description des auteurs subit de nombreuses variations [Degez 1998]. Le nom précède généralement le prénom, mais parfois c’est l’inverse. Le prénom est complet ou abrégé, ou bien seul le premier prénom apparaît en entier et le second est abrégé. Les noms peuvent être composés et présenter des particules (de, von, van, etc.). A ces variations s’en ajoutent d’autres, comme celles liées à des séparateurs (tiret, apostrophe, virgule) ou à la casse. Par exemple, l’auteur le plus référencé dans notre corpus documentaire sur le stress professionnel, Cary L Cooper apparaît représenté sous 10 formes différentes^[6] :

"Cooper,-Cary-L."(54),
"Cooper-CL" (42),
"Cooper CL" (34),
"C. L. Cooper" (8),
"Cooper C.L." (7),
"COOPER CL" (5),
"Cooper, C. L." (3),
"COOPER-C-L" (2),
"Cooper-C-L" (2),
"Cooper,-C.-L" (1).

Les règles de catalogage (AACR2, [AFNOR NF Z 44-001:1995]) préconisent le rejet des particules selon les pratiques du pays auquel appartient l’auteur. Ainsi, un auteur français, espagnol ou portugais verra sa particule "de" rejetée (ex. : Roux, Jean de) tandis qu’un américain ou un italien la conservera en tête (De Sicca, Giovanni). Les noms composés sans espace sont classés au premier élément lorsqu’il s’agit de français, d’allemands, d’espagnols (ex. : Garcia Lorca, Federico), au dernier élément lorsqu’il s’agit d’américains ou de portugais (ex. : Mill, John Stuart). Ces règles sont difficilement automatisables. Aussi avons-nous opté pour un format plus simple qui ne procède à aucun rejet : le nom complet de l’auteur apparaît suivi des initiales de ses prénoms, sans point ; les noms composés sont classés au premier élément et les éléments sont systématiquement séparés par un trait d’union. Il est alors possible de mettre en place - pour chaque base - des règles de transformation qui établissent la correspondance entre les auteurs tels qu’ils sont représentés dans le format de la base, et le format cible.

Considérer les différentes formes d’un même concept comme étant des concepts différents est lourd de conséquences en statistique. Sur l’exemple précédent, le fait de normaliser les différentes formes de l’auteur, en une forme commune, a pour conséquence de quasiment tripler le nombre de travaux relatifs à cet auteur, en passant de 54 (fréquence de sa forme la plus occurente) à 158 (la somme des occurences des différentes formes). De même, l’extraction des collèges invisibles (collaboration d’auteurs) est fortement biaisée (rendue principalement incomplète) par cette même hétérogénéité des dénominations. Il est donc clairement primordial de normaliser les différentes formes de représentation pour une même information. Voyons maintenant en détail comment gérer cette hétérogénéité lorsqu’elle concerne les descripteurs.

Les descripteurs

Les différentes bases interrogées représentent les documents de différentes manières. La liberté de chaque base en matière d’indexation engendre de nombreux problèmes pour la fusion de données. Les variations peuvent concerner :

le vocabulaire utilisé : pour la représentation d’un même concept, le vocabulaire employé varie d’une base à l’autre (exemple : Antidepressive Agents et Antidepressants représentent le concept d’antidépresseurs) ;
l’étendue de l’indexation : chaque source représente l’information qui l’intéresse et utilise du vocabulaire spécialisé dépendant du domaine d’intérêt (Psyclit représente les documents prioritairement selon leur aspect psychologique ; Pascal a une vocation plus générale) ;
la complexité de l’indexation : la majorité des bases utilise, en matière de description, de simples groupes nominaux. Cependant, certaines bases utilisent une indexation à facettes, c’est-à-dire qu’un descripteur ne représentera pas simplement un concept, mais il associera un certain point de vue à ce concept (exemple : Stress, Psychological_Epidemiology indiquera qu’il est question du stress psychologique, abordé ici d’un point de vue épidémiologique).
la répartition de l’information dans différents champs : la plupart des bases fournissent pour chaque document un champ mots-clés dans lequel le contenu du document est représenté à l’aide de descripteurs. Certaines bases utilisent toutefois plusieurs champs pour représenter des aspects complémentaires à la description du document (type de document, population d’expérimentation, nom de pays, titre de périodique, divers mots-outils, etc.). D’autres bases fusionnent ces différentes informations dans un seul champ (on peut également noter ici, la difficulté de segmentation de l’information dans différents champs tant les limites ne sont pas évidentes entre les différentes parties d’information).

Nous exposons ci-après nos solutions qui prennent en compte ces difficultés.

Les descripteurs initiaux

L’ensemble des descripteurs initiaux sur le stress comprend 49597 formes très diverses :

Exemples de descripteurs	Source	Commentaire
Human, Animal	Pascal
HUMAN, FATIGUE-	Biosis,Psyclit

CAS 7439-92-1 Cisilo Données propres à Cisilo

stress-, sleep-disorder-etiology,

human- (888), male- (41) Embase Descripteurs à facette, mais pas de marqueur spécifique pour la facette (impossibilité de les détecter automatiquement) ; codes de classification en addition aux descripteurs

Epinephrine_Pharmacology--PD,

Corticosterone_Blood--BL, Stress, Psychological:CO Medline Descripteurs à facette avec facettes détectables automatiquement en toutes lettres et/ou en abrégé Humans, Mental stress, NIOSH Contract, NIOSH Publication, WOSTEH, 137586, 59461 Nioshtic Mots courants et données propres au Nioshtic

- descripteurs comprenant "NIOSH" ; - codes de journaux comme WOSTEH qui correspondant à la revue "Work and Stress" ; - codes de classification.

Notes

↑ Standard Generalized Markup Language [ISO 8879:1986]
↑ Institut National de Recherche et Sécurité
↑ Unified Medical Language System
↑ Les tags sont des descripteurs génériques qui renseignent sur le type de population (mâle, femelle, animal, etc.) ou la tranche d’âge (enfant, adulte, etc.), le type de publication (étude de cas, etc.), l’aire géographique, etc.
↑ Le CODEN est un code alphanumérique d’identification des périodiques, qui tend à disparaître au profit de l’ISSN.
↑ le nombre entre parenthèses représente la fréquence d’occurence de chacune des formes

Bibliographie

[AACR2:1988] ↑ American Library Association, Anglo-American Cataloguing Rules, 2nd edition, 1988.

[AFNOR NF Z 44-001:1995] ↑ Technologies de l’information - Classement alphabétique des dénominations. AFNOR, 1995.

[Desrichard 1997] ↑ Y. Desrichard, Le dédoublonnage des banques de données bibliographiques : un état de l’art. Documentaliste - Sciences de l’information, 34(2):82-89, 1997.

[ICJME 1997] ↑ International Commitee of Medical Journals Editors, Uniform Requirements for Manuscripts Submitted to Biomedical Journals. JAMA, 277:927-934, 1997.

[ISBD 1988] ↑ ISBD(G). General International Standard Bibliographic Description, Annotated text, 1988.

[ISO 639:1988] ↑ International Organization for Standardization, ISO 639. Code for the representation of names of languages, 1988.

[ISO 690:1987] ↑ International Organization for Standardization, ISO 690. Information and Documentation - Bibliographic references - Content, form and structure, 1987.

[ISO 3166:1997] ↑ International Organization for Standardization, ISO 3166. (revision of 1988) Code for the representation of names of countries, 1997.

[ISO 8601:1988] ↑ International Organization for Standardization, ISO 8601. Data elements and interchange formats -- Information interchange -- Representation od dates and times, 1988.

[ISO 8879:1986] ↑ International Organization for Standardization, ISO 8879. Information processing -- Text and Office Systems -- Standard Generalized Markup Language (SGML), 1986.

[Grivel 99] ↑ Luc Grivel, Hélène Fagherazzi, Philippe Fourneret, Alain Zerouki. La conception de bases de données infométriques hybrides : analyse de la pratique de trois observatoires européens. In Les systèmes d’information élaborées, SFBA, Ile Rousse, septembre 99.

[Jolibois 1999] ↑ Samuel Jolibois, Emmanuel Nauer, Dominique Chouanière et Jacques Ducloy, Françoise Grandjean, and Marc Mouzé-Amady. Adaptation des normes et formats documentaires à la gestion informatisée de corpus bibliographiques. Bulletin des Bibliothèques de France, 1999. A paraître.

[Laisiepen 1980] ↑ K. Laisiepen, E. Lutterbeck, and K.H. Meyer-Uhlenried. Grundlagen der praktischen. Information und Dokumentation. Saur, 1980.

[MARC 1999] ↑ Library of Congress, (LC). MARC Standards, 1999.
Available from http://lcweb.loc.gov/marc/marc.html.

[Nauer 1999] ↑ Emmanuel Nauer, Les problèmes de variations terminologiques dans l’indexation de références bibliographiques. In Journées Internationales de Linguistique Appliquée (JILA’99). LILLA - Université de Nice, juin 1999.

[Polanco 95] ↑ Xavier Polanco, Jean Royauté, Luc Grivel et Alain Courgey. Une approche linguistico-infométrique au service de la veille scientifique et technologique. In Les systèmes d’information élaborées, SFBA, Ile Rousse, juin 1995.

[TEI 1994] ↑ Electronic Text Center (ETC). TEI Guidelines for Electronic Text Encoding, 1994. Available from http ://etext.virginia.edu/TEI.html.

[1] Standard Generalized Markup Language [ISO 8879:1986]

[2] Institut National de Recherche et Sécurité

[3] Unified Medical Language System

[4] Les tags sont des descripteurs génériques qui renseignent sur le type de population (mâle, femelle, animal, etc.) ou la tranche d’âge (enfant, adulte, etc.), le type de publication (étude de cas, etc.), l’aire géographique, etc.

[5] Le CODEN est un code alphanumérique d’identification des périodiques, qui tend à disparaître au profit de l’ISSN.

[6] re entre parenthèses représente la fréquence d’occurence de chacune des formes

[1]

[2]

[3]

[4]

[5]

[6]

JIE (1999) Nauer

Sommaire

Introduction

Normalisation des données

Normalisation de la structure

Normalisation des contenus

Les descripteurs

Les descripteurs initiaux

Notes

Bibliographie

Menu de navigation

Affichages

Outils personnels

Navigation

Rechercher

Outils