JIE (1999) Nauer : Différence entre versions

De VSST
imported>Jacques Ducloy
(Bibliographie)
imported>Jacques Ducloy
Ligne 29 : Ligne 29 :
 
Nous présentons ensuite la chaîne de traitement mise en place dans le but de fusionner de
 
Nous présentons ensuite la chaîne de traitement mise en place dans le but de fusionner de
 
multiples sources. Cette chaîne repose sur une structure pivot de représentation des documents en
 
multiples sources. Cette chaîne repose sur une structure pivot de représentation des documents en
SGML<ref>Standard Generalized Markup Language [ISO 8879:1986]</ref> et inclut la normalisation des structures et des contenus. Nous détaillons ici plus
+
SGML<ref>Standard Generalized Markup Language {{VSST citation|ISO 8879:1986}}</ref> et inclut la normalisation des structures et des contenus. Nous détaillons ici plus
 
particulièrement nos travaux sur la normalisation des auteurs et des descripteurs, ainsi que sur le
 
particulièrement nos travaux sur la normalisation des auteurs et des descripteurs, ainsi que sur le
 
dédoublonnage des notices. Pour cela, nous décrivons une méthode générale pour établir des
 
dédoublonnage des notices. Pour cela, nous décrivons une méthode générale pour établir des

Version du 24 mars 2012 à 17:00

De l'importance de la normalisation en bibliométrie


 
 

 
Titre
De l'importance de la normalisation en bibliométrie
Auteur
Emmanuel Nauer
Affiliation
Loria, équipe Orpailleur – CNRS : UMR7503 – « [[A pour affiliation auteur » contient un caractère désigné « [ » dans un libellé de propriété, et a été classé conséquemment comme non valide. - Nancy I – Université Nancy II – Institut National Polytechnique de Lorraine (INPL) France ]]
Résumé
Si la consultation de multiples sources d'information garantit une meilleure couverture du sujet, elle nécessite -en parallèle- de prendre en compte l'hétérogénéité des données. En effet, comme chaque producteur d'information possède son propre modèle de document, on obtient des représentations différentes d'une même information. Cette hétérogénéité occasionne deux problèmes majeurs pour la bibliométrie qui faussent statistiques et analyses. Ces difficultés concernent : • la présence de variations pour représenter une même information (auteurs, descripteurs, affiliation, etc.) ; • la présence de doublons (c'est-à-dire plusieurs représentations de la même référence bibliographique). Dans cet article, nous proposons une approche visant à pallier ces problèmes. Nous discutons tout d'abord les choix retenus en terme de normalisation et de dédoublonnage.

Introduction

L’interrogation de plusieurs banques de données est une nécessité dans la constitution d’une bibliographie exhaustive sur un sujet pluridisciplinaire [Gehanno 1998]. Or, si la consultation de multiples sources d’information garantit une meilleure couverture du sujet, elle nécessite -en parallèle- de prendre en compte l’hétérogénéité des données. En effet, comme chaque producteur d’information possède son propre modèle de document, on obtient des représentations différentes d’une même information. Cette hétérogénéité occasionne deux problèmes majeurs pour la bibliométrie qui faussent statistiques et analyses. Ces difficultés concernent :

  • la présence de variations pour représenter une même information (auteurs, descripteurs, affiliation, etc.) ;
  • la présence de doublons (c’est-à-dire plusieurs représentations de la même référence bibliographique).

Dans cet article, nous proposons une approche visant à pallier ces problèmes. Nous discutons tout d’abord les choix retenus en terme de normalisation et de dédoublonnage.

Nous présentons ensuite la chaîne de traitement mise en place dans le but de fusionner de multiples sources. Cette chaîne repose sur une structure pivot de représentation des documents en SGML[1] et inclut la normalisation des structures et des contenus. Nous détaillons ici plus particulièrement nos travaux sur la normalisation des auteurs et des descripteurs, ainsi que sur le dédoublonnage des notices. Pour cela, nous décrivons une méthode générale pour établir des équivalences (d’auteurs, de descripteurs, de notices, etc.) et présentons l’algorithme que nous avons utilisé pour la normalisation des auteurs, des descripteurs et pour le dédoublonnage.

Notes

  1. Standard Generalized Markup Language [ISO 8879:1986]

Bibliographie

[AACR2:1988] American Library Association, Anglo-American Cataloguing Rules, 2nd edition, 1988.

[AFNOR NF Z 44-001:1995] Technologies de l’information - Classement alphabétique des dénominations. AFNOR, 1995.

[Desrichard 1997] Y. Desrichard, Le dédoublonnage des banques de données bibliographiques : un état de l’art. Documentaliste - Sciences de l’information, 34(2):82-89, 1997.

[ICJME 1997] International Commitee of Medical Journals Editors, Uniform Requirements for Manuscripts Submitted to Biomedical Journals. JAMA, 277:927-934, 1997.

[ISBD 1988] ISBD(G). General International Standard Bibliographic Description, Annotated text, 1988.

[ISO 639:1988] International Organization for Standardization, ISO 639. Code for the representation of names of languages, 1988.

[ISO 690:1987] International Organization for Standardization, ISO 690. Information and Documentation - Bibliographic references - Content, form and structure, 1987.

[ISO 3166:1997] International Organization for Standardization, ISO 3166. (revision of 1988) Code for the representation of names of countries, 1997.

[ISO 8601:1988] International Organization for Standardization, ISO 8601. Data elements and interchange formats -- Information interchange -- Representation od dates and times, 1988.

[ISO 8879:1986] International Organization for Standardization, ISO 8879. Information processing -- Text and Office Systems -- Standard Generalized Markup Language (SGML), 1986.

[Grivel 99] Luc Grivel, Hélène Fagherazzi, Philippe Fourneret, Alain Zerouki. La conception de bases de données infométriques hybrides : analyse de la pratique de trois observatoires européens. In Les systèmes d’information élaborées, SFBA, Ile Rousse, septembre 99.

[Jolibois 1999] Samuel Jolibois, Emmanuel Nauer, Dominique Chouanière, Jacques Ducloy, Françoise Grandjean, and Marc Mouzé-Amady. Adaptation des normes et formats documentaires à la gestion informatisée de corpus bibliographiques. Bulletin des Bibliothèques de France, 1999. A paraître.

[Laisiepen 1980] K. Laisiepen, E. Lutterbeck, and K.H. Meyer-Uhlenried. Grundlagen der praktischen. Information und Dokumentation. Saur, 1980.

[MARC 1999] Library of Congress, (LC). MARC Standards, 1999.
Available from http://lcweb.loc.gov/marc/marc.html.

[Nauer 1999] Emmanuel Nauer, Les problèmes de variations terminologiques dans l’indexation de références bibliographiques. In Journées Internationales de Linguistique Appliquée (JILA’99). LILLA - Université de Nice, juin 1999.

[Polanco 95] Xavier Polanco, Jean Royauté, Luc Grivel et Alain Courgey. Une approche linguistico-infométrique au service de la veille scientifique et technologique. In Les systèmes d’information élaborées, SFBA, Ile Rousse, juin 1995.

[TEI 1994] Electronic Text Center (ETC). TEI Guidelines for Electronic Text Encoding, 1994. Available from http ://etext.virginia.edu/TEI.html.