JIE (1999) Nauer : Différence entre versions
imported>Jacques Ducloy (→Introduction) |
imported>Jacques Ducloy (→Notes) |
||
Ligne 36 : | Ligne 36 : | ||
==Notes== | ==Notes== | ||
<references/> | <references/> | ||
+ | ==Bibliographie== | ||
+ | {{VSST biblio | ||
+ | |id=AACR2:1988 | ||
+ | |auteur=American Library Association | ||
+ | |texte=. Anglo-American Cataloguing Rules, 2nd edition, 1988.}} | ||
{{JIE fin corps}} | {{JIE fin corps}} |
Version du 24 mars 2012 à 15:24
De l'importance de la normalisation en bibliométrie
|
- Résumé
- Si la consultation de multiples sources d'information garantit une meilleure couverture du sujet, elle nécessite -en parallèle- de prendre en compte l'hétérogénéité des données. En effet, comme chaque producteur d'information possède son propre modèle de document, on obtient des représentations différentes d'une même information. Cette hétérogénéité occasionne deux problèmes majeurs pour la bibliométrie qui faussent statistiques et analyses. Ces difficultés concernent : • la présence de variations pour représenter une même information (auteurs, descripteurs, affiliation, etc.) ; • la présence de doublons (c'est-à-dire plusieurs représentations de la même référence bibliographique). Dans cet article, nous proposons une approche visant à pallier ces problèmes. Nous discutons tout d'abord les choix retenus en terme de normalisation et de dédoublonnage.
Sommaire
Introduction
L’interrogation de plusieurs banques de données est une nécessité dans la constitution d’une bibliographie exhaustive sur un sujet pluridisciplinaire [Gehanno 1998]. Or, si la consultation de multiples sources d’information garantit une meilleure couverture du sujet, elle nécessite -en parallèle- de prendre en compte l’hétérogénéité des données. En effet, comme chaque producteur d’information possède son propre modèle de document, on obtient des représentations différentes d’une même information. Cette hétérogénéité occasionne deux problèmes majeurs pour la bibliométrie qui faussent statistiques et analyses. Ces difficultés concernent :
- la présence de variations pour représenter une même information (auteurs, descripteurs, affiliation, etc.) ;
- la présence de doublons (c’est-à-dire plusieurs représentations de la même référence bibliographique).
Dans cet article, nous proposons une approche visant à pallier ces problèmes. Nous discutons tout d’abord les choix retenus en terme de normalisation et de dédoublonnage.
Nous présentons ensuite la chaîne de traitement mise en place dans le but de fusionner de multiples sources. Cette chaîne repose sur une structure pivot de représentation des documents en SGML[1] et inclut la normalisation des structures et des contenus. Nous détaillons ici plus particulièrement nos travaux sur la normalisation des auteurs et des descripteurs, ainsi que sur le dédoublonnage des notices. Pour cela, nous décrivons une méthode générale pour établir des équivalences (d’auteurs, de descripteurs, de notices, etc.) et présentons l’algorithme que nous avons utilisé pour la normalisation des auteurs, des descripteurs et pour le dédoublonnage.
Notes
- ↑ Standard Generalized Markup Language [ISO 8879:1986]
Bibliographie
[AACR2:1988] ↑ American Library Association, . Anglo-American Cataloguing Rules, 2nd edition, 1988.