Serveur d'exploration sur la France dans PubMed
Cette page introduit un Serveur d'exploration sur la présence française dans la base MEDLINE/PubMed.
Ce serveur vise à tester une chaîne de ventilation de documents émis par des auteurs français ou traitant de la France à partir de la base PubMed.
Le corpus ici en ligre rassemble pour l'année 2004, 30000 références bibliographiques.
Éléments provisoires d'analyse
Un premier objectif des travaux actuels est d'améliorer la reconnaissance des noms de pays et de régions dans les chaînes de curation.
Au moment de la rédaction de ce paragraphe, le nombre total de références sélectionnées est de : 30 319.
L'index des pays reconnus (voir la liste des pays par fréquence décroissante) donne 22 000 notices ayant la France comme pays d'affiliation du premier auteur. Nous avons donc un lot de 8000 éléments qui demandent une analyse complémentaire.
La page relative aux États-Unis montre deux éléments à prendre en compte :
- French est un patronyme significatif, voir par exemple les variantes autour de Susan ou Simone French. Il convient de les éliminer.
- En revanche le terme « French » peut être significatif dans un titre ou dans un résumé (voir un titre significatif).
Enfin, la page sur les pays non reconnus donne des pistes assez simples à exploiter autour des tables de curation actuelles (voir par exemple sur Wicri/Métadonnées la Table des noms de pays en anglais).
Concernant les noms de région, la page des régions par fréquence décroissante montre un premier niveau de reconnaissance d'environ 75 %). La liste des régions non reconnues donne de bonnes pistes pour des améliorations significatives.
Voir aussi
- Un premier test sur PubMed et PubMed Central : Serveur d'exploration sur la toxicité du titane,
- pour les aspects techniques, voir Wicri:FrancePubMed2005V1.
- Serveur d'exploration sur la France dans PubMed Central
- Sur le réseau Wicri
- Ce serveur est introduit sur Wicri/Source
- Une application d'entraînement sur Wicri/Luxembourg.