Curation de données géographiques sur des corpus ISTEX/Springer

De Wicri Manuel

Un des objectifs de l'analyse exploratoires de corpus ISTEX est le repérage des acteurs d'un domaine donné. Pour cela, il est souvent indispensable de clarifier les notions géographiques telles que pays, région ou villes, relatives aux affiliations.

Les plateformes de curation et d'exploration, associées au réseau de wikis communs, permettent d'y apporter des éléments de réponse. Les premiers essais portent sur les collections Springer.

logo travaux Les outils DILIB sont en phase de développement et donc d'évolution. La suite de cette page est relative à la version V0.5.61 (janvier 2014)

Pré-requis

Les manipulations informatiques données sur cette page font appel aux commandes de la bibliothèque Dilib.

Élaboration des éléments géographiques

Les données géographiques sur les flux ISTEX/Springer

Le cartouche ci-dessous pointe vers le serveur d'exploration sur le frêne du wiki Wicri/Bois. Les 3 icônes de droite pointent vers 3 étapes :

  • Corpus : simple transcodage en TEI,
  • Curation : où est effectuée une normalisation des noms de pays,
  • Exploration : où est effectuées une normalisation des noms de villes ou de région.

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur le flux ISTEX

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de curation

Pour aller sur l'étape d'exploration globale

L'étape d'exploration donne accès à tous les index géographiques actuellement traités :

  • Pays d'affiliation : index pays reconnus. Cet index est généralement bien reconnu.
  • Région d'affiliation : index des régions reconnues. Sur les fonds Springer, cet index commence à être significatif pour les régions françaises avec des premiers éléments pour l'Allemagne.
  • Villes : index des villes reconnues. En dehors de la France, cet index n'est pas significatif sur ISTEX/Springer.

Les adresses comme source d'information

L'élaboration des éléments géographiques est réalisé à partir des adresses. Voici quelques exemples caractéristiques :

  • notice ISTEX:468_1986_Article_BF0019702 (1986) :
    • <affiliation>Institut für Forstbotanik der Universität, Büsgenweg 2, D-3400, Göttingen, Germany</affiliation>
    • Le pays est repéré par Germany et la ville et la région sont identifiable par un code postal à 4 chiffres (avant 1993 en Allemagne).
  • notice ISTEX:11258_1985_Article_BF00055687 (1985) :
    • <affiliation>Systematisch-Geobotanisches Institut, Untere Karspüle 2, D-3400, Göttingen, F.R.G.</affiliation>
    • Ici l'Allemagne est repérée par le code F.R.G. (Federal Republic of Germany) reconnu par transformation de FRG dans la table des pays.
  • notice ISTEX:11104_1994_Article_BF00033936 (1994):
    • <affiliation>Abteilung Ökologie, II. Zoologisches Institut, Berliner Strasse 28, D-37073, Göttingen, Germany</affiliation>
    • Ici le code postal est à 5 chiffres (après 1993).

Ressources utilisées pour la curation des données géographiques

Niveau pays

Pour ISTEX/Springer, la principale ressource est la Table des noms de pays en anglais sur Wicri/Métadonnées.

Niveau ville et région

Nos premières observations sur la France et l'Allemagne montre un emploi consistant des codes postaux. Cette clé est alors particulièrement intéressante.

En France

Pour la France, les 2 premiers caractères identifient, sans ambiguïtés, le département et donc la région. Sur Wicri/France, la Liste des départements et préfectures de France est donc une ressource clé (et stabilisée).

En Allemagne

Pour l'Allemagne, les codes permettent d'identifier une agglomération mais pas directement une région. De plus, les codes utilisés depuis 1993 sont à 5 chiffres et très différents de ceux qui étaient utilisés antérieurement. Pour la curation à partir de ces codes, la bibliothèque Wicri offre deux tables en cours de construction mutualisée :

  • $DILIB/data/Wicri/Allemagne/codePostal4.fr.tab
  • $DILIB/data/Wicri/Allemagne/codePostal5.fr.tab

La table codePostal4.fr associe à chaque code postal un élément TEI de type place. Par exemple au code 3400 la table associe :

<place>
   <placeName>
      <settlement type="city">Göttingen</settlement>
      <region type="land" nuts="2">Basse-Saxe</region>
    </placeName>
</place>

Cette table est constituée à partir d'un réseau de pages sur les wikis relatifs à l'Allemagne :

Ces pages contiennent des tableaux à 5 entrées, dont voici un extrait :

ville code 4 chiffres code 5 chiffres formes courantes district/land
Göttingen 3400 37001-37099 Göttingen region @type=land @nuts=2 : Basse-Saxe
...
...
...
...
...
Recklinghausen (Ruhr) 4350 45601-45665 Recklinghausen region @type=land @nuts=1 : Rhénanie-du-Nord-Westphalie ;
region @type=district @nuts=2 : District de Münster

Démarche de curation des données géographiques

Les règles de curation mentionnées au paragraphe précédent sont en cours de constitution et seront donc de faible performance face à un corpus donné. On peut cependant améliorer sensiblement un corpus donné en focalisant sur les points les plus sensibles d'un corpus.

Pour cela, sur un corpus ISTEX/Springer, une démarche indicative peut suivre les étapes suivantes :

#                  pour utiliser DILIB dans une config. standard
    . ~/Dilib/init.sh
#                  téléchargement de la page modifiée 
    WicriGetPage -l wicri-meta.fr -p "Table des noms de pays en anglais" \
           > $DILIB_IMPORT/Wicri/Data/EnglishToPays.wiki
#                   compilation partielle de Dilib
    . $DILIB_IMPORT/DilibMake/DilibUpdate.sh
#                   vérification
    more $DILIB/data/Wicri/Metadata/CountryToPays.tab 
    more $DILIB/data/Wicri/Metadata/CountryLcToPays.tab
  • relancer la génération du serveur d'exploration
  • vérifier l'amélioration de la reconnaissance des pays
  • dans l'étape Curation, analyser les régions non reconnues (index .) dans les fréquences les plus fortes.
  • en s'inspirant de ce qui a été faot pour les pays faire de même pour les régions allemandes.

Voir aussi