Curation de données géographiques sur des corpus ISTEX/Springer

De Wicri Manuel
Révision datée du 19 janvier 2014 à 09:47 par imported>Jacques Ducloy (En Allemagne)

Un des objectifs de l'analyse exploratoires de corpus ISTEX est le repérage des acteurs d'un domaine donné. Pour cela, il est souvent indispensable de clarifier les notions géographiques telles que pays, région ou villes, relatives aux affiliations.

Les plateformes de curation et d'exploration, associées au réseau de wikis communs, permettent d'y apporter des éléments de réponse.

logo travaux Les outils DILIB sont en phase de développement et donc d'évolution. La suite de cette page est relative à la version V0.5.61 (janvier 2014)

Élaboration des éléments géographiques

Les données géographiques sur les flux ISTEX/Springer

Le cartouche ci-dessous pointe vers le serveur d'exploration sur le frêne du wiki Wicri/Bois. Les 3 icônes de droite pointent vers 3 étapes :

  • Corpus : simple transcodage en TEI,
  • Curation : où est effectuée une normalisation des noms de pays,
  • Exploration : où est effectuées une normalisation des noms de villes ou de région.

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur le flux ISTEX

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de curation

Pour aller sur l'étape d'exploration globale

L'étape d'exploration donne accès à tous les index géographiques actuellement traités :

  • Pays d'affiliation : index pays reconnus. Cet index est généralement bien reconnu.
  • Région d'affiliation : index des régions reconnues. Sur les fonds Springer, cet index commence à être significatif pour les régions françaises avec des premiers éléments pour l'Allemagne.
  • Villes : index des villes reconnues. En dehors de la France, cet index n'est pas significatif sur ISTEX/Springer.

Les adresses comme source d'information

L'élaboration des éléments géographiques est réalisé à partir des adresses. Voici quelques exemples caractéristiques :

  • notice ISTEX:468_1986_Article_BF0019702 (1986) :
    • <affiliation>Institut für Forstbotanik der Universität, Büsgenweg 2, D-3400, Göttingen, Germany</affiliation>
    • Le pays est repéré par Germany et la ville et la région sont identifiable par un code postal à 4 chiffres (avant 1993 en Allemagne).
  • notice ISTEX:11258_1985_Article_BF00055687 (1985) :
    • <affiliation>Systematisch-Geobotanisches Institut, Untere Karspüle 2, D-3400, Göttingen, F.R.G.</affiliation>
    • Ici l'Allemagne est repérée par le code F.R.G. (Federal Republic of Germany) reconnu par transformation de FRG dans la table des pays.
  • notice ISTEX:11104_1994_Article_BF00033936 (1994):
    • <affiliation>Abteilung Ökologie, II. Zoologisches Institut, Berliner Strasse 28, D-37073, Göttingen, Germany</affiliation>
    • Ici le code postal est à 5 chiffres (après 1993).

Ressources utilisées pour la curation des données géographique

Niveau pays

Pour ISTEX/Springer, la principale ressource est la Table des noms de pays en anglais sur Wicri/Métadonnées.

Niveau ville et région

Nos premières observations sur la France et l'Allemagne montre un emploi consistant des codes postaux. Cette clé est alors particulièrement intéressante.

En France

Pour la France, les 2 premiers caractères identifient, sans ambiguïtés, le département et donc la région. Sur Wicri/France, la Liste des départements et préfectures de France est donc une ressource clé (et stabilisée).

En Allemagne

Pour l'Allemagne, les codes permettent d'identifier une agglomération mais pas directement une région. De plus, les codes utilisés depuis 1993 sont à 5 chiffres et très différents de ceux qui étaient utilisés antérieurement. Pour la curation à partir de ces codes, la bibliothèque Wicri offre deux tables en cours de construction mutualisée :

  • $DILIB/data/Wicri/Allemagne/codePostal4.fr.tab
  • $DILIB/data/Wicri/Allemagne/codePostal5.fr.tab

La table codePostal4.fr associe à chaque code postal un élément TEI de type place. Par exemple au code 3400 la table associe :

<place>
   <placeName>
      <settlement type="city">Göttingen</settlement>
      <region type="land" nuts="2">Basse-Saxe</region>
    </placeName>
</place>

Cette table est constituée à partir d'un réseau de pages sur les wikis relatifs à l'Allemagne :