Curation de données géographiques sur des corpus ISTEX/Springer
Un des objectifs de l'analyse exploratoires de corpus ISTEX est le repérage des acteurs d'un domaine donné. Pour cela, il est souvent indispensable de clarifier les notions géographiques telles que pays, région ou villes, relatives aux affiliations.
Les plateformes de curation et d'exploration, associées au réseau de wikis communs, permettent d'y apporter des éléments de réponse. Les premiers essais portent sur les collections Springer.
Sommaire
Pré-requis
Les manipulations informatiques données sur cette page font appel aux commandes de la bibliothèque Dilib.
Élaboration des éléments géographiques
Les données géographiques sur les flux ISTEX/Springer
Le cartouche ci-dessous pointe vers le serveur d'exploration sur le frêne du wiki Wicri/Bois. Les 3 icônes de droite pointent vers 3 étapes :
- Corpus : simple transcodage en TEI,
- Curation : où est effectuée une normalisation des noms de pays,
- Exploration : où est effectuées une normalisation des noms de villes ou de région.
L'étape d'exploration donne accès à tous les index géographiques actuellement traités :
- Pays d'affiliation : index pays reconnus. Cet index est généralement bien reconnu.
- Région d'affiliation : index des régions reconnues. Sur les fonds Springer, cet index commence à être significatif pour les régions françaises avec des premiers éléments pour l'Allemagne.
- Villes : index des villes reconnues. En dehors de la France, cet index n'est pas significatif sur ISTEX/Springer.
Les adresses comme source d'information
L'élaboration des éléments géographiques est réalisé à partir des adresses. Voici quelques exemples caractéristiques :
- notice ISTEX:468_1986_Article_BF0019702 (1986) :
<affiliation>Institut für Forstbotanik der Universität, Büsgenweg 2, D-3400, Göttingen, Germany</affiliation>
- Le pays est repéré par Germany et la ville et la région sont identifiable par un code postal à 4 chiffres (avant 1993 en Allemagne).
- notice ISTEX:11258_1985_Article_BF00055687 (1985) :
<affiliation>Systematisch-Geobotanisches Institut, Untere Karspüle 2, D-3400, Göttingen, F.R.G.</affiliation>
- Ici l'Allemagne est repérée par le code F.R.G. (Federal Republic of Germany) reconnu par transformation de FRG dans la table des pays.
- notice ISTEX:11104_1994_Article_BF00033936 (1994):
<affiliation>Abteilung Ökologie, II. Zoologisches Institut, Berliner Strasse 28, D-37073, Göttingen, Germany</affiliation>
- Ici le code postal est à 5 chiffres (après 1993).
Ressources utilisées pour la curation des données géographiques
Niveau pays
Pour ISTEX/Springer, la principale ressource est la Table des noms de pays en anglais sur Wicri/Métadonnées.
Niveau ville et région
Nos premières observations sur la France et l'Allemagne montre un emploi consistant des codes postaux. Cette clé est alors particulièrement intéressante.
En France
Pour la France, les 2 premiers caractères identifient, sans ambiguïtés, le département et donc la région. Sur Wicri/France, la Liste des départements et préfectures de France est donc une ressource clé (et stabilisée).
En Allemagne
Pour l'Allemagne, les codes permettent d'identifier une agglomération mais pas directement une région. De plus, les codes utilisés depuis 1993 sont à 5 chiffres et très différents de ceux qui étaient utilisés antérieurement. Pour la curation à partir de ces codes, la bibliothèque Wicri offre deux tables en cours de construction mutualisée :
- $DILIB/data/Wicri/Allemagne/codePostal4.fr.tab
- $DILIB/data/Wicri/Allemagne/codePostal5.fr.tab
La table codePostal4.fr associe à chaque code postal un élément TEI de type place. Par exemple au code 3400 la table associe :
<place>
<placeName>
<settlement type="city">Göttingen</settlement>
<region type="land" nuts="2">Basse-Saxe</region>
</placeName>
</place>
Cette table est constituée à partir d'un réseau de pages sur les wikis relatifs à l'Allemagne :
- sur Wicri/Allemagne :
- Liste de codes postaux qui joue le rôle d'une tête de réseau et d'une page par défaut.
- Liste de codes postaux du Bade-Wurtemberg
- sur Wicri/Sarre, une liste de ses codes postaux
- sur Wicri/Rhénanie-Palatinat, une table équivalente
Ces pages contiennent des tableaux à 5 entrées, dont voici un extrait :
ville | code 4 chiffres | code 5 chiffres | formes courantes | district/land |
---|---|---|---|---|
Göttingen | 3400 | 37001-37099 | Göttingen | region @type=land @nuts=2 : Basse-Saxe |
Recklinghausen (Ruhr) | 4350 | 45601-45665 | Recklinghausen | region @type=land @nuts=1 : Rhénanie-du-Nord-Westphalie ; region @type=district @nuts=2 : District de Münster |
Démarche de curation des données géographiques
Les règles de curation mentionnées au paragraphe précédent sont en cours de constitution et seront donc de faible performance face à un corpus donné. On peut cependant améliorer sensiblement un corpus donné en focalisant sur les points les plus sensibles d'un corpus.
Pour cela, sur un corpus ISTEX/Springer, une démarche indicative peut suivre les étapes suivantes :
- dans l'étape Curation, analyser les pays non reconnus (index Pays inc.) dans les fréquences les plus fortes.
- compléter la table Table des noms de pays en anglais sur Wicri/Métadonnées.
- sur son poste de développement, sous Unix, procéder aux opérations suivantes :
# pour utiliser DILIB dans une config. standard
. ~/Dilib/init.sh
# téléchargement de la page modifiée
WicriGetPage -l wicri-meta.fr -p "Table des noms de pays en anglais" \
> $DILIB_IMPORT/Wicri/Data/EnglishToPays.wiki
# compilation partielle de Dilib
. $DILIB_IMPORT/DilibMake/DilibUpdate.sh
# vérification
more $DILIB/data/Wicri/Metadata/CountryToPays.tab
more $DILIB/data/Wicri/Metadata/CountryLcToPays.tab
- relancer la génération du serveur d'exploration
- vérifier l'amélioration de la reconnaissance des pays
- dans l'étape Curation, analyser les régions non reconnues (index .) dans les fréquences les plus fortes.
- en s'inspirant de ce qui a été faot pour les pays faire de même pour les régions allemandes.