Curation de données géographiques sur des corpus ISTEX/Springer : Différence entre versions
imported>Jacques Ducloy (→En Allemagne) |
imported>Jacques Ducloy (→En Allemagne) |
||
Ligne 52 : | Ligne 52 : | ||
** [[wicri-allemagne.fr:Liste de codes postaux|Liste de codes postaux]] qui joue le rôle d'une tête de réseau et d'une page par défaut. | ** [[wicri-allemagne.fr:Liste de codes postaux|Liste de codes postaux]] qui joue le rôle d'une tête de réseau et d'une page par défaut. | ||
** [[wicri-allemagne.fr:Liste de codes postaux du Bade-Wurtemberg|Liste de codes postaux du Bade-Wurtemberg]] | ** [[wicri-allemagne.fr:Liste de codes postaux du Bade-Wurtemberg|Liste de codes postaux du Bade-Wurtemberg]] | ||
+ | * sur [[wicri-sarre.fr:Liste de codes postaux|Wicri/Sarre, une liste de ses codes postaux]] |
Version du 19 janvier 2014 à 09:51
Un des objectifs de l'analyse exploratoires de corpus ISTEX est le repérage des acteurs d'un domaine donné. Pour cela, il est souvent indispensable de clarifier les notions géographiques telles que pays, région ou villes, relatives aux affiliations.
Les plateformes de curation et d'exploration, associées au réseau de wikis communs, permettent d'y apporter des éléments de réponse.
Sommaire
Élaboration des éléments géographiques
Les données géographiques sur les flux ISTEX/Springer
Le cartouche ci-dessous pointe vers le serveur d'exploration sur le frêne du wiki Wicri/Bois. Les 3 icônes de droite pointent vers 3 étapes :
- Corpus : simple transcodage en TEI,
- Curation : où est effectuée une normalisation des noms de pays,
- Exploration : où est effectuées une normalisation des noms de villes ou de région.
L'étape d'exploration donne accès à tous les index géographiques actuellement traités :
- Pays d'affiliation : index pays reconnus. Cet index est généralement bien reconnu.
- Région d'affiliation : index des régions reconnues. Sur les fonds Springer, cet index commence à être significatif pour les régions françaises avec des premiers éléments pour l'Allemagne.
- Villes : index des villes reconnues. En dehors de la France, cet index n'est pas significatif sur ISTEX/Springer.
Les adresses comme source d'information
L'élaboration des éléments géographiques est réalisé à partir des adresses. Voici quelques exemples caractéristiques :
- notice ISTEX:468_1986_Article_BF0019702 (1986) :
<affiliation>Institut für Forstbotanik der Universität, Büsgenweg 2, D-3400, Göttingen, Germany</affiliation>
- Le pays est repéré par Germany et la ville et la région sont identifiable par un code postal à 4 chiffres (avant 1993 en Allemagne).
- notice ISTEX:11258_1985_Article_BF00055687 (1985) :
<affiliation>Systematisch-Geobotanisches Institut, Untere Karspüle 2, D-3400, Göttingen, F.R.G.</affiliation>
- Ici l'Allemagne est repérée par le code F.R.G. (Federal Republic of Germany) reconnu par transformation de FRG dans la table des pays.
- notice ISTEX:11104_1994_Article_BF00033936 (1994):
<affiliation>Abteilung Ökologie, II. Zoologisches Institut, Berliner Strasse 28, D-37073, Göttingen, Germany</affiliation>
- Ici le code postal est à 5 chiffres (après 1993).
Ressources utilisées pour la curation des données géographique
Niveau pays
Pour ISTEX/Springer, la principale ressource est la Table des noms de pays en anglais sur Wicri/Métadonnées.
Niveau ville et région
Nos premières observations sur la France et l'Allemagne montre un emploi consistant des codes postaux. Cette clé est alors particulièrement intéressante.
En France
Pour la France, les 2 premiers caractères identifient, sans ambiguïtés, le département et donc la région. Sur Wicri/France, la Liste des départements et préfectures de France est donc une ressource clé (et stabilisée).
En Allemagne
Pour l'Allemagne, les codes permettent d'identifier une agglomération mais pas directement une région. De plus, les codes utilisés depuis 1993 sont à 5 chiffres et très différents de ceux qui étaient utilisés antérieurement. Pour la curation à partir de ces codes, la bibliothèque Wicri offre deux tables en cours de construction mutualisée :
- $DILIB/data/Wicri/Allemagne/codePostal4.fr.tab
- $DILIB/data/Wicri/Allemagne/codePostal5.fr.tab
La table codePostal4.fr associe à chaque code postal un élément TEI de type place. Par exemple au code 3400 la table associe :
<place>
<placeName>
<settlement type="city">Göttingen</settlement>
<region type="land" nuts="2">Basse-Saxe</region>
</placeName>
</place>
Cette table est constituée à partir d'un réseau de pages sur les wikis relatifs à l'Allemagne :
- sur Wicri/Allemagne :
- Liste de codes postaux qui joue le rôle d'une tête de réseau et d'une page par défaut.
- Liste de codes postaux du Bade-Wurtemberg
- sur Wicri/Sarre, une liste de ses codes postaux