TD Master 2 Info Doc Num/séance 4

De CIDE

Cette page introduit les supports de cours de la quatrième séance de travaux pratiques du Master 2 Documentation numérique (UL 2016).

Génération d'un serveur

CIDE 2016 LorExplor Athènes Diapositive18.jpg

TP : générer un serveur simple (paramètre -s à 200)

Nettoyage de corpus

  • éliminations de titres :
    • Voir rejectIdnoISSN dans le paramétrage des données du serveur d'exploration sur l'OCR (sur ce wiki)
    • Voir rejectIdnoRBID dans le serveur « Le TLF dans ISTEX » sur Wicri/Lorraine
    • Voir la combinaison rejectIdnoISSN keepIdnoRBID dans le serveur sur la Cobalt au Maghreb sur Wicri/Terre
  • Curation des auteurs :

Voir :

Curation et nouvelles générations

CIDE 2016 LorExplor Athènes Diapositive19.jpg

Curation des données géographiques et administratives

UL M2 2016 Diapositive12.jpg
UL M2 2016 Diapositive13.jpg

Sur Wicri/Métadonnées :

Sur le wiki Wicri/Musique,


UL M2 2016 Diapositive14.jpg

Pays par liste de pays

Dans les cas simples

Sur Wicri/Musique :

Avec des affiliations incomplètes 

Sur Wicri/Europe, la table des noms de villes européennes couramment utilisées dans les affiliations à la place d'un pays.

Sur ce wiki :


Curation des régions

UL M2 2016 Diapositive15.jpg

De façon générale les régions ne figurent pas explicitement dans les adresses.

Elles peuvent apparaître avec la curation des auteurs. Par exemple, sur Wicri/Musique dans le Serveur d'exploration sur Monteverdi, l'auteur le plus cité dans le corpus ISTEX est Tim Carter.

En fait, il apparait la plupart du temps sans affiliation. Sur Wicri/Musique on trouvera une

Sur le wiki Wicri/Amérique, on trouve une :

Après curation, (étape Checkpoint) la nouvelle liste des auteurs contient le nom Tim Carter avec la mention musicologue :

Dans cette étape la Caroline du Nord devient significative :



UL M2 2016 Diapositive16.jpg