TD Master 2 Info Doc Num/séance 4 : Différence entre versions

De CIDE
imported>Jacques Ducloy
imported>Jacques Ducloy
(Nettoyage de corpus)
 
(12 révisions intermédiaires par le même utilisateur non affichées)
Ligne 1 : Ligne 1 :
 
Cette page introduit les supports de cours de la quatrième séance de travaux pratiques du [[TD Master 2 Documentation numérique (Université de Lorraine 2016)|Master 2 Documentation numérique (UL 2016)]].
 
Cette page introduit les supports de cours de la quatrième séance de travaux pratiques du [[TD Master 2 Documentation numérique (Université de Lorraine 2016)|Master 2 Documentation numérique (UL 2016)]].
 
__TOC__
 
__TOC__
 +
==Génération d'un serveur==
 +
[[Fichier:CIDE 2016 LorExplor Athènes Diapositive18.jpg|thumb|400px|right]]
 +
TP : générer un serveur simple (paramètre -s à 200)
 +
{{Clr}}
 +
==Nettoyage de corpus==
 +
* éliminations de titres :
 +
** Voir rejectIdnoISSN dans le paramétrage des données du serveur d'exploration sur l'OCR (sur ce wiki)
 +
** Voir rejectIdnoRBID dans le serveur « Le TLF dans ISTEX » sur Wicri/Lorraine
 +
** Voir la combinaison rejectIdnoISSN keepIdnoRBID dans le serveur sur la Cobalt au Maghreb sur Wicri/Terre
 +
* Curation des auteurs :
 +
Voir :
 +
* sur ce wiki :
 +
** [[Wicri:Liste de personnalités du document numérique]]
 +
* Une telle table existe sur tous les wikis utilisés en TP (catégorie Métadonnée Wicri)
 +
 
==Curation et nouvelles générations==
 
==Curation et nouvelles générations==
[[Fichier:CIDE 2016 LorExplor Athènes Diapositive18.jpg|thumb|400px|right]]
 
 
[[Fichier:CIDE 2016 LorExplor Athènes Diapositive19.jpg|thumb|400px|right]]
 
[[Fichier:CIDE 2016 LorExplor Athènes Diapositive19.jpg|thumb|400px|right]]
 
{{Clr}}
 
{{Clr}}
 +
==Curation des données géographiques et administratives==
 +
[[Fichier:UL M2 2016 Diapositive12.jpg|right|410px|thumb]]
 +
{{clr}}
 +
[[Fichier:UL M2 2016 Diapositive13.jpg|right|410px|thumb]]
 +
Sur Wicri/Métadonnées :
 +
* la table [[wicri-meta.fr:ISO 3166-1|ISO 3166-1]]
 +
Sur le wiki Wicri/Musique,
 +
* un document avec un code ISO à 3 caractères (en zone A66)
 +
** {{Explor lien
 +
  |wiki=    Wicri/Musique
 +
  |area=    MozartV1
 +
  |flux=    PascalFrancis
 +
  |étape=  Corpus
 +
  |type=    RBID
 +
  |clé=    Francis:12-0074803
 +
  |texte=  Chuck Tilly and Mozart
 +
}}
 +
* Sur HAL, un document qui contient de multiples mentions de code ISO à 3 caractères
 +
**{{Explor lien
 +
  |wiki=    Wicri/Musique
 +
  |area=    MozartV1
 +
  |flux=    Hal
 +
  |étape=  Checkpoint
 +
  |type=    RBID
 +
  |clé=    Hal:hal-00452711
 +
  |texte=  Description and evaluation of the Model for Ozone and Related chemical Tracers, version 4 (MOZART-4)
 +
}}
 +
 +
{{clr}}
 +
<hr/>
 +
[[Fichier:UL M2 2016 Diapositive14.jpg|right|410px|thumb]]
 +
===Pays par liste de pays===
 +
;Dans les cas simples:
 +
* Sur Wicri/Métadonnées, la table [[wicri-meta.fr:Table des noms de pays en anglais|Table des noms de pays en anglais]]
 +
Sur Wicri/Musique :
 +
* un document où l'Allemagne est codée par Germany :
 +
** {{Explor lien
 +
  |wiki=    Wicri/Musique
 +
  |area=    MozartV1
 +
  |flux=    Istex
 +
  |étape=  Curation
 +
  |type=    RBID
 +
  |clé=    ISTEX:8E99CBB5C8151D27FE76A5873719466A50DE8230
 +
  |texte=  Adaptive Musical Expression from Automatic Realtime Orchestration and Performance
 +
}}
 +
* un document où l'Allemagne est codée par « W. Germany »
 +
** {{Explor lien
 +
  |wiki=    Wicri/Musique
 +
  |area=    MozartV1
 +
  |flux=    Istex
 +
  |étape=  Curation
 +
  |type=    RBID
 +
  |clé=    ISTEX:110E6F28BDB33CAA1A62E56EFCE7D8EF2EE31617
 +
  |texte=  Vivaldi's esoteric instruments
 +
}}
 +
;Avec des affiliations incomplètes :
 +
Sur Wicri/Europe, la table des noms de villes européennes couramment utilisées dans les affiliations à la place d'un pays.
 +
** [[wicri-europe.fr:Wicri:Liste de villes universitaires européennes|Liste de villes universitaires européennes]]
 +
Sur ce wiki :
 +
* Un document ISTEX où la mention d'affiliation est limitée à Oxford
 +
**{{Explor lien
 +
  |wiki=    Wicri/Musique
 +
  |area=    MozartV1
 +
  |flux=    Istex
 +
  |étape=  Curation
 +
  |type=    RBID
 +
  |clé=    ISTEX:6F71ACA5063FCBB29DE617E31E1374E122CC7F00
 +
  |texte=  Schubert, Theory and Analysis
 +
}}
 +
 +
{{clr}}
 +
<hr/>
 +
===Curation des régions===
 +
[[Fichier:UL M2 2016 Diapositive15.jpg|right|410px|thumb]]
 +
De façon générale les régions ne figurent pas explicitement dans les adresses.
 +
 +
Elles peuvent apparaître avec la curation des auteurs. Par exemple, sur Wicri/Musique dans le [[wicri-musique.fr:Serveur d'exploration sur Monteverdi|Serveur d'exploration sur Monteverdi]],
 +
l'auteur le plus cité dans le corpus ISTEX est [[wicri-musique.fr:Tim Carter (musicologue)|Tim Carter]].
 +
* {{Explor lien
 +
  |wiki=    Wicri/Musique
 +
  |area=    MonteverdiV1
 +
  |url=Istex/Curation/indexHead.php?index=Author.i
 +
  |texte=  Liste des auteurs avant curation
 +
}}
 +
En fait, il apparait la plupart du temps sans affiliation. Sur Wicri/Musique on trouvera une
 +
* [[wicri-musique.fr:Wicri:Liste de musicologues|Liste de musicologues]]
 +
* où l'on trouve les principales affiliations de Tim Carter avec en particulier : l'[[Université de Caroline du Nord à Chapel Hill]].
 +
Sur le wiki Wicri/Amérique, on trouve une :
 +
* [[wicri-amerique.fr:Wicri:Liste de grandes universités américaines|Liste de grandes universités américaines]]
 +
Après curation, (étape Checkpoint) la nouvelle liste des auteurs contient le nom Tim Carter avec la mention musicologue :
 +
* {{Explor lien
 +
  |wiki=    Wicri/Musique
 +
  |area=    MonteverdiV1
 +
  |url=Istex/Checkpoint/indexHead.php?index=Author.i
 +
  |texte=  Liste des auteurs après curation
 +
}}
 +
Dans cette étape la [[Caroline du Nord]] devient significative :
 +
* {{Explor lien
 +
  |wiki=    Wicri/Musique
 +
  |area=    MonteverdiV1
 +
  |flux=    Istex
 +
  |étape=  Checkpoint
 +
  |type=    indexItem
 +
  |index=    AffRegion.i
 +
  |clé=    Caroline du Nord
 +
  |texte=liste des publications avec une affiliation en Caroline du Nord
 +
}}
 +
{{clr}}
 +
<hr/>
 +
 +
 +
[[Fichier:UL M2 2016 Diapositive16.jpg|right|410px|thumb]]

Version actuelle datée du 28 novembre 2016 à 13:01

Cette page introduit les supports de cours de la quatrième séance de travaux pratiques du Master 2 Documentation numérique (UL 2016).

Génération d'un serveur

CIDE 2016 LorExplor Athènes Diapositive18.jpg

TP : générer un serveur simple (paramètre -s à 200)

Nettoyage de corpus

  • éliminations de titres :
    • Voir rejectIdnoISSN dans le paramétrage des données du serveur d'exploration sur l'OCR (sur ce wiki)
    • Voir rejectIdnoRBID dans le serveur « Le TLF dans ISTEX » sur Wicri/Lorraine
    • Voir la combinaison rejectIdnoISSN keepIdnoRBID dans le serveur sur la Cobalt au Maghreb sur Wicri/Terre
  • Curation des auteurs :

Voir :

Curation et nouvelles générations

CIDE 2016 LorExplor Athènes Diapositive19.jpg

Curation des données géographiques et administratives

UL M2 2016 Diapositive12.jpg
UL M2 2016 Diapositive13.jpg

Sur Wicri/Métadonnées :

Sur le wiki Wicri/Musique,


UL M2 2016 Diapositive14.jpg

Pays par liste de pays

Dans les cas simples

Sur Wicri/Musique :

Avec des affiliations incomplètes 

Sur Wicri/Europe, la table des noms de villes européennes couramment utilisées dans les affiliations à la place d'un pays.

Sur ce wiki :


Curation des régions

UL M2 2016 Diapositive15.jpg

De façon générale les régions ne figurent pas explicitement dans les adresses.

Elles peuvent apparaître avec la curation des auteurs. Par exemple, sur Wicri/Musique dans le Serveur d'exploration sur Monteverdi, l'auteur le plus cité dans le corpus ISTEX est Tim Carter.

En fait, il apparait la plupart du temps sans affiliation. Sur Wicri/Musique on trouvera une

Sur le wiki Wicri/Amérique, on trouve une :

Après curation, (étape Checkpoint) la nouvelle liste des auteurs contient le nom Tim Carter avec la mention musicologue :

Dans cette étape la Caroline du Nord devient significative :



UL M2 2016 Diapositive16.jpg