TP Master Paris 8 mars 2016
Cette page donne des éléments pour un ensemble de travaux pratiques sur les pratiques avancées de la connaissance numérique dans la science, la technologie et la culture. Elle a été initialisée pour les étudiants du master GID de l'Université Paris 8.
Sommaire
Diapositives complétées
Introduction
Cette série de travaux pratiques est une introduction à l'exploration des connaissances issues de corpus de documents scientifiques.
La curation de ces documents est un point important de la démarche.
Ces séances de travaux pratiques sont menées en coopération avec le projet LorExplor.
La page Aussois, sur le wiki Wicri/France, donne un exemple d'introduction. Le début utilise « de façon classique » les outils et pratiques de Wikipédia. La fin de la page a été réalisée avec les techniques présentées ici.
Les wikis sémantiques sont abordés en annexe de cette suite de documents.
Pour une utilisation éditoriale de Wikipédia, voir :
- Sur ce wiki, une partie significative des actes des colloques H2PTM.
- Sur le wiki Wicri/Musique, la pièce de Pouchkine : Mozart et Salieri.
- Pour se repérer dans le réseau
Le réseau Wicri est un démonstrateur qui contient de nombreuses expérimentations en cours de montage et qui ne dispose pas de forces éditoriales.
- sur un wiki, de façon classique le logo en haut à gauche pointe vers la page d'accueil.
- l'onglet communauté permet également de s'orienter au sein du réseau de wikis.
- Quelques points d'entrée (wikis communs)
- Le wiki point d'accueil principal du réseau : Wicri/Wicri.
- le premier wiki régional : Wicri/Lorraine.
- le premier wiki thématique (autour de l'ingénierie de la connaissance pour les communautés de la recherche et de l'innovation : Wicri/Ticri.
- ce wiki (H2PTM) est un wiki associé au wiki commun Wicri/Ticri.
On trouvera de nombreuses applications dans le réseau Wicri en utilisant (dans chaque wiki) la catégorie Serveur d'exploration.
Voici quelques exemples :
- Sur ce wiki : Serveur d'exploration sur l'hypertexte,
- Sur Wicri/Terre : Serveur d'exploration sur l'europium.
- Sur Wicri/Linguistique : Serveur d'exploration sur la philologie
- Sur Wicri/Eau : Serveur d'exploration Lota lota (lotte de rivière).
- Sur Wicri/Luxembourg : Serveur d'exploration sur la visibilité du Luxembourg à la NLM.
Exploration des connaissances
Pour en savoir plus sur les sources utilisées :
- ISTEX (corpus)
- PubMed et MEDLINE
- Hyper article en ligne (HAL)
- Pascal et Francis de l' INIST.
- Pour en savoir plus sur les serveurs actuellement utilisés dans les serveurs d'exploration
- Volumétrie :
- sur ce wiki, Serveur d'exploration hypertexte et hypermédia,
- sur Wicri/Eau, le Serveur d'exploration Lota lota,
- sur Wicri/Musique, le Serveur d'exploration sur Mozart,
- sur Wicri/Santé, le la revue « Movement Disorders »
- Axes simples sur le Serveur d'exploration hypertexte et hypermédia
- Axes élaborés (extraits des affiliations, avec curation) :
- Bibliothèque Dilib
Serveur d'exploration
Vérifier que la variable d'environnement $DILIB est bien instanciée :
echo $DILIB
On peut ensuite tester des commandes telles que :
IstexGetCorpusSize -q mozart
NlmPubMedGetCorpusSize -q mozart
IstexGetCorpusSize -q "mozart AND salieri"
IstexGetCorpusSize -q '"mozart and salieri"'
Pour aller plus loin dans l'expression des requêtes sous Unix, voir sur le wiki Wicri/Manuel :
Introduction à la curation des données
- Sur Wicri/Métadonnées la table ISO 3166-1
- Sur le serveur hypertexte et hypermedia
- Une notice Pascal avec des auteurs allemands :
- Sur Wicri/Métadonnées la table Table des noms de pays en anglais
- Un document ISTEX avec un auteur allemand :
Des tables de paramétrage relativement simples
- wicri-france.fr:Wicri:AussoisV1 - introduction
- wicri-france.fr:Wicri:AussoisV1/Paramètres, data - génération des données
- wicri-france.fr:Wicri:AussoisV1/Paramètres, fr - génération de l'interface
- wicri-france.fr:Wicri:AussoisV1/Paramètres, génération des cartes - génération de cartes géographiques
Sur le wiki Wicri/Allemagne :
Visualisation de la table en Sxml/Tei :
cat $DILIB/Data/Wicri/Allemagne/codePostal5.fr.tab \
| SxmlIndent | more
Un extrait du résultat
01067-01328
------ 1
<place>
<placeName>
<settlement type="city">Dresde</settlement>
<region type="land" nuts="1">Saxe (Land)</region>
<region type="district" nuts="2">District de Dresde</region>
</placeName>
</place>
Un document ayant bénéficié de cette curation :
Sur le wiki Wicri/Allemagne :
Sur le wiki Wicri/Amérique :
Une notice ayant bénéficié de cette curation :
Plateforme d'exploration
Grâce au PMID, un document indexé dans PubMed/MEDLINE et accessible en libre accès dans PubMed Central.
Grâce au DOI, un document en accès réservé dans ISTEX et en open access sur PubMed Central
Toujours sur le serveur hypertexte et hypermedia :
Un document disponible par ISTEX et enrichi par une indexation Medline et Pascal :
Sur le wiki Wicri/Musique, la liste des documents traitant de la Sonate pour 2 pianos :
- Sonate pour deux pianos (KV. 448)
- Sonate pour deux pianos (Mozart)|les scripts ayant permis cette exploration
Annexe : Semantic MediaWiki
Par rapport à Wikipédia le réseau Wicri utilise une extension développée par l'Université de Karlsruhe : Semantic MediaWiki.
Elle permet de créer des lien sémantiques. Les diapositives utilisent une démonstration située sur le wiki Wicri/Eau.
Pour voir la codification des éléments sémantiques, il suffit d'activer l'onglet « voir le texte source » (ou modifier si vous êtes connectés).
- Pour accéder à la page Pittsburgh sur Wicri/Eau.
vec des liens sémantiques, on peut « naviguer sur une propriété ».
Avec des liens sémantiques, on peut « exprimer des requêtes ».
Ces requêtes permettent notamment de calculer des listes.
- Sur la page Ohio_(rivière), on trouve par exemple 2 listes calculées.
- Traitement sémantique des colloques
Ce wiki constitue un référence sur le traitement des colloques. On trouve notamment :
- Le traitement des comités de programme (voir par exemple l'édition H2PTM 2011 Metz). On trouvera d'autres exemples sur Wicri/Ticri et notamment sur les colloques du DCMI (voir par exemple DC 2010 Pittsburgh).
- Le traitement des publications proprement dites, sous forme de métadonnées ou en texte intégral.