TP Master Paris 8 GID, mars 2015
Cette page donne des éléments pour un ensemble de travaux pratiques sur les pratiques avancées de la connaissance numérique dans la science, la technologie et la culture. Elle a été initialisée pour les étudiants du master GID de l'Université Paris 8. Elle fait l'objet de modifications explicatives pour la mise en place d'autres expérimentations de même type.
Plus précisément la formation donnée au Master de Paris 8 et potentiellement étendue à d'autres cadres vise à donner à un ensemble d'étudiants une expérience concrète sur :
- L'exploration de corpus volumineux ;
- Pour cette première édition, les corpus étaient limités aux métadonnées. Des premiers outils pour l'exploration du texte intégral sont maintenant disponibles.
- Des pratiques mutualisées de curation de données.
- Les étudiants peuvent formuler des règles de curation au sein du réseau collectif de wikis. Celui-ci constitue un référentiel terminologique commun, aligné sur le Web Sémantique.
- La construction collective de données structurées.
- Cette partie a été peu développée (faute de temps[1]) à Paris 8. D'autres expériences (en Master à l'Université de Lorraine ou dans le cadre de stages) montrent l'intérêt de dédier une session à ce type de pratique.
Sommaire
Diapositives complétées
LorExplor
On trouvera de nombreuses applications dans le réseau Wicri en utilisant (dans chaque wiki) la catégorie Serveur d'exploration.
Parmi les références les plus significatives :
- Sur ce wiki : Serveur d'exploration sur l'hypertexte,
- Sur Wicri/Terre : Serveur d'exploration sur l'europium.
- Sur Wicri/Linguistique : Serveur d'exploration sur la philologie
- Sur Wicri/Eau : Serveur d'exploration Lota lota (lotte de rivière).
- Sur Wicri/Luxembourg : Serveur d'exploration sur la visibilité du Luxembourg à la NLM.
Le réseau Wicri
Le réseau Wicri est le socle éditorial et ontologique sur lequel s'appuie le projet LorExplor.
Le réseau Wicri s'appuie sur l'expérience Wikipédia.
Sur un plan technique, Wicri utilise le moteur MediaWiki pour ses performances techniques et sa capacité à traiter du contenu scientifique ou technique.
Le réseau Wicri propose donc un démonstrateur qui repose sur une encyclopédie collectivement construite par des acteurs de la recherche et de l'innovation. Le expérimentations déjà réalisées montrent le besoin d'une infrastructure de la connaissance qui contient des références bibliographiques de référence et des ensembles ontologiques.
- Pour se repérer dans le réseau
Le réseau Wicri est un démonstrateur qui contient de nombreuses expérimentations en cours de montage et qui ne dispose pas de forces éditoriales.
- sur un wiki, de façon classique le logo en haut à gauche pointe vers la page d'accueil.
- l'onglet communauté permet également de s'orienter au sein du réseau de wikis.
- Quelques points d'entrée (wikis communs)
- Le wiki point d'accueil principal du réseau : Wicri/Wicri.
- le premier wiki régional : Wicri/Lorraine.
- le premier wiki thématique (autour de l'ingénierie de la connaissance pour les communautés de la recherche et de l'innovation : Wicri/Ticri.
- ce wiki (H2PTM) est un wiki associé au wiki commun Wicri/Ticri.
Wikis sémantiques
Par rapport à Wikipédia le réseau Wicri utilise une extension développée par l'Université de Karlsruhe : Semantic MediaWiki.
Elle permet de créer des lien sémantiques. Les diapositives utilisent une démonstration située sur le wiki Wicri/Eau.
Pour voir la codification des éléments sémantiques, il suffit d'activer l'onglet « voir le texte source » (ou modifier si vous êtes connectés).
- Pour accéder à la page Pittsburgh sur Wicri/Eau.
Avec des liens sémantiques, on peut « naviguer sur une propriété ».
Avec des liens sémantiques, on peut « exprimer des requêtes ».
Ces requêtes permettent notamment de calculer des listes.
- Sur la page Ohio_(rivière), on trouve par exemple 2 listes calculées.
- Traitement sémantique des colloques
Ce wiki constitue un référence sur le traitement des colloques. On trouve notamment :
- Le traitement des comités de programme (voir par exemple l'édition H2PTM 2011 Metz). On trouvera d'autres exemples sur Wicri/Ticri et notamment sur les colloques du DCMI (voir par exemple DC 2010 Pittsburgh).
- Le traitement des publications proprement dites, sous forme de métadonnées ou en texte intégral.
Les serveurs d'exploration
Les serveurs d'exploration sont des systèmes de recherche d'information, fortement paramétrables et dans lesquels les fonctions exploratoires sont privilégiées. Ils sont construit à partir d'un ou de plusieurs corpus téléchargés de sources diverses (et notamment ISTEX).
- Deux exemples à partir de ce wiki
- Ce wiki contient une plateforme le Serveur d'exploration sur l'hypertexte qui constitue une référence du projet Wicri/LorExplor. Elle s'appuie sur un ensemble de flux d'entrée qui se fusionne pour se redistribuer en flux spécialisés. Elle est donc relativement complexe à explorer pour un premier contact.
- Il contient également une plateforme d'entraînement, Hypertexte dans HAL, pour mettre au point les outils spécialisés autour de HAL (CCSD). Les serveurs sont matérialisés par des icônes.
Chaque serveur donne accès à un ensemble d'index. Pour chaque index une page donne une liste d'entrée classée par ordre de fréquence décroissante (voir par exemple pour l'index pays de l'étape Exploration du flux principal (Main))
Nous travaillons sur une meilleure visualisation de ces résultats sous forme de cartes, voici par exemple, sur la microsimulation la production scientifique des régions françaises :
Un exemple de référence de 10 000 documents (métadonnées) est disponible sur ce wiki, voir HypertextV5.
Travaux pratiques
Points de départ pour les aspects techniques
Voir sur Wicri/Manuel :
- wicri-man.fr:Génération d'un serveur d'exploration simple avec ISTEX,
- wicri-man.fr:Curation de données géographiques sur des corpus ISTEX/Springer.
Les sujets
Les étudiants ont choisi un ensemble de thématiques. Elles ont souvent du être modifiées ou spécialisées pour entrer dans un protocole avec un temps de réponse court et un paramétrage simplifié. Les consignes ont donc été assez restrictives : si possible entre 500 et 1200 documents par corpus.
Nous avons du également faire face à une contrainte technique forte et limitative. Concernant l'interface avec l'API ISTEX, seuls les documents provenant de l'éditeur Springer sont manipulables facilement avec la plateforme LorExplor actuelle. Certaines requêtes ont du être traitées sur PubMed pour obtenir un corpus de taille minimale.
Les sujets choisis par les étudiants :
- effets des OGM en France
- requête
IstexExplorCorpus -q "ogm AND effects AND france" -s 300 -d OgmFrance -e springer
- Accès au serveur (30 documents ISTEX) : http://ticri.univ-lorraine.fr/Tic/H2PTM/TP/Paris8/OgmFrance/Site/fr/
- reformulé sur PubMed wicri-france.fr:Serveur d'exploration OGM en France
- requête
- Eugénisme en France
- Point d'entrée sur Wicri/France
- Compte tenu du volume trop faible de cette première extraction la requête a été étendue sur Wicri/Santé, Serveur d'exploration sur l'eugénisme (serveur ISTEX avec cartes en ligne)
- Sorcellerie
- Point d'entrée sur Wicri/Psychologie
- Un serveur avec cartes est accessible : Serveur d'exploration sur la sorcellerie.
- e-cigarette
- l'expression e-cigarette pose problème (lettre e) - à reformuler (redirigée vers le contexte brésilien pour raison de démonstration de curation - cartes disponibles). Une version mieux définie et plus complète est accessible sur Wicri/Santé.
- Truvada
- Point d'entrée sur Wicri/Santé
- Le café au Brésil
- Point d'entrée sur Wicri/Brésil (2 serveurs, 1 sur ISTEX, l'autre sur PubMed)
- nano et alimentation
- Point d'entrée sur Wicri/Agronomie
- Sida et VIH, compte tenu de l'abondance des réponses ce sujet a été spécialisé sur le Brésil.
Voir aussi
- Notes
- ↑ Il faut également mentionner une faiblesse dans la logistique.