Visite guidée CARIST 2014 : Différence entre versions

De Artist
imported>Jacques Ducloy
(Curation de données)
imported>Jacques Ducloy
(Curation de données)
Ligne 64 : Ligne 64 :
 
{{clr}}
 
{{clr}}
 
==Curation de données==
 
==Curation de données==
[[File:Carist2014Diapositive16.png|400px|right|thumb]]
+
===Exemples sur les pays===
 +
[[File:Carist2014Diapositive16.png|400px|left|thumb]]
 
[[File:Carist2014Diapositive17.png|400px|right|thumb]]
 
[[File:Carist2014Diapositive17.png|400px|right|thumb]]
 
[[File:Carist2014Diapositive18.png|400px|right|thumb]]
 
[[File:Carist2014Diapositive18.png|400px|right|thumb]]
 +
===Exemples sur les régions===
 
[[File:Carist2014Diapositive19.png|400px|right|thumb]]
 
[[File:Carist2014Diapositive19.png|400px|right|thumb]]
 
[[File:Carist2014Diapositive20.png|400px|right|thumb]]
 
[[File:Carist2014Diapositive20.png|400px|right|thumb]]
  
 
==Ingénierie XML==
 
==Ingénierie XML==

Version du 23 novembre 2014 à 23:01

logo travaux page en cours de rédaction
Carist2014Diapositive01.png

Le projet LorExplor de l'Université de Lorraine vous invite à expérimenter l'ingénierie de la connaissance sur le réseau Wicri.

Introduction du projet LorExplor

Le projet ISTEX doit mettre à la disposition des chercheurs français un ensemble de plusieurs dizaines de millions d'articles en format texte numérique plus ou moins structuré.

LorExplor est soutenu par ce programme pour le développement d'un démonstrateur destiné aux acteurs de la recherche et de l'innovation.

Il s'appuie sur 2 éléments d'infrastructure :

  • le réseau de wikis sémantiques Wicri,
  • une bibliothèque XML de composants pour l'ingénierie de la connaissance, DILIB.
Carist2014Diapositive04.png
Carist2014Diapositive05.png

Le réseau Wicri

Réseau de wikis

Carist2014Diapositive06.png
Carist2014Diapositive07.png
Pour se repérer dans le réseau

Le réseau Wicri est un démonstrateur qui contient de nombreuses expérimentations en cours de montage et qu ne dispose pas de forces éditoriales.

  • sur un wiki, de façon classique le logo en haut à gauche pointe vers la page d'accueil.
  • l'onglet communauté permet également de s'orienter au sein du réseau de wikis.
Quelques points d'entrée (wikis communs) 
  • Le wiki point d'accueil principal du réseau : Wicri/Wicri.
  • le premier wiki régional : Wicri/Lorraine.
  • le premier wiki thématique (autour de l'ingénierie de la connaissance pour les communautés de la recherche et de l'innovation : Wicri/Ticri.

Rééditions

Textes et ouvrages anciens

Les wikis du réseau Wicri peuvent contenir des textes ancien réédités en format hypertexte

  • un premier exemple traité à titre d'exemple est le lac des perches sur Wicri/Alsace où un article issu de Persée et daté de 1896 à servi à renseigner une discussion sur le nom du lac.

Wikis sémantiques

Carist2014Diapositive09.png
Carist2014Diapositive10.png
Carist2014Diapositive11.png
Carist2014Diapositive12.png
Pour accéder à la démonstration sur l'Ohio

Cette démonstration est située sur le wiki Wicri/Eau. Pour voir la codification des éléments sémantiques, il suffit d'activer l'onglet « voir le texte source » (ou modifier si vous êtes connectés). Les pages intéressantes sont les suivantes :

Traitement sémantique des colloques

Démonstrateur LorExplor

Carist2014Diapositive14.png

Le démonstrateur

Le réseau Wicri vise à donner des informations synthétiques aux acteurs de la recherche et de l'innovation en privilégiant un déploiement thématique ou régional.

Les corpus ISTEX sont principalement utilisés, en complément avec d'autres sources, pour analyser la production scientifique sur un sujet donné. Ce sujet peut alors être traité de différentes façons pour donner lieu à des contributions dans le réseau en fonction de ses caractéristiques thématiques ou régionales. Ce mécanisme est souvent complètement transparent pour un internaute qui ne voit que le résultat final dans le paysage informationnel qui lui est familier.

Pour y parvenir, les rédacteurs et contributeurs peuvent s'appuyer sur des analyses de corpus avec des serveurs d'exploration. Ces serveurs sont générés par la bibliothèque Dilib, une bibliothèque de logiciels XML contenant des outils d'analyse de corpus. Lorsque les éditeurs ont libéré en « open source » leurs métadonnées, celles-ci peuvent être rendues visibles pour l'utilisateur final, généralement en complément d'autres sources. Un lecteur expérimenté pourra alors mener ses propres investigations dans les corpus.

Ces explorations seront d'autant plus efficaces que les données seront homogénéisées. Une grande partie des traitements sera dédiée à transformer les métadonnées initiales à l'aide de matériaux terminologiques.

Le réseau Wicri fonctionne alors comme un portail d'accès aux éléments visibles des ressources ISTEX.

Les serveurs d'exploration

Carist2014Diapositive15.png

Les serveurs d'exploration sont des systèmes de recherche d'information, fortement paramétrables et dans lesquels les fonctions exploratoires sont privilégiées. Ils sont construit à partir d'un ou de plusieurs corpus téléchargés de sources diverses (et notamment ISTEX).

Un exemple à partir de ce wiki

Sur ce wiki, une plateforme contient un ensemble de serveurs (voir Serveur d'exploration sur la microsimulation). Les serveurs sont matérialisés par des icônes.

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur le flux Pascal

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Chaque serveur donne accès à un ensemble d'index. Pour chaque index une page donne une liste d'entrée classée par ordre de fréquence décroissante (voir par exemple pour l'index pays de l'étape Checkpoint du flux Pascal)

Curation de données

Exemples sur les pays

Carist2014Diapositive16.png
Carist2014Diapositive17.png
Carist2014Diapositive18.png

Exemples sur les régions

Carist2014Diapositive19.png
Carist2014Diapositive20.png

Ingénierie XML