Visite guidée CARIST 2014 : Différence entre versions

De Artist
imported>Jacques Ducloy
(Exemples sur les pays)
imported>Jacques Ducloy
(Wikis spécialisés)
 
(28 révisions intermédiaires par 2 utilisateurs non affichées)
Ligne 5 : Ligne 5 :
 
Voir : http://www.carrefourist.fr/
 
Voir : http://www.carrefourist.fr/
  
Le projet [[LorExplor]] de l'[[Université de Lorraine]] vous invite à expérimenter l'ingénierie de la connaissance sur le réseau Wicri.
+
A cette occasion, le projet [[LorExplor]] de l'[[Université de Lorraine]] invitait les participants à :
 +
* expérimenter l'ingénierie de la connaissance sur le réseau Wicri,
 +
* se mobiliser collectivement pour un grand projet autour de la connaissance numérique...
 +
 
 +
En effet, le CNRS met un terme à la chaîne de production interne à l'INIST des bases Pascal et Francis. La voie est donc ouverte pour travailler sur une autre approche de la connaissance numérique à vocation stratégique.
 
__TOC__
 
__TOC__
 
{{clr}}
 
{{clr}}
 
==Introduction au projet LorExplor==
 
==Introduction au projet LorExplor==
 +
[[File:Carist2014Diapositive04.png|400px|right|thumb]]
 
Le projet [[ISTEX (Investissements d'avenir)|ISTEX]] doit mettre à la disposition des chercheurs français un ensemble de plusieurs dizaines de millions d'articles en format texte numérique plus ou moins  structuré.
 
Le projet [[ISTEX (Investissements d'avenir)|ISTEX]] doit mettre à la disposition des chercheurs français un ensemble de plusieurs dizaines de millions d'articles en format texte numérique plus ou moins  structuré.
  
LorExplor est soutenu par ce programme pour le développement d'un démonstrateur destiné aux acteurs de la recherche et de l'innovation.
+
Dans la suite des initiatives Dilib, Artist et Wicri, LorExplor est soutenu par ce programme pour le développement d'un démonstrateur destiné aux acteurs de la recherche et de l'innovation.
  
Il s'appuie sur 2 éléments d'infrastructure :
+
Le projet repose sur une petite équipe qui ne dispose que d'un faible enracinement institutionnel. Ce seul fait démontre la puissance des technologies numériques qui autorisent des réalisations significatives avec de faibles moyens.
 +
{{clr}}
 +
[[File:Carist2014Diapositive05.png|400px|right|thumb]]
 +
Dans ses objectifs, LorExplor s'attaque à trois cibles qui ne sont pas encore bien prises en compte dans ISTEX :
 +
* l'appropriation de la manipulation de corpus par le plus grand nombre possible d'acteurs de la recherche et de l'innovation,
 +
* la communication des connaissances scientifiques vers la société,
 +
* les coopérations internationales.
 +
 
 +
 
 +
En pratique le démonstrateur LorExplor repose sur 2 éléments d'infrastructure :
 
* le réseau de wikis sémantiques Wicri,
 
* le réseau de wikis sémantiques Wicri,
 
* une bibliothèque XML de composants pour l'ingénierie de la connaissance, DILIB.
 
* une bibliothèque XML de composants pour l'ingénierie de la connaissance, DILIB.
{{clr}}
 
[[File:Carist2014Diapositive04.png|400px|left|thumb]]
 
[[File:Carist2014Diapositive05.png|400px|right|thumb]]
 
 
{{clr}}
 
{{clr}}
  
 
==Le réseau Wicri==
 
==Le réseau Wicri==
 +
Le réseau Wicri est le socle éditorial et ontologique sur lequel s'appuie le projet LorExplor.
 
===Réseau de wikis===
 
===Réseau de wikis===
[[File:Carist2014Diapositive06.png|400px|left|thumb]]
+
[[File:Carist2014Diapositive06.png|400px|right|thumb]]
 +
Le réseau Wicri s'appuie sur l'expérience [[Wikipédia]].
 +
 
 +
Sur un plan technique, Wicri utilise le moteur [[MediaWiki]] pour ses performances techniques et sa capacité à traiter du contenu scientifique ou technique.
 +
 
 +
Sur le plan des usages, Wikipédia a réussi à mobiliser les énergies de volontaires. Au moment où le CNRS abandonne les bases Pascal et Francis, des questions fondamentales se posent :
 +
* Ces bases avaient été lancées dans les années 50 avec comme objectif stratégique de transmettre l'essentiel des nouveautés de la recherche scientifique vers l'ensemble des disciplines scientifiques et vers la société. Comment répondre à ce besoin en 2014 ? Nous proposons une alternative de type encyclopédique.
 +
* La production de ces bases était enfermé dans un modèle d'organisation tailorienne, figée par un système d'information qui rendait difficile toute vraie coopération et toute réelle évolution. Comment mettre à profit les usages démontrés par Wikipédia pour une approche souple et mutualisée en impliquant l'ensemble des acteurs de la recherche ? 
 +
 
 +
Le réseau Wicri propose donc un démonstrateur qui repose sur une encyclopédie collectivement construite par des acteurs de la recherche et de l'innovation. Le expérimentations déjà réalisées montrent le besoin d'une infrastructure de la connaissance qui contient des références bibliographiques de référence et des ensembles ontologiques. On retrouve une notion revisitée des bases bibliographiques où la mise en lumière de l'essentiel l'emporte sur la volumétrie.
 +
{{clr}}
 
[[File:Carist2014Diapositive07.png|400px|right|thumb]]
 
[[File:Carist2014Diapositive07.png|400px|right|thumb]]
 +
Pour favoriser les coopérations, le réseau Wicri a privilégié une organisation en réseau.
 
{{clr}}
 
{{clr}}
 +
 +
===Démontrations===
 
;Pour se repérer dans le réseau:
 
;Pour se repérer dans le réseau:
 
Le réseau Wicri est un démonstrateur qui contient de nombreuses expérimentations en cours de montage et qu ne dispose pas de forces éditoriales.  
 
Le réseau Wicri est un démonstrateur qui contient de nombreuses expérimentations en cours de montage et qu ne dispose pas de forces éditoriales.  
Ligne 34 : Ligne 59 :
 
* le premier wiki régional : [[wicri-lor.fr:Accueil|Wicri/Lorraine]].
 
* le premier wiki régional : [[wicri-lor.fr:Accueil|Wicri/Lorraine]].
 
* le premier wiki thématique (autour de l'ingénierie de la connaissance pour les communautés de la recherche et de l'innovation : [[ticri.fr:Accueil|Wicri/Ticri]].
 
* le premier wiki thématique (autour de l'ingénierie de la connaissance pour les communautés de la recherche et de l'innovation : [[ticri.fr:Accueil|Wicri/Ticri]].
 
+
====Rééditions====
===Rééditions===
 
 
;Textes et ouvrages anciens:
 
;Textes et ouvrages anciens:
 
Les wikis du réseau Wicri peuvent contenir des textes ancien réédités en format hypertexte
 
Les wikis du réseau Wicri peuvent contenir des textes ancien réédités en format hypertexte
Ligne 42 : Ligne 66 :
 
** un traitement plus approfondi d'une annexe, [[wicri-lor.fr:Le Palais ducal de Nancy (1852) Lepage, figure|une vue complexe du Palais]], qui occupe plusieurs pages avec des renvois vers le texte.
 
** un traitement plus approfondi d'une annexe, [[wicri-lor.fr:Le Palais ducal de Nancy (1852) Lepage, figure|une vue complexe du Palais]], qui occupe plusieurs pages avec des renvois vers le texte.
 
** L'introduction de ressources iconographiques complémentaires, de liens vers des articles du wiki (vers [[wicri-lor.fr:Charles III de Lorraine|Charles III de Lorraine]] par exemple) et de liens sémantiques. Le [[wicri-lor.fr:Le Palais ducal de Nancy (1852) Lepage, 1 a|chapitre d'introduction]] a été travaillé dans ce sens.
 
** L'introduction de ressources iconographiques complémentaires, de liens vers des articles du wiki (vers [[wicri-lor.fr:Charles III de Lorraine|Charles III de Lorraine]] par exemple) et de liens sémantiques. Le [[wicri-lor.fr:Le Palais ducal de Nancy (1852) Lepage, 1 a|chapitre d'introduction]] a été travaillé dans ce sens.
 +
*Sur Wicri/Agronomie, l'ouvrage de Chrestien de Lihus, ''[[wicri-agronomie.fr:Chrestien de Lihus 1804 Principes d'agriculture et d'économie|Principes d'agriculture et d'économie]]'' (1804) a été mis en ligne. Cela a été l'occasion d'expérimenter les modalités permettant d'apporter des compléments d'information sur un texte : commentaires sur les notes initiales, commentaires sur le texte, commentaires disciplinaires.
 +
====Wikis spécialisés====
 +
Le réseau Wicri peut héberger et accompagner des initiatives fortement diversifiées. Par exemple, en 2014, on trouvera notamment :
 +
* la création d'un wiki sur « [[udl-r21-mstr.fr:Accueil|Les métaux stratégiques - Les ressources du XXI<sup>ème</sup> siècle]] », réalisés par deux étudiants de l'ENSG à Nancy.
 +
* la poursuite d'un wiki sur [[ihest.priv.fr:Accueil|coopérations franco-brésiliennes]] (en français et en portugais) par l'IHEST.
 +
* un travail sur la [[udl-bul-col.fr:Chanson de Roland|Chanson de Rolland]] sur le wiki des collections de la Bibliothèque du Campus Lettres de l'Université de Lorraine.
  
 
==Wikis sémantiques==
 
==Wikis sémantiques==
[[File:Carist2014Diapositive09.png|400px|left|thumb]]
+
[[File:Carist2014Diapositive09.png|400px|right|thumb]]
 +
Par rapport à Wikipédia le réseau Wicri utilise une extension développée par l'Université de Karlsruhe : Semantic MediaWiki.
 +
 
 +
Elle permet de créer des lien sémantiques. Les diapositives utilisent une démonstration située sur le wiki [[wicri-eau.fr:Accueil|Wicri/Eau]].
 +
 
 +
Pour voir la codification des  éléments sémantiques, il suffit d'activer l'onglet « voir le texte source » (ou modifier si vous êtes connectés).
 +
 
 +
* Pour accéder à la page [[wicri-eau.fr:Pittsburgh|Pittsburgh]] sur Wicri/Eau.
 +
 
 +
{{clr}}
 
[[File:Carist2014Diapositive10.png|400px|right|thumb]]
 
[[File:Carist2014Diapositive10.png|400px|right|thumb]]
 +
Avec des liens sémantiques, on peut « naviguer sur une propriété ».
 
{{clr}}
 
{{clr}}
 
[[File:Carist2014Diapositive11.png|400px|right|thumb]]
 
[[File:Carist2014Diapositive11.png|400px|right|thumb]]
 +
Avec des liens sémantiques, on peut « exprimer des requêtes ».
 +
{{clr}}
 
[[File:Carist2014Diapositive12.png|400px|right|thumb]]
 
[[File:Carist2014Diapositive12.png|400px|right|thumb]]
;Pour accéder à la démonstration sur l'Ohio:
+
Ces requêtes permettent notamment de calculer des listes.
Cette démonstration est située sur le wiki [[wicri-eau.fr:Accueil|Wicri/Eau]]. Pour voir la codification des éléments sémantiques, il suffit d'activer l'onglet « voir le texte source » (ou modifier si vous êtes connectés). Les pages intéressantes sont les suivantes :
+
* Sur la page [[wicri-eau.fr:Ohio_(rivière)|Ohio_(rivière)]], on trouve par exemple 2 listes calculées.
* [[wicri-eau.fr:Pittsburgh|Pittsburgh]] - ''notamment le début'',
 
* [[wicri-eau.fr:Ohio_(rivière)|Ohio_(rivière)]] - ''on y trouve 2 listes calculées''.
 
 
;Traitement sémantique des colloques:
 
;Traitement sémantique des colloques:
 
{{clr}}
 
{{clr}}
Ligne 90 : Ligne 130 :
 
===Exemples sur les pays===
 
===Exemples sur les pays===
 
[[File:Carist2014Diapositive16.png|400px|right|thumb]]
 
[[File:Carist2014Diapositive16.png|400px|right|thumb]]
[[File:Carist2014Diapositive17.png|400px|right|thumb]]
 
[[File:Carist2014Diapositive18.png|400px|right|thumb]]
 
 
La curation des noms de pays est notamment utilisée pour donner des éléments de comparaison sur les productions scientifiques au niveau international.
 
La curation des noms de pays est notamment utilisée pour donner des éléments de comparaison sur les productions scientifiques au niveau international.
  
Ligne 101 : Ligne 139 :
 
* [[wicri-amerique.fr:Wicri:Liste de localisation de pays d'Amérique]]
 
* [[wicri-amerique.fr:Wicri:Liste de localisation de pays d'Amérique]]
 
* [[wicri-asie.fr:Wicri:Liste de localisations de pays d'Asie]]
 
* [[wicri-asie.fr:Wicri:Liste de localisations de pays d'Asie]]
 +
 +
On notera que les noms de pays sont alignés sur les entrées de Wikipédia (et donc du Web sémantique).
 +
{{Clr}}
 +
[[File:Carist2014Diapositive17.png|400px|right|thumb]]
 +
Dans les sources de données, les noms de pays sont parfois identifiés par les codes ISO à 3 caractères (Pascal) ou à 2 (Hal).
 +
 +
Dans ce cas, sur le wiki Wicri/Métadonnées, on trouve une page extraite de Wikipédia qui donne la liste des codes ISO. Voir :
 +
* [[wicri-meta.fr:ISO 3166-1|la table des noms de pays ISO 3166]]
 +
{{Clr}}
 +
[[File:Carist2014Diapositive18.png|400px|right|thumb]]
 +
Dans les cas où les noms de pays sont identifiés par des adresses, une table spécifique est utilisée, voir :
 +
* [[wicri-meta.fr:Table des noms de pays en anglais|Table des noms de pays en anglais]]
 
{{Clr}}
 
{{Clr}}
  
 
===Exemples sur les régions===
 
===Exemples sur les régions===
 
[[File:Carist2014Diapositive19.png|400px|right|thumb]]
 
[[File:Carist2014Diapositive19.png|400px|right|thumb]]
 +
La mise en évidence des régions pose d'autres types de problèmes. En effet les régions ne sont pas explicitement citées dans les affiliations. Elles doivent donc être déduites.
 +
 +
Pour la France, la composition des codes postaux est souvent très efficace dans ce sens. Là encore, on utilise une page extraite de Wikipédia pour une normalisation des toponymes. Voir :
 +
* [[wicri-france.fr:Wicri:Liste des départements et préfectures de France]]
 +
{{clr}}
 
[[File:Carist2014Diapositive20.png|400px|right|thumb]]
 
[[File:Carist2014Diapositive20.png|400px|right|thumb]]
 +
Pour l'[[Allemagne]], les déductions sont plus complexes car les codes postaux ne permettent pas de déterminer facilement une zone géographique.
 +
 +
On utilise alors des tables d'associations entre des intervalles de codes et des agglomérations.
 
{{Clr}}
 
{{Clr}}
  
Ligne 112 : Ligne 170 :
 
{{Clr}}
 
{{Clr}}
 
===Services possibles à court terme===
 
===Services possibles à court terme===
[[File:Carist2014Diapositive23.png|400px|left|thumb]]
+
[[File:Carist2014Diapositive23.png|400px|right|thumb]]
 +
{{clr}}
 
[[File:Carist2014Diapositive24.png|400px|right|thumb]]
 
[[File:Carist2014Diapositive24.png|400px|right|thumb]]
 
{{Clr}}
 
{{Clr}}
 +
 
===Pistes pour le long terme===
 
===Pistes pour le long terme===
[[File:Carist2014Diapositive25.png|400px|left|thumb]]
+
[[File:Carist2014Diapositive25.png|400px|right|thumb]]
 +
{{Clr}}
 
[[File:Carist2014Diapositive26.png|400px|right|thumb]]
 
[[File:Carist2014Diapositive26.png|400px|right|thumb]]
 +
{{Clr}}
 
[[File:Carist2014Diapositive27.png|400px|right|thumb]]
 
[[File:Carist2014Diapositive27.png|400px|right|thumb]]
 
{{Clr}}
 
{{Clr}}
 +
 
==Conclusion==
 
==Conclusion==
 
[[File:Carist2014Diapositive28.png|500px|center|thumb]]
 
[[File:Carist2014Diapositive28.png|500px|center|thumb]]

Version actuelle datée du 15 janvier 2015 à 16:46

logo travaux page en cours de rédaction
Carist2014Diapositive01.png

Cette page a été mise en ligne à l'occasion des Carrefours de l'IST (Nancy 2014).

Voir : http://www.carrefourist.fr/

A cette occasion, le projet LorExplor de l'Université de Lorraine invitait les participants à :

  • expérimenter l'ingénierie de la connaissance sur le réseau Wicri,
  • se mobiliser collectivement pour un grand projet autour de la connaissance numérique...

En effet, le CNRS met un terme à la chaîne de production interne à l'INIST des bases Pascal et Francis. La voie est donc ouverte pour travailler sur une autre approche de la connaissance numérique à vocation stratégique.

Introduction au projet LorExplor

Carist2014Diapositive04.png

Le projet ISTEX doit mettre à la disposition des chercheurs français un ensemble de plusieurs dizaines de millions d'articles en format texte numérique plus ou moins structuré.

Dans la suite des initiatives Dilib, Artist et Wicri, LorExplor est soutenu par ce programme pour le développement d'un démonstrateur destiné aux acteurs de la recherche et de l'innovation.

Le projet repose sur une petite équipe qui ne dispose que d'un faible enracinement institutionnel. Ce seul fait démontre la puissance des technologies numériques qui autorisent des réalisations significatives avec de faibles moyens.

Carist2014Diapositive05.png

Dans ses objectifs, LorExplor s'attaque à trois cibles qui ne sont pas encore bien prises en compte dans ISTEX :

  • l'appropriation de la manipulation de corpus par le plus grand nombre possible d'acteurs de la recherche et de l'innovation,
  • la communication des connaissances scientifiques vers la société,
  • les coopérations internationales.


En pratique le démonstrateur LorExplor repose sur 2 éléments d'infrastructure :

  • le réseau de wikis sémantiques Wicri,
  • une bibliothèque XML de composants pour l'ingénierie de la connaissance, DILIB.

Le réseau Wicri

Le réseau Wicri est le socle éditorial et ontologique sur lequel s'appuie le projet LorExplor.

Réseau de wikis

Carist2014Diapositive06.png

Le réseau Wicri s'appuie sur l'expérience Wikipédia.

Sur un plan technique, Wicri utilise le moteur MediaWiki pour ses performances techniques et sa capacité à traiter du contenu scientifique ou technique.

Sur le plan des usages, Wikipédia a réussi à mobiliser les énergies de volontaires. Au moment où le CNRS abandonne les bases Pascal et Francis, des questions fondamentales se posent :

  • Ces bases avaient été lancées dans les années 50 avec comme objectif stratégique de transmettre l'essentiel des nouveautés de la recherche scientifique vers l'ensemble des disciplines scientifiques et vers la société. Comment répondre à ce besoin en 2014 ? Nous proposons une alternative de type encyclopédique.
  • La production de ces bases était enfermé dans un modèle d'organisation tailorienne, figée par un système d'information qui rendait difficile toute vraie coopération et toute réelle évolution. Comment mettre à profit les usages démontrés par Wikipédia pour une approche souple et mutualisée en impliquant l'ensemble des acteurs de la recherche ?

Le réseau Wicri propose donc un démonstrateur qui repose sur une encyclopédie collectivement construite par des acteurs de la recherche et de l'innovation. Le expérimentations déjà réalisées montrent le besoin d'une infrastructure de la connaissance qui contient des références bibliographiques de référence et des ensembles ontologiques. On retrouve une notion revisitée des bases bibliographiques où la mise en lumière de l'essentiel l'emporte sur la volumétrie.

Carist2014Diapositive07.png

Pour favoriser les coopérations, le réseau Wicri a privilégié une organisation en réseau.

Démontrations

Pour se repérer dans le réseau

Le réseau Wicri est un démonstrateur qui contient de nombreuses expérimentations en cours de montage et qu ne dispose pas de forces éditoriales.

  • sur un wiki, de façon classique le logo en haut à gauche pointe vers la page d'accueil.
  • l'onglet communauté permet également de s'orienter au sein du réseau de wikis.
Quelques points d'entrée (wikis communs) 
  • Le wiki point d'accueil principal du réseau : Wicri/Wicri.
  • le premier wiki régional : Wicri/Lorraine.
  • le premier wiki thématique (autour de l'ingénierie de la connaissance pour les communautés de la recherche et de l'innovation : Wicri/Ticri.

Rééditions

Textes et ouvrages anciens

Les wikis du réseau Wicri peuvent contenir des textes ancien réédités en format hypertexte

  • un premier exemple a été le lac des perches sur Wicri/Alsace où un article issu de Persée et daté de 1896 à servi à renseigner une discussion sur le nom du lac.
  • Sur Wicri/Lorraine, un ouvrage plus conséquent a été traité : Le Palais ducal de Nancy écrit en 1852 par Henri Lepage. Cet ouvrage a été numérisé sur Gallica (et traité par OCR par Google). Un ensemble de modèles a été développé pour le structurer, afin de le rendre plus lisible par Internet, en conservant les liens avec Gallica, page par page. On trouvera notamment :
  • Sur Wicri/Agronomie, l'ouvrage de Chrestien de Lihus, Principes d'agriculture et d'économie (1804) a été mis en ligne. Cela a été l'occasion d'expérimenter les modalités permettant d'apporter des compléments d'information sur un texte : commentaires sur les notes initiales, commentaires sur le texte, commentaires disciplinaires.

Wikis spécialisés

Le réseau Wicri peut héberger et accompagner des initiatives fortement diversifiées. Par exemple, en 2014, on trouvera notamment :

Wikis sémantiques

Carist2014Diapositive09.png

Par rapport à Wikipédia le réseau Wicri utilise une extension développée par l'Université de Karlsruhe : Semantic MediaWiki.

Elle permet de créer des lien sémantiques. Les diapositives utilisent une démonstration située sur le wiki Wicri/Eau.

Pour voir la codification des éléments sémantiques, il suffit d'activer l'onglet « voir le texte source » (ou modifier si vous êtes connectés).

  • Pour accéder à la page Pittsburgh sur Wicri/Eau.
Carist2014Diapositive10.png

Avec des liens sémantiques, on peut « naviguer sur une propriété ».

Carist2014Diapositive11.png

Avec des liens sémantiques, on peut « exprimer des requêtes ».

Carist2014Diapositive12.png

Ces requêtes permettent notamment de calculer des listes.

Traitement sémantique des colloques

Démonstrateur LorExplor

Carist2014Diapositive14.png

Le démonstrateur

Le réseau Wicri vise à donner des informations synthétiques aux acteurs de la recherche et de l'innovation en privilégiant un déploiement thématique ou régional.

Les corpus ISTEX sont principalement utilisés, en complément avec d'autres sources, pour analyser la production scientifique sur un sujet donné. Ce sujet peut alors être traité de différentes façons pour donner lieu à des contributions dans le réseau en fonction de ses caractéristiques thématiques ou régionales. Ce mécanisme est souvent complètement transparent pour un internaute qui ne voit que le résultat final dans le paysage informationnel qui lui est familier.

Pour y parvenir, les rédacteurs et contributeurs peuvent s'appuyer sur des analyses de corpus avec des serveurs d'exploration. Ces serveurs sont générés par la bibliothèque Dilib, une bibliothèque de logiciels XML contenant des outils d'analyse de corpus. Lorsque les éditeurs ont libéré en « open source » leurs métadonnées, celles-ci peuvent être rendues visibles pour l'utilisateur final, généralement en complément d'autres sources. Un lecteur expérimenté pourra alors mener ses propres investigations dans les corpus.

Ces explorations seront d'autant plus efficaces que les données seront homogénéisées. Une grande partie des traitements sera dédiée à transformer les métadonnées initiales à l'aide de matériaux terminologiques.

Le réseau Wicri fonctionne alors comme un portail d'accès aux éléments visibles des ressources ISTEX.

Les serveurs d'exploration

Carist2014Diapositive15.png

Les serveurs d'exploration sont des systèmes de recherche d'information, fortement paramétrables et dans lesquels les fonctions exploratoires sont privilégiées. Ils sont construit à partir d'un ou de plusieurs corpus téléchargés de sources diverses (et notamment ISTEX).

Un exemple à partir de ce wiki

Sur ce wiki, une plateforme contient un ensemble de serveurs (voir Serveur d'exploration sur la microsimulation). Les serveurs sont matérialisés par des icônes.

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur le flux Pascal

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Chaque serveur donne accès à un ensemble d'index. Pour chaque index une page donne une liste d'entrée classée par ordre de fréquence décroissante (voir par exemple pour l'index pays de l'étape Checkpoint du flux Pascal)

Nous travaillons sur une meilleure visualisation de ces résultats sous forme de cartes, voici par exemple, sur la microsimulation la production scientifique des régions françaises :

Sur le wiki H2PTM

Un exemple de référence de 10 000 documents (métadonnées) est disponible sur ce wili, voir HypertextV5.

Curation de données

La curation des données dans LorExplor vise essentiellement à homogénéiser des données issues de sources hétérogènes. En pratique, ce type d'opération se déroule comme suit :

  • des pages du réseau de wikis contiennent des règles de curation,
  • ces pages sont importées sur une machine de développement où elles sont transformées pour être intégrées à la bibliothèque logicielle DILIB.
  • les serveurs d'explorations sont alors régénérés et remis en ligne.

Exemples sur les pays

Carist2014Diapositive16.png

La curation des noms de pays est notamment utilisée pour donner des éléments de comparaison sur les productions scientifiques au niveau international.

Pour cela des modèles dérivés de ceux de Wikipédia permettent de projeter des disques sur des cartes.

Les point de projection sont définis dans les wikis relatifs aux régions et aux pays, voir par exemple :

On notera que les noms de pays sont alignés sur les entrées de Wikipédia (et donc du Web sémantique).

Carist2014Diapositive17.png

Dans les sources de données, les noms de pays sont parfois identifiés par les codes ISO à 3 caractères (Pascal) ou à 2 (Hal).

Dans ce cas, sur le wiki Wicri/Métadonnées, on trouve une page extraite de Wikipédia qui donne la liste des codes ISO. Voir :

Carist2014Diapositive18.png

Dans les cas où les noms de pays sont identifiés par des adresses, une table spécifique est utilisée, voir :

Exemples sur les régions

Carist2014Diapositive19.png

La mise en évidence des régions pose d'autres types de problèmes. En effet les régions ne sont pas explicitement citées dans les affiliations. Elles doivent donc être déduites.

Pour la France, la composition des codes postaux est souvent très efficace dans ce sens. Là encore, on utilise une page extraite de Wikipédia pour une normalisation des toponymes. Voir :

Carist2014Diapositive20.png

Pour l'Allemagne, les déductions sont plus complexes car les codes postaux ne permettent pas de déterminer facilement une zone géographique.

On utilise alors des tables d'associations entre des intervalles de codes et des agglomérations.

Éléments prospectifs

Carist2014Diapositive22.png

Services possibles à court terme

Carist2014Diapositive23.png
Carist2014Diapositive24.png

Pistes pour le long terme

Carist2014Diapositive25.png
Carist2014Diapositive26.png
Carist2014Diapositive27.png

Conclusion

Carist2014Diapositive28.png