CARIST (Nancy 2017) Ducloy

De CIDE

L'excellence documentaire pour tous ? Chiche !


 
 

logo travaux document en cours de finition
  • Diapositives à jour,
  • Commentaires en cours.
CARIST 2017 Ducloy Diapositive01.png

Nous présentons les résultats du projet LorExplor. Il est destiné à l'analyse des besoins des chercheurs et partenaires de la recherche en matière d'exploration de corpus à des fins stratégiques. Il utilise la synergie de deux types de technologies : un réseau de wikis sémantiques et l'ingénierie XML. Il débouche sur un démonstrateur, prototype d'une infrastructure pour explorer la connaissance scientifique ou technique. Nous discuterons de ses retombées dans la perspective d'une « excellence documentaire pour tous ».

Pour accéder aux diapositives

Introduction

CARIST 2017 Ducloy V3 Diapositive02.png

Le projet LorExplor s'attaque aux résolutions de problèmes éventuellement complexes menées dans un contexte de coopération (accompagnement) entre les spécialistes du domaine d'application et ceux du numérique. En pratique, deux cibles sont privilégiées :

Aide au pilotage stratégique
  • La réponse à des besoins d'exploration avec des contraintes de temps. Par exemple, dans le cadre d'une procédure de réponse à un appel à projets européens : quelles sont, par exemple, les principales équipes européennes avec lesquelles l'Université Lille 3 pourrait s'allier sur une thématique portant sur les bibliothèques numériques.
  • A côté de services très fortement concernés par ce type d'approche (relations internationales, partenariats, valorisation), toute équipe de recherche peut tirer parti de ce type d'approche une à deux fois par an. Une estimation du nombre d'interventions de ce type est comprise entre 50 000 à 150 000 par an.
Association site encyclopédique - formation
  • La constitution de sites encyclopédique de références, s'inscrivant sur du long terme. Par exemple, sur ce wiki, des portails sur différents sujets comme la Text Encoding Initiative ou l'OCR.
  • Des projets éditoriaux dans le cadre de formations en Master ou en dernière année d'école d'ingénieur. Ils reposent sur des sessions d'une à deux semaines où un groupe d'étudiants rédige collectivement un dossier de synthèse sur un wiki sémantique en explorant des corpus. La même approche pour une thèse dans la phase d'étude de l'existant est plus conséquente (ordre de grandeur un mois).

Une priorité, l'exploration des connaissances

CARIST 2017 Ducloy Diapositive04.png
Recherche
On sait qu'une information existe, mais on a perdu le chemin pour y accéder.
Exploration
On recherche des informations que l'on ne connait pas :

Pour la plus ancienne référence à l'hypertexte voir sur le wiki Ticri/H2PTM :

Recherche débouchant sur des explorations
  • Où trouver une explication compréhensible sur la relation entre les 8 tons de l'office (magnificats de la Renaissance) et les tonalités classiques (Do majeur...) ?


Infrastructure Wicri

Mediawiki

CARIST 2017 Ducloy Diapositive05.png

La nature de l'information, culturelle ou scientifique, amène de fortes contraintes éditoriales. La page Aussois, sur le wiki Wicri/France, donne un exemple d'introduction. Le début utilise « de façon classique » les outils et pratiques de Wikipédia. La fin de la page a été réalisée avec les techniques présentées ici.

Exemples plus significatifs
  • Sur ce wiki :
    • cette présentation pour lee journées CARIST est enrichie par un ensemble de démonstrations, avec notamment des liens vers des serveurs d'exploration dont le contenu évolue dans le temps.
  • Dans le réseau Wicri,
Aspects techniques concernant MediaWiki

La solution MediaWiki est puissante mais son utilisation avancée demande un dispositif d'accompagnement. Sur un plan informatique il faut un soutien logistique relativement léger en termes de temps d'intervention mais possédant une solide expertise technique. Au niveau des pratiques, elle demande une stratégie de formation et d'accompagnement des contributeurs.

Semantic MediaWiki

CARIST 2017 Ducloy Diapositive06.png

La souche MediaWiki est déjà très riche par ses mécanismes d'indexation et l'utilisation de modèles. Cette page contient d'ailleurs un grand nombre d'appels de modèles, visualisables par l'onglet « modifier ou voir le texte source ».

Par rapport à Wikipédia le réseau Wicri utilise une extension développée par l'Université de Karlsruhe : Semantic MediaWiki.

De nombreux exemples d'utilisation sont disponibles.

  • Sur Wicri/Musique, la page sur Lorenzo da Ponte qui est utilisé comme exemple sur la diapositive ci-jointe.
  • sur ce wiki, la page Serveur d'exploration qui exploite les données numériques sur les corpus.
  • sur ce wiki, les pages relatives aux colloques CIDE avec la sémantisation des auteurs et comités de programme (voir par exemple CIDE 2016 Athènes).

Le réseau Wicri

CARIST 2017 Ducloy Diapositive07.png
Un même sujet peut être traité de façon différente sur différents wikis.

Exemple, pour le même article, on peut constater des différences significatives de l'indexation sémantique [1] :

Pour se repérer dans le réseau

Le réseau Wicri est un démonstrateur qui contient de nombreuses expérimentations en cours de montage. Mais il ne dispose pas de forces éditoriales et la navigation n'est pas toujours évidente. Voici quelques éléments simples :

  • sur un wiki, de façon classique le logo en haut à gauche pointe vers la page d'accueil.
  • l'onglet communauté permet également de s'orienter au sein du réseau de wikis.
Quelques points d'entrée (wikis communs) 
  • Le wiki point d'accueil principal du réseau : Wicri/Wicri.
  • le premier wiki régional : Wicri/Lorraine.
  • le premier wiki thématique (autour de l'ingénierie de la connaissance pour les communautés de la recherche et de l'innovation : Wicri/Ticri.
Apport ISTEX, distribution des règles de curation

Les règles de curation vont être distribuées (et contextualisées) dans l'ensemble du réseau. Par exemple :

Quelques résultats

CARIST 2017 Ducloy Diapositive08.png

Pour voir quelques statistiques :

Plateformes de curation et d'exploration

Manipuler un ensemble de ressources hétérogènes

CARIST 2017 Ducloy Diapositive09.png
Un exemple
Sur le Serveur d'exploration sur la TEI, le flux ISTEX :

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur le flux ISTEX

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Un atelier flexible

CARIST 2017 Ducloy Diapositive10.png

On trouvera de nombreuses applications dans le réseau Wicri en utilisant (dans chaque wiki) la catégorie Serveur d'exploration.

Voici quelques exemples :

Si les wikis jouent un rôle fondamental dans l'interface homme machine avec les corpus, les travaux de curation et d'exploration sont réalisés avec une bibliothèque de composants XML.

Pour un corpus donné, cette bibliothèque va notamment permettre de réaliser :

Les serveurs d'exploration sont réalisés sur une machine Unix avec des composants logiciels écrits en langage C.

Les modules de navigation sont réalisés en php.

LogoDilib.gif

Ces modules sont intégrés dans la bibliothèque Dilib. Elle est principalement documentée sur le wiki Wicri/Outils.

Bilan

Utilisation en travaux dirigés

CARIST 2017 Ducloy Diapositive03.png

Dans le cadre des TD de l'Université de Lorraine en 2016.

Dans le cadre des TD de l'Université Paris 8 en 2017.

Un aspect essentiel : la curation des corpus

CARIST 2017 Ducloy Diapositive18.png

Chaque corpus pose des problèmes spécifiques en fonction du type de données, de sa volumétrie et du type de résultats attendus.

Quand les critères de sélection peuvent être précis les résultats peuvent être très intéressants.

  • Sur le wiki Wicri/Santé, la revue Movement Disorders donne un résultat très intéressant où un corpus de 20.000 documents est transformé en une base de données de 10.000 documents et références bénéficiant d'une multiple indexation.

Malheureusement, nous avons rencontré de très nombreux exemples qui posent de sérieux problèmes.

Attention aux pratiques documentaires diversifiées

CARIST 2017 Ducloy V4 Diapositive12.png

Conclusion

Intérêts et limites d'un travail sans soutien institutionnel

CARIST 2017 Ducloy Diapositive25.png

Multiples retombées potentielles, notamment en formation

CARIST 2017 Ducloy Diapositive26.png

Une approche encyclopédique pour l'essentiel de la connaissance scientifique

CARIST 2017 Ducloy V4 Diapositive15.png

Visite guidée

CARIST 2017 Ducloy V4 Diapositive16.png

Dilib

CARIST 2017 Ducloy Diapositive11.png

L'origine de Dilib remonte en 1990 où l'INIST cherchait une solution pour manipuler facilement des formats MARC. En effet ce formalisme (ISO 2709) était utilisé pour la production des bases Pascal et Francis. Un exemple de notice Pascal, structurée en 2 niveaux, est visible dans l'exemple ci-dessous :

Ce type de structure ne se manipule pas facilement dans un SGBD relationnel. C'est pourquoi la norme SGML apparaissait pertinente dès cette époque. Une première bibliothèque nommée Ilib a alors été développée au sein de l'INIST. Elle était très spécialisée pour le traitement des notices Pascal.

Les travaux ont été ensuite poursuivis au Loria dans une approche qui anticipait la norme XML. Une nouvelle bibliothèque nommée Dilib a alors été développée avec une généralisation dans l'optique de traiter de grands volumes de documents de métadonnées d'origine quelconque.

Les travaux sur Dilib ont été repris par l'INIST en 2000 puis arrêtés en 2003.

Avec ISTEX, il faut manipuler de vastes corpus de documents plein texte avec des DTD très diverses. Ceci a donné l'occasion de reprendre les développements pour répondre à cette nouvelle classe de problèmes.

Par rapport à XML, le parser DILIB évolue pour traiter tous les types de documents offerts par ISTEX. Pour les traitements proprement dits, une recommandation nommée Sxml a été introduite. Pour en savoir plus, voir sur Wicri/Métadonnées les flux de documents Sxml.

Cela dit, compte tenu de l'absence de moyens institutionnels, le développement de Dilib est strictement opportuniste en fonction des besoins.

Utilisabilité ISTEX

La bibliothèque est en open/source. Elle est donc utilisable par toute équipe voulant exploiter des données ISTEX. Encore faut-il qu'un minimum de suivi et de maintenance soit assuré.

Serveurs d'exploration

Listes d'index

CARIST 2017 Ducloy Diapositive12.png
Liens vers les serveurs : Listes brutes
un exemple sur les régions du serveur Cyberinfrastructure
  1. Californie (200)
  2. Maryland (88)
  3. État de New York (74)
  4. Pennsylvanie (66)
  5. Massachusetts (61)
  6. Illinois (60)
  7. Angleterre (57)
  8. Indiana (56)
  9. Texas (49)
  10. Arizona (45)
  11. Virginie (44)
  12. Caroline du Nord (40)
  13. Washington (État) (34)
  14. Nouveau-Mexique (30)
  15. Michigan (27)

Association entre patronyme et affiliation brute

CARIST 2017 Ducloy Diapositive13.png

Un index s'est avéré très intéressant à l'usage. Il combine les noms d'auteurs avec l'initiale de leur premier prénom et leurs différentes affiliations.

Outils de visualisation

CARIST 2017 Ducloy Diapositive14.png

Filtrage sur plein texte

CARIST 2017 Ducloy Diapositive16.png

La bibliothèque Dilib (ou d'autres boîtes à outils XML) peuvent être utilisées pour réaliser des filtrages sur plein texte, notamment dans la phase de curation (après curation).


Curation des corpus

Enrichissement par dédoublonnage

CARIST 2017 Ducloy Diapositive15.png
Retour sur un exemple 
  • Sur le wiki Wicri/Santé, la revue Movement Disorders donne un résultat très intéressant où un corpus de 20.000 documents est transformé en une base de données de 10.000 documents et références bénéficiant d'une multiple indexation.

Un processus itératif

CARIST 2017 Ducloy Diapositive17.png

Sur le wiki Wicri/Bois le Serveur d'exploration sur le renard montre un exemple de dispositif de suivi des itérations.

La page de discussion de ce serveur donne des éléments de comparaison, entre la version initiale (sans curation) et le résultat de la dernière génération.

Curation des données

Généralités

CARIST 2017 Ducloy Diapositive19.png

Dans l'état actuel des développements, la curation de données concerne essentiellement celles qui sont relatives aux acteurs :

  • auteurs,
  • organisme d'affiliation,
  • pays d'affiliation,
  • région d'affiliation.

Les flux traités en priorité sont :

  • Istex,
  • Pascal et Francis
  • PubMed et PubMed Central
  • HAL

Des essais ont été menés sur

  • HAL INRA
  • ArXiv
  • BHA

Pays par code ISO

CARIST 2017 Ducloy Diapositive20.png

Sur Wicri/Métadonnées :

Sur Wicri/Musique,

Pays par listes de pays

CARIST 2017 Ducloy Diapositive21.png

Curation des régions, généralités

CARIST 2017 Ducloy Diapositive22.png

Les codes postaux

CARIST 2017 Ducloy Diapositive23.png

Les universités

CARIST 2017 Ducloy Diapositive24.png

Voir aussi

Notes
  1. Visible dans les boîtes en fin de page.