CARIST (Nancy 2017) Ducloy

L'excellence documentaire pour tous ? Chiche !

document en cours de finition

Diapositives à jour,
Commentaires en cours.

Nous présentons les résultats du projet LorExplor. Il est destiné à l'analyse des besoins des chercheurs et partenaires de la recherche en matière d'exploration de corpus à des fins stratégiques. Il utilise la synergie de deux types de technologies : un réseau de wikis sémantiques et l'ingénierie XML. Il débouche sur un démonstrateur, prototype d'une infrastructure pour explorer la connaissance scientifique ou technique. Nous discuterons de ses retombées dans la perspective d'une « excellence documentaire pour tous ».

Pour accéder aux diapositives

Sommaire

1 Introduction
- 1.1 Une priorité, l'exploration des connaissances
2 Infrastructure Wicri
3 Plateformes de curation et d'exploration
- 3.1 Manipuler un ensemble de ressources hétérogènes
- 3.2 Un atelier flexible
4 Bilan
5 Conclusion
6 Visite guidée
7 Curation des corpus
8 Voir aussi

Introduction

Le projet LorExplor s'attaque aux résolutions de problèmes éventuellement complexes menées dans un contexte de coopération (accompagnement) entre les spécialistes du domaine d'application et ceux du numérique. En pratique, deux cibles sont privilégiées :

Aide au pilotage stratégique

La réponse à des besoins d'exploration avec des contraintes de temps. Par exemple, dans le cadre d'une procédure de réponse à un appel à projets européens : quelles sont, par exemple, les principales équipes européennes avec lesquelles l'Université Lille 3 pourrait s'allier sur une thématique portant sur les bibliothèques numériques.
A côté de services très fortement concernés par ce type d'approche (relations internationales, partenariats, valorisation), toute équipe de recherche peut tirer parti de ce type d'approche une à deux fois par an. Une estimation du nombre d'interventions de ce type est comprise entre 50 000 à 150 000 par an.

Association site encyclopédique - formation

La constitution de sites encyclopédique de références, s'inscrivant sur du long terme. Par exemple, sur ce wiki, des portails sur différents sujets comme la Text Encoding Initiative ou l'OCR.
Des projets éditoriaux dans le cadre de formations en Master ou en dernière année d'école d'ingénieur. Ils reposent sur des sessions d'une à deux semaines où un groupe d'étudiants rédige collectivement un dossier de synthèse sur un wiki sémantique en explorant des corpus. La même approche pour une thèse dans la phase d'étude de l'existant est plus conséquente (ordre de grandeur un mois).

Une priorité, l'exploration des connaissances

Recherche: On sait qu'une information existe, mais on a perdu le chemin pour y accéder.
Exploration: On recherche des informations que l'on ne connait pas :

Quelle est l’œuvre de Mozart la plus citée ?
- Sur Wicri/Musique Sonate pour deux pianos (Mozart)

Pour la plus ancienne référence à l'hypertexte voir sur le wiki Ticri/H²PTM :

Serveur d'exploration hypertexte et hypermédia (Un exemple avec manipulation du texte intégral)

Recherche débouchant sur des explorations

Où trouver une explication compréhensible sur la relation entre les 8 tons de l'office (magnificats de la Renaissance) et les tonalités classiques (Do majeur...) ?

Infrastructure Wicri

Mediawiki

La nature de l'information, culturelle ou scientifique, amène de fortes contraintes éditoriales. La page Aussois, sur le wiki Wicri/France, donne un exemple d'introduction. Le début utilise « de façon classique » les outils et pratiques de Wikipédia. La fin de la page a été réalisée avec les techniques présentées ici.

Exemples plus significatifs

Sur ce wiki :
- cette présentation pour lee journées CARIST est enrichie par un ensemble de démonstrations, avec notamment des liens vers des serveurs d'exploration dont le contenu évolue dans le temps.
Dans le réseau Wicri,
- l'adaptation de la traduction française de la pièce de Pouchkine Mozart et Salieri demande de manipuler un outil de notation musicale (LilyPond).
- elle est intégrée dans un dossier Mozart qui donne accès à environ 15 000 documents (en majorité ISTEX).

Aspects techniques concernant MediaWiki

La solution MediaWiki est puissante mais son utilisation avancée demande un dispositif d'accompagnement. Sur un plan informatique il faut un soutien logistique relativement léger en termes de temps d'intervention mais possédant une solide expertise technique. Au niveau des pratiques, elle demande une stratégie de formation et d'accompagnement des contributeurs.

Semantic MediaWiki

La souche MediaWiki est déjà très riche par ses mécanismes d'indexation et l'utilisation de modèles. Cette page contient d'ailleurs un grand nombre d'appels de modèles, visualisables par l'onglet « modifier ou voir le texte source ».

Par rapport à Wikipédia le réseau Wicri utilise une extension développée par l'Université de Karlsruhe : Semantic MediaWiki.

De nombreux exemples d'utilisation sont disponibles.

Sur Wicri/Musique, la page sur Lorenzo da Ponte qui est utilisé comme exemple sur la diapositive ci-jointe.
sur ce wiki, la page Serveur d'exploration qui exploite les données numériques sur les corpus.
sur ce wiki, les pages relatives aux colloques CIDE avec la sémantisation des auteurs et comités de programme (voir par exemple CIDE 2016 Athènes).

Le réseau Wicri

Un même sujet peut être traité de façon différente sur différents wikis.

Exemple, pour le même article, on peut constater des différences significatives de l'indexation sémantique ^[1] :

Sur ce wiki : Alain Bonardi, CIDE (2007) Bonardi.
Sur le wiki Wicri/Musique : Le patch comme document numérique : support de création et de constitution de connaissances

Pour se repérer dans le réseau

Le réseau Wicri est un démonstrateur qui contient de nombreuses expérimentations en cours de montage. Mais il ne dispose pas de forces éditoriales et la navigation n'est pas toujours évidente. Voici quelques éléments simples :

sur un wiki, de façon classique le logo en haut à gauche pointe vers la page d'accueil.
l'onglet communauté permet également de s'orienter au sein du réseau de wikis.

Quelques points d'entrée (wikis communs)

Le wiki point d'accueil principal du réseau : Wicri/Wicri.
le premier wiki régional : Wicri/Lorraine.
le premier wiki thématique (autour de l'ingénierie de la connaissance pour les communautés de la recherche et de l'innovation : Wicri/Ticri.

Apport ISTEX, distribution des règles de curation

Les règles de curation vont être distribuées (et contextualisées) dans l'ensemble du réseau. Par exemple :

Sur le wiki Wicri/Musique : Liste de musicologues,
Sur le wiki Wicri/Amérique : Liste de grandes universités américaines.

Quelques résultats

Pour voir quelques statistiques :

wicri.fr:Wicri Wicri:Statistiques janvier 2017

Plateformes de curation et d'exploration

Manipuler un ensemble de ressources hétérogènes

Un exemple: Sur le Serveur d'exploration sur la TEI, le flux ISTEX :

Un atelier flexible

On trouvera de nombreuses applications dans le réseau Wicri en utilisant (dans chaque wiki) la catégorie Serveur d'exploration.

Voici quelques exemples :

Sur ce wiki :
Sur Wicri/Terre : Serveur d'exploration sur l'europium.
Sur Wicri/Linguistique : Serveur d'exploration sur la philologie
Sur Wicri/Eau : Serveur d'exploration Lota lota (lotte de rivière).
Sur Wicri/Luxembourg : Serveur d'exploration sur la visibilité du Luxembourg à la NLM.

Si les wikis jouent un rôle fondamental dans l'interface homme machine avec les corpus, les travaux de curation et d'exploration sont réalisés avec une bibliothèque de composants XML.

Pour un corpus donné, cette bibliothèque va notamment permettre de réaliser :

un serveur d'exploration qui devrait être accessible à un public assez large mais averti.
une plateforme de curation et d'exploration. Il s'agit d'un ensemble de serveurs intermédiaires destinés aux spécialistes.

Les serveurs d'exploration sont réalisés sur une machine Unix avec des composants logiciels écrits en langage C.

Les modules de navigation sont réalisés en php.

Ces modules sont intégrés dans la bibliothèque Dilib. Elle est principalement documentée sur le wiki Wicri/Outils.

Bilan

Utilisation en travaux dirigés

Dans le cadre des TD de l'Université de Lorraine en 2016.

Le scalaire (poisson) - sur Wicri/Eau,
L'oranger - sur Wicri/Bois et Wicri/Agronomie
Le Libre accès en Belgique sur Wicri/Belgique, et sur ce wiki
La visibilité du Havre sur Wicri/France et Wicri/Eau
Le cobalt au Maghreb sur Wicri/Terre, Wicri/Maroc et Wicri/Afrique.

Dans le cadre des TD de l'Université Paris 8 en 2017.

Un aspect essentiel : la curation des corpus

Chaque corpus pose des problèmes spécifiques en fonction du type de données, de sa volumétrie et du type de résultats attendus.

Quand les critères de sélection peuvent être précis les résultats peuvent être très intéressants.

Sur le wiki Wicri/Santé, la revue Movement Disorders donne un résultat très intéressant où un corpus de 20.000 documents est transformé en une base de données de 10.000 documents et références bénéficiant d'une multiple indexation.

Malheureusement, nous avons rencontré de très nombreux exemples qui posent de sérieux problèmes.

Un essai sur la méthode Scrum a montré un haut degré de pollution d'un corpus par un phénomène d'OCR (voir sur Wicri/Informatique le premier essai sur la méthode Scrum).

Attention aux pratiques documentaires diversifiées

Conclusion

Intérêts et limites d'un travail sans soutien institutionnel

Multiples retombées potentielles, notamment en formation

Une approche encyclopédique pour l'essentiel de la connaissance scientifique

Visite guidée

Dilib

L'origine de Dilib remonte en 1990 où l'INIST cherchait une solution pour manipuler facilement des formats MARC. En effet ce formalisme (ISO 2709) était utilisé pour la production des bases Pascal et Francis. Un exemple de notice Pascal, structurée en 2 niveaux, est visible dans l'exemple ci-dessous :

La fin de Don Giovanni : L'entrée en scène du libertin chez Mozart et Stravinsky

Ce type de structure ne se manipule pas facilement dans un SGBD relationnel. C'est pourquoi la norme SGML apparaissait pertinente dès cette époque. Une première bibliothèque nommée Ilib a alors été développée au sein de l'INIST. Elle était très spécialisée pour le traitement des notices Pascal.

Les travaux ont été ensuite poursuivis au Loria dans une approche qui anticipait la norme XML. Une nouvelle bibliothèque nommée Dilib a alors été développée avec une généralisation dans l'optique de traiter de grands volumes de documents de métadonnées d'origine quelconque.

Les travaux sur Dilib ont été repris par l'INIST en 2000 puis arrêtés en 2003.

Avec ISTEX, il faut manipuler de vastes corpus de documents plein texte avec des DTD très diverses. Ceci a donné l'occasion de reprendre les développements pour répondre à cette nouvelle classe de problèmes.

Par rapport à XML, le parser DILIB évolue pour traiter tous les types de documents offerts par ISTEX. Pour les traitements proprement dits, une recommandation nommée Sxml a été introduite. Pour en savoir plus, voir sur Wicri/Métadonnées les flux de documents Sxml.

Cela dit, compte tenu de l'absence de moyens institutionnels, le développement de Dilib est strictement opportuniste en fonction des besoins.

Utilisabilité ISTEX

La bibliothèque est en open/source. Elle est donc utilisable par toute équipe voulant exploiter des données ISTEX. Encore faut-il qu'un minimum de suivi et de maintenance soit assuré.

Serveurs d'exploration

Listes d'index

Liens vers les serveurs : index auteur sur la TEI index auteur sur l'OCR index auteur sur la Cyberinfrastructure	Listes brutes un exemple sur les régions du serveur Cyberinfrastructure Californie (200) Maryland (88) État de New York (74) Pennsylvanie (66) Massachusetts (61) Illinois (60) Angleterre (57) Indiana (56) Texas (49) Arizona (45) Virginie (44) Caroline du Nord (40) Washington (État) (34) Nouveau-Mexique (30) Michigan (27)

Association entre patronyme et affiliation brute

Un index s'est avéré très intéressant à l'usage. Il combine les noms d'auteurs avec l'initiale de leur premier prénom et leurs différentes affiliations.

Outils de visualisation

Filtrage sur plein texte

La bibliothèque Dilib (ou d'autres boîtes à outils XML) peuvent être utilisées pour réaliser des filtrages sur plein texte, notamment dans la phase de curation (après curation).

Curation des corpus

Enrichissement par dédoublonnage

Retour sur un exemple

Sur le wiki Wicri/Santé, la revue Movement Disorders donne un résultat très intéressant où un corpus de 20.000 documents est transformé en une base de données de 10.000 documents et références bénéficiant d'une multiple indexation.

Un processus itératif

Sur le wiki Wicri/Bois le Serveur d'exploration sur le renard montre un exemple de dispositif de suivi des itérations.

La page de discussion de ce serveur donne des éléments de comparaison, entre la version initiale (sans curation) et le résultat de la dernière génération.

Curation des données

Généralités

Dans l'état actuel des développements, la curation de données concerne essentiellement celles qui sont relatives aux acteurs :

auteurs,
organisme d'affiliation,
pays d'affiliation,
région d'affiliation.

Les flux traités en priorité sont :

Istex,
Pascal et Francis
PubMed et PubMed Central
HAL

Des essais ont été menés sur

HAL INRA
ArXiv
BHA

Pays par code ISO

Sur Wicri/Métadonnées :

la table ISO 3166-1

Sur Wicri/Musique,

un document avec un code ISO à 3 caractères (en zone A66)
- Chuck Tilly and Mozart
Sur HAL, un document qui contient de multiples mentions de code ISO à 3 caractères
- Description and evaluation of the Model for Ozone and Related chemical Tracers, version 4 (MOZART-4)

Pays par listes de pays

Curation des régions, généralités

Les codes postaux

Les universités

Voir aussi

Notes

↑ Visible dans les boîtes en fin de page.

[1] Visible dans les boîtes en fin de page.

[1]