CARIST (Nancy 2017) Ducloy : Différence entre versions
imported>Jacques Ducloy (→Curation des corpus) |
imported>Jacques Ducloy (→Curation des corpus) |
||
Ligne 238 : | Ligne 238 : | ||
[[Fichier:CARIST 2017 Ducloy Diapositive15.png|thumb|right|500px]] | [[Fichier:CARIST 2017 Ducloy Diapositive15.png|thumb|right|500px]] | ||
{{clr}} | {{clr}} | ||
+ | ===Un processus itéraif=== | ||
[[Fichier:CARIST 2017 Ducloy Diapositive17.png|thumb|right|500px]] | [[Fichier:CARIST 2017 Ducloy Diapositive17.png|thumb|right|500px]] | ||
{{clr}} | {{clr}} |
Version du 18 mars 2017 à 09:28
L'excellence documentaire pour tous ? Chiche !
Nous présentons les résultats du projet LorExplor. Il est destiné à l'analyse des besoins des chercheurs et partenaires de la recherche en matière d'exploration de corpus à des fins stratégiques. Il utilise la synergie de deux types de technologies : un réseau de wikis sémantiques et l'ingénierie XML. Il débouche sur un démonstrateur, prototype d'une infrastructure pour explorer la connaissance scientifique ou technique. Nous discuterons de ses retombées dans la perspective d'une « excellence documentaire pour tous ».
Pour accéder aux diapositives
Sommaire
Introduction
Le projet LorExplor s'attaque aux résolutions de problèmes éventuellement complexes menées dans un contexte de coopération (accompagnement) entre les spécialistes du domaine d'application et ceux du numérique. En pratique, deux cibles sont privilégiées :
- Aide au pilotage stratégique
- La réponse à des besoins d'exploration avec des contraintes de temps. Par exemple, dans le cadre d'une procédure de réponse à un appel à projets européens : quelles sont, par exemple, les principales équipes européennes avec lesquelles l'Université Lille 3 pourrait s'allier sur une thématique portant sur les bibliothèques numériques.
- A côté de services très fortement concernés par ce type d'approche (relations internationales, partenariats, valorisation), toute équipe de recherche peut tirer parti de ce type d'approche une à deux fois par an. Une estimation du nombre d'interventions de ce type est comprise entre 50 000 à 150 000 par an.
- Association site encyclopédique - formation
- La constitution de sites encyclopédique de références, s'incrivant sur du long terme. Par exemple, sur ce wiki, des portails sur différents sujets comme la Text Encoding Initiative ou l'OCR.
- Des projets éditoriaux dans le cadre de formations en Master ou en dernière année d'école d'ingénieur. Ils reposent sur des sessions d'une à deux semaines où un groupe d'étudiants rédige collectivement un dossier de synthèse sur un wiki sémantique en explorant des corpus. La même approche pour une thèse dans la phase d'étude de l'existant est plus conséquente (ordre de grandeur un mois).
Une priorité, l'exploration des connaissances
- Recherche
- On sait qu'une information existe, mais on a perdu le chemin pour y accéder.
- Exploration
- On recherche des informations que l'on ne connait pas :
- Quelle est l’œuvre de Mozart la plus citée ?
- Sur Wicri/Musique Sonate pour deux pianos (Mozart)
Pour la plus ancienne référence à l'hypertexte voir sur le wiki Ticri/H2PTM :
- Recherche débouchant sur des explorations
- Où trouver une explication compréhensible sur la relation entre les 8 tons de l'office (magnificats de la Renaissance) et les tonalités classiques (Do majeur...) ?
Infrastructure Wicri
Mediawiki
La nature de l'information, culturelle ou scientifique, amène de fortes contraintes éditoriales. La page Aussois, sur le wiki Wicri/France, donne un exemple d'introduction. Le début utilise « de façon classique » les outils et pratiques de Wikipédia. La fin de la page a été réalisée avec les techniques présentées ici.
- Exemples plus significatifs
- Sur ce wiki :
- cette présentation pour lee journées CARIST est enrichie par un ensemble de démonstrations, avec notamment des liens vers des serveurs d'exploration dont le contenu évolue dans le temps.
- Dans le réseau Wicri,
- l'adaptation de la traduction française de la pièce de Pouchkine Mozart et Salieri demande de manipuler un outil de notation musicale (LilyPond).
- elle est intégrée dans un [wicri-musique.fr:[Wolfgang Amadeus Mozart|dossier Mozart]] qui donne accès à environ 15 000 documents (en majorité ISTEX).
- Aspects techniques concernant MediaWiki
La solution MediaWiki est puissante mais son utilisation avancée demande un dispositif d'accompagnement. Sur un plan informatique il faut un soutien logistique relativement léger en termes de temps d'intervention mais possédant une solide expertise technique. Au niveau des pratiques, elle demande une stratégie de formation et d'accompagnement des contributeurs.
Semantic MediaWiki
La souche MediaWiki est déjà très riche par ses mécanismes d'indexation et l'utilisation de modèles. Cette page contient d'ailleurs un grand nombre d'appels de modèles, visualisables par l'onglet « modifier ou voir le texte source ».
Par rapport à Wikipédia le réseau Wicri utilise une extension développée par l'Université de Karlsruhe : Semantic MediaWiki.
De nombreux exemples d'utilisation sont disponibles.
- Sur Wicri/Musique, la page sur Lorenzo da Ponte qui est utilisé comme exemple sur la diapositive ci-jointe.
- sur ce wiki, la page Serveur d'exploration qui exploite les données numériques sur les corpus.
- sur ce wiki, les pages relatives aux colloques CIDE avec la sémantisation des auteurs et comités de programme (voir par exemple CIDE 2016 Athènes).
Le réseau Wicri
- Un même sujet peut être traité de façon différente sur différents wikis.
Exemple, pour le même article, on peut constater des différences significatives de l'indexation sémantique [1] :
- Sur ce wiki : Alain Bonardi, CIDE (2007) Bonardi.
- Sur le wiki Wicri/Musique : Le patch comme document numérique : support de création et de constitution de connaissances
- Pour se repérer dans le réseau
Le réseau Wicri est un démonstrateur qui contient de nombreuses expérimentations en cours de montage. Mais il ne dispose pas de forces éditoriales et la navigation n'est pas toujours évidente. Voici quelques éléments simples :
- sur un wiki, de façon classique le logo en haut à gauche pointe vers la page d'accueil.
- l'onglet communauté permet également de s'orienter au sein du réseau de wikis.
- Quelques points d'entrée (wikis communs)
- Le wiki point d'accueil principal du réseau : Wicri/Wicri.
- le premier wiki régional : Wicri/Lorraine.
- le premier wiki thématique (autour de l'ingénierie de la connaissance pour les communautés de la recherche et de l'innovation : Wicri/Ticri.
- Apport ISTEX, distribution des règles de curation
Les règles de curation vont être distribuées (et contextualisées) dans l'ensemble du réseau. Par exemple :
- Sur le wiki Wicri/Musique : Liste de musicologues,
- Sur le wiki Wicri/Amérique : Liste de grandes universités américaines.
Quelques résultats
Pour voir quelques statistiques :
Plateformes de curation et d'exploration
Manipuler un ensemble de ressources hétérogènes
- Un exemple
- Sur le Serveur d'exploration sur la TEI, le flux ISTEX :
Un atelier flexible
On trouvera de nombreuses applications dans le réseau Wicri en utilisant (dans chaque wiki) la catégorie Serveur d'exploration.
Voici quelques exemples :
- Sur ce wiki :
- Sur Wicri/Terre : Serveur d'exploration sur l'europium.
- Sur Wicri/Linguistique : Serveur d'exploration sur la philologie
- Sur Wicri/Eau : Serveur d'exploration Lota lota (lotte de rivière).
- Sur Wicri/Luxembourg : Serveur d'exploration sur la visibilité du Luxembourg à la NLM.
Si les wikis jouent un rôle fondamental dans l'interface homme machine avec les corpus, les travaux de curation et d'exploration sont réalisés avec une bibliothèque de composants XML.
Pour un corpus donné, cette bibliothèque va notamment permettre de réaliser :
- un serveur d'exploration qui devrait être accessible à un public assez large mais averti.
- une plateforme de curation et d'exploration. Il s'agit d'un ensemble de serveurs intermédiaires destinés aux spécialistes.
Les serveurs d'exploration sont réalisés sur une machine Unix avec des composants logiciels écrits en langage C.
Les modules de navigation sont réalisés en php.
Ces modules sont intégrés dans la bibliothèque Dilib. Elle est principalement documentée sur le wiki Wicri/Outils.
Bilan
Utilisation en travaux dirigés
Dans le cadre des TD de l'Université de Lorraine en 2016.
- Le scalaire (poisson) - sur Wicri/Eau,
- L'oranger - sur Wicri/Bois et Wicri/Agronomie
- Le Libre accès en Belgique sur Wicri/Belgique, et sur ce wiki
- La visibilité du Havre sur Wicri/France et Wicri/Eau
- Le cobalt au Maghreb sur Wicri/Terre, Wicri/Maroc et Wicri/Afrique.
Dans le cadre des TD de l'Université Paris 8 en 2017.
- La maladie de Parkinson en France,
- La paléopathologie,
- Le nickel au Maghreb,
- L'Université de Trèves,
- L'esturgeon,
- La thérapie familiale en francophonie,
- Le renard,
- Système d'information stratégique et agriculture,
- le chêne en Belgique.
Un aspect essentiel : la curation des corpus
Chaque corpus pose des problèmes spécifiques en fonction du type de données, de sa volumétrie et du type de résultats attendus.
Quand les critères de sélection peuvent être précis les résultats peuvent être très intéressants.
- Sur le wiki Wicri/Santé, la revue Movement Disorders donne un résultat très intéressant où un corpus de 20.000 documents est transformé en une base de données de 10.000 documents et références bénéficiant d'une multiple indexation.
Malheureusement, nous avons rencontré de très nombreux exemples qui posent de sérieux problèmes.
- Un essai sur la méthode Scrum a montré un haut degré de pollution d'un corpus par un phénomène d'OCR (voir sur Wicri/Informatique le premier essai sur la méthode Scrum).
Attention aux pratiques documentaires diversifiées
Conclusion
Intérêts et limites d'un travail sans soutien institutionnel
Multiples retombées potentielles, notamment en formation
Une approche encyclopédique pour l'essentiel de la connaissance scientifique
Visite guidée
Dilib
L'origine de Dilib remonte en 1990 où l'INIST cherchait une solution pour manipuler facilement des formats MARC. En effet ce formalisme (ISO 2709) était utilisé pour la production des bases Pascal et Francis. Un exemple de notice Pascal, structurée en 2 niveaux, est visible dans l'exemple ci-dessous :
Ce type de structure ne se manipule pas facilement dans un SGBD relationnel. C'est pourquoi la norme SGML apparaissait pertinente dès cette époque. Une première bibliothèque nommée Ilib a alors été développée au sein de l'INIST. Elle était très spécialisée pour le traitement des notices Pascal.
Les travaux ont été ensuite poursuivis au Loria dans une approche qui anticipait la norme XML. Une nouvelle bibliothèque nommée Dilib a alors été développée avec une généralisation dans l'optique de traiter de grands volumes de documents de métadonnées d'origine quelconque.
Les travaux sur Dilib ont été repris par l'INIST en 2000 puis arrêtés en 2003.
Avec ISTEX, il faut manipuler de vastes corpus de documents plein texte avec des DTD très diverses. Ceci a donné l'occasion de reprendre les développements pour répondre à cette nouvelle classe de problèmes.
Par rapport à XML, le parser DILIB évolue pour traiter tous les types de documents offerts par ISTEX. Pour les traitements proprement dits, une recommandation nommée Sxml a été introduite. Pour en savoir plus, voir sur Wicri/Métadonnées les flux de documents Sxml.
Cela dit, compte tenu de l'absence de moyens institutionnels, le développement de Dilib est strictement opportuniste en fonction des besoins.
- Utilisabilité ISTEX
La bibliothèque est en open/source. Elle est donc utilisable par toute équipe voulant exploiter des données ISTEX. Encore faut-il qu'un minimum de suivi et de maintenance soit assuré.
Serveurs d'exploration
Listes d'index
Liens vers les serveurs : | Listes brutes
|
Curation des corpus
Enrichissmeent par dédoublonnage
Un processus itéraif
Curation des données
Généralités
Dans l'état actuel des développements, la curation de données concerne essentiellement celles qui sont relatives aux acteurs :
- auteurs,
- organisme d'affiliation,
- pays d'affiliation,
- région d'affiliation.
Les flux traités en priorité sont :
- Istex,
- Pascal et Francis
- PubMed et PubMed Central
- HAL
Des essais ont été menés sur
- HAL INRA
- ArXiv
- BHA
Pays par code ISO
Sur Wicri/Métadonnées :
- la table ISO 3166-1
Sur Wicri/Musique,
- un document avec un code ISO à 3 caractères (en zone A66)
- Sur HAL, un document qui contient de multiples mentions de code ISO à 3 caractères
Pays par listes de pays
Curation des régions, généralités
Les codes postaux
Les universités
Voir aussi
- Notes
- ↑ Visible dans les boîtes en fin de page.