CARIST (Nancy 2017) Ducloy : Différence entre versions
imported>Jacques Ducloy (→Infrastructure Wicri) |
imported>Jacques Ducloy (→Mediawiki) |
||
(46 révisions intermédiaires par le même utilisateur non affichées) | |||
Ligne 1 : | Ligne 1 : | ||
+ | {{Titre page article | ||
+ | |titre=L'excellence documentaire pour tous ? Chiche ! | ||
+ | }} | ||
{{Wicri travaux|texte=document en cours de finition | {{Wicri travaux|texte=document en cours de finition | ||
* Diapositives à jour, | * Diapositives à jour, | ||
Ligne 14 : | Ligne 17 : | ||
==Introduction== | ==Introduction== | ||
[[Fichier:CARIST 2017 Ducloy V3 Diapositive02.png|thumb|right|500px]] | [[Fichier:CARIST 2017 Ducloy V3 Diapositive02.png|thumb|right|500px]] | ||
+ | Le projet [[LorExplor]] s'attaque aux résolutions de problèmes éventuellement complexes menées dans un contexte de coopération (accompagnement) entre les spécialistes du domaine d'application et ceux du numérique. En pratique, deux cibles sont privilégiées : | ||
+ | ;Aide au pilotage stratégique: | ||
+ | * La réponse à des besoins d'exploration avec des contraintes de temps. Par exemple, dans le cadre d'une procédure de réponse à un appel à projets européens : quelles sont, par exemple, les principales équipes européennes avec lesquelles l'[[Université Lille 3]] pourrait s'allier sur une thématique portant sur les bibliothèques numériques. | ||
+ | * A côté de services très fortement concernés par ce type d'approche (relations internationales, partenariats, valorisation), toute équipe de recherche peut tirer parti de ce type d'approche une à deux fois par an. Une estimation du nombre d'interventions de ce type est comprise entre {{formatnum:50000}} à {{formatnum:150000}} par an. | ||
+ | ;Association site encyclopédique - formation: | ||
+ | * La constitution de sites encyclopédique de références, s'inscrivant sur du long terme. Par exemple, sur ce wiki, des portails sur différents sujets comme la [[Text Encoding Initiative]] ou l'[[OCR]]. | ||
+ | * Des projets éditoriaux dans le cadre de formations en Master ou en dernière année d'école d'ingénieur. Ils reposent sur des sessions d'une à deux semaines où un groupe d'étudiants rédige collectivement un dossier de synthèse sur un wiki sémantique en explorant des corpus. La même approche pour une thèse dans la phase d'étude de l'existant est plus conséquente (ordre de grandeur un mois). | ||
{{clr}} | {{clr}} | ||
===Une priorité, l'exploration des connaissances=== | ===Une priorité, l'exploration des connaissances=== | ||
Ligne 39 : | Ligne 49 : | ||
* Dans le réseau Wicri, | * Dans le réseau Wicri, | ||
** l'adaptation de la traduction française de la pièce de Pouchkine [[wicri-musique.fr:Mozart et Salieri (1830) Pouchkine|Mozart et Salieri]] demande de manipuler un outil de notation musicale ([[LilyPond]]). | ** l'adaptation de la traduction française de la pièce de Pouchkine [[wicri-musique.fr:Mozart et Salieri (1830) Pouchkine|Mozart et Salieri]] demande de manipuler un outil de notation musicale ([[LilyPond]]). | ||
− | ** elle est intégrée dans un [wicri-musique.fr: | + | ** elle est intégrée dans un [[wicri-musique.fr:Wolfgang Amadeus Mozart|dossier Mozart]] qui donne accès à [[wicri-musique.fr:Serveur d'exploration sur Mozart|environ {{formatnum:15000}} documents]] (en majorité ISTEX). |
;Aspects techniques concernant MediaWiki: | ;Aspects techniques concernant MediaWiki: | ||
La solution MediaWiki est puissante mais son utilisation avancée demande un dispositif d'accompagnement. Sur un plan informatique il faut un soutien logistique relativement léger en termes de temps d'intervention mais possédant une solide expertise technique. Au niveau des pratiques, elle demande une stratégie de formation et d'accompagnement des contributeurs. | La solution MediaWiki est puissante mais son utilisation avancée demande un dispositif d'accompagnement. Sur un plan informatique il faut un soutien logistique relativement léger en termes de temps d'intervention mais possédant une solide expertise technique. Au niveau des pratiques, elle demande une stratégie de formation et d'accompagnement des contributeurs. | ||
{{clr}} | {{clr}} | ||
+ | |||
+ | ===Semantic MediaWiki=== | ||
[[Fichier:CARIST 2017 Ducloy Diapositive06.png|thumb|right|500px]] | [[Fichier:CARIST 2017 Ducloy Diapositive06.png|thumb|right|500px]] | ||
+ | La souche MediaWiki est déjà très riche par ses mécanismes d'indexation et l'utilisation de modèles. Cette page contient d'ailleurs un grand nombre d'appels de modèles, visualisables par l'onglet « [http://ticri.univ-lorraine.fr/wicri-musique.fr/index.php?title=S%C3%A9minaire_technique_ISTEX_illustr%C3%A9_par_Mozart&action=edit modifier ou voir le texte source] ». | ||
+ | |||
+ | Par rapport à Wikipédia le réseau Wicri utilise une extension développée par l'Université de Karlsruhe : [[Semantic MediaWiki]]. | ||
+ | |||
+ | De nombreux exemples d'utilisation sont disponibles. | ||
+ | * Sur Wicri/Musique, la page sur [[wicri-musique.fr:Lorenzo da Ponte|Lorenzo da Ponte]] qui est utilisé comme exemple sur la diapositive ci-jointe. | ||
+ | * sur ce wiki, la page [[Serveur d'exploration]] qui exploite les données numériques sur les corpus. | ||
+ | * sur ce wiki, les pages relatives aux colloques CIDE avec la sémantisation des auteurs et comités de programme (voir par exemple [[CIDE 2016 Athènes]]). | ||
{{clr}} | {{clr}} | ||
+ | |||
+ | ===Le réseau Wicri=== | ||
[[Fichier:CARIST 2017 Ducloy Diapositive07.png|thumb|right|500px]] | [[Fichier:CARIST 2017 Ducloy Diapositive07.png|thumb|right|500px]] | ||
+ | ;Un même sujet peut être traité de façon différente sur différents wikis. | ||
+ | Exemple, pour le même article, on peut constater des différences significatives de l'indexation sémantique <ref>Visible dans les boîtes en fin de page.</ref> : | ||
+ | * Sur ce wiki : [[Alain Bonardi]], [[ticri-cide.fr:CIDE (2007) Bonardi|CIDE (2007) Bonardi]]. | ||
+ | * Sur le wiki Wicri/Musique : [[wicri-musique.fr:CIDE (2007) Bonardi|Le patch comme document numérique : support de création et de constitution de connaissances]] | ||
+ | |||
+ | ;Pour se repérer dans le réseau: | ||
+ | Le réseau Wicri est un démonstrateur qui contient de nombreuses expérimentations en cours de montage. Mais il ne dispose pas de forces éditoriales et la navigation n'est pas toujours évidente. Voici quelques éléments simples : | ||
+ | * sur un wiki, de façon classique le logo en haut à gauche pointe vers la page d'accueil. | ||
+ | * l'[[CIDE:Accueil|onglet communauté]] permet également de s'orienter au sein du réseau de wikis. | ||
+ | ;Quelques points d'entrée (wikis communs) : | ||
+ | * Le wiki point d'accueil principal du réseau : [[wicri.fr:Accueil|Wicri/Wicri]]. | ||
+ | * le premier wiki régional : [[wicri-lor.fr:Accueil|Wicri/Lorraine]]. | ||
+ | * le premier wiki thématique (autour de l'ingénierie de la connaissance pour les communautés de la recherche et de l'innovation : [[ticri.fr:Accueil|Wicri/Ticri]]. | ||
+ | ;Apport ISTEX, distribution des règles de curation: | ||
+ | Les règles de curation vont être distribuées (et contextualisées) dans l'ensemble du réseau. Par exemple : | ||
+ | * Sur le wiki Wicri/Musique : [[wicri-musique.fr:Wicri:Liste de musicologues|Liste de musicologues]], | ||
+ | * Sur le wiki Wicri/Amérique : [[wicri-amerique.fr:Wicri:Liste de grandes universités américaines|Liste de grandes universités américaines]]. | ||
{{clr}} | {{clr}} | ||
+ | ===Quelques résultats=== | ||
[[Fichier:CARIST 2017 Ducloy Diapositive08.png|thumb|right|500px]] | [[Fichier:CARIST 2017 Ducloy Diapositive08.png|thumb|right|500px]] | ||
+ | Pour voir quelques statistiques : | ||
+ | * [[wicri.fr:Wicri Wicri:Statistiques janvier 2017]] | ||
{{clr}} | {{clr}} | ||
==Plateformes de curation et d'exploration== | ==Plateformes de curation et d'exploration== | ||
− | [[Fichier:CARIST 2017 Ducloy Diapositive09.png|thumb|right| | + | ===Manipuler un ensemble de ressources hétérogènes=== |
+ | [[Fichier:CARIST 2017 Ducloy Diapositive09.png|thumb|right|490px]] | ||
+ | ;Un exemple: Sur le [[Serveur d'exploration sur la TEI]], le flux ISTEX : | ||
+ | {{Explor bandeau flux|type=IstexMulti|code=Istex|path=TeiVM2}} | ||
{{clr}} | {{clr}} | ||
− | [[Fichier:CARIST 2017 Ducloy Diapositive10.png|thumb|right| | + | ===Un atelier flexible=== |
+ | [[Fichier:CARIST 2017 Ducloy Diapositive10.png|thumb|right|490px]] | ||
+ | On trouvera de nombreuses applications dans le réseau Wicri en utilisant (dans chaque wiki) la catégorie [[:Catégorie:Serveur d'exploration|Serveur d'exploration]]. | ||
+ | |||
+ | Voici quelques exemples : | ||
+ | * Sur ce wiki : | ||
+ | ** [[Serveur d'exploration sur la TEI]], | ||
+ | ** [[Épistémè|Serveur d'exploration Épistémè]], | ||
+ | ** [[Cyberinfrastructure|Serveur d'exploration Cyberinfrastructure]], | ||
+ | ** [[Serveur d'exploration sur l'OCR]]... | ||
+ | * Sur Wicri/Terre : [[wicri-terre.fr:Serveur d'exploration sur l'europium|Serveur d'exploration sur l'europium]]. | ||
+ | * Sur Wicri/Linguistique : [[wicri-linguistique.fr:Serveur d'exploration sur la philologie|Serveur d'exploration sur la philologie]] | ||
+ | * Sur Wicri/Eau : [[wicri-eau.fr:Serveur d'exploration Lota lota|Serveur d'exploration Lota lota]] (lotte de rivière). | ||
+ | * Sur Wicri/Luxembourg : [[wicri-lux.fr:Serveur d'exploration sur la visibilité du Luxembourg à la NLM|Serveur d'exploration sur la visibilité du Luxembourg à la NLM]]. | ||
+ | |||
+ | Si les wikis jouent un rôle fondamental dans l'interface homme machine avec les corpus, les travaux de curation et d'exploration sont réalisés avec une bibliothèque de composants XML. | ||
+ | |||
+ | Pour un corpus donné, cette bibliothèque va notamment permettre de réaliser : | ||
+ | * un [[serveur d'exploration]] qui devrait être accessible à un public assez large mais averti. | ||
+ | * une [[plateforme de curation et d'exploration]]. Il s'agit d'un ensemble de serveurs intermédiaires destinés aux spécialistes. | ||
+ | Les serveurs d'exploration sont réalisés sur une machine Unix avec des composants logiciels écrits en langage C. | ||
+ | |||
+ | Les modules de navigation sont réalisés en php. | ||
+ | [[File:LogoDilib.gif|180px|left]] | ||
+ | Ces modules sont intégrés dans la [[bibliothèque Dilib]]. Elle est principalement documentée sur le wiki [[wicri-outils.fr:Bibliothèque Dilib|Wicri/Outils]]. | ||
+ | |||
{{clr}} | {{clr}} | ||
+ | |||
==Bilan== | ==Bilan== | ||
+ | ===Utilisation en travaux dirigés=== | ||
[[Fichier:CARIST 2017 Ducloy Diapositive03.png|thumb|right|500px]] | [[Fichier:CARIST 2017 Ducloy Diapositive03.png|thumb|right|500px]] | ||
Dans le cadre des [[TD Master 2 Documentation numérique (Université de Lorraine 2016)|TD de l'Université de Lorraine en 2016]]. | Dans le cadre des [[TD Master 2 Documentation numérique (Université de Lorraine 2016)|TD de l'Université de Lorraine en 2016]]. | ||
Ligne 74 : | Ligne 146 : | ||
* [[wicri-bois.fr:Serveur d'exploration sur le chêne en Belgique|le chêne en Belgique]]. | * [[wicri-bois.fr:Serveur d'exploration sur le chêne en Belgique|le chêne en Belgique]]. | ||
{{clr}} | {{clr}} | ||
+ | ===Un aspect essentiel : la curation des corpus=== | ||
[[Fichier:CARIST 2017 Ducloy Diapositive18.png|thumb|right|505px]] | [[Fichier:CARIST 2017 Ducloy Diapositive18.png|thumb|right|505px]] | ||
+ | Chaque corpus pose des problèmes spécifiques en fonction du type de données, de sa volumétrie et du type de résultats attendus. | ||
+ | |||
+ | Quand les critères de sélection peuvent être précis les résultats peuvent être très intéressants. | ||
+ | *Sur le wiki Wicri/Santé, la revue [[wicri-sante.fr:Movement Disorders (revue)|Movement Disorders]] donne un résultat très intéressant où un corpus de 20.000 documents est transformé en une base de données de 10.000 documents et références bénéficiant d'une multiple indexation. | ||
+ | |||
+ | Malheureusement, nous avons rencontré de très nombreux exemples qui posent de sérieux problèmes. | ||
+ | * Un essai sur la méthode Scrum a montré un haut degré de pollution d'un corpus par un phénomène d'OCR (voir sur Wicri/Informatique [[wicri-informatique.fr:Serveur d'exploration sur la méthode scrum (premier essai)|le premier essai sur la méthode Scrum]]). | ||
{{clr}} | {{clr}} | ||
+ | ===Attention aux pratiques documentaires diversifiées=== | ||
[[Fichier:CARIST 2017 Ducloy V4 Diapositive12.png|thumb|right|505px]] | [[Fichier:CARIST 2017 Ducloy V4 Diapositive12.png|thumb|right|505px]] | ||
{{clr}} | {{clr}} | ||
==Conclusion== | ==Conclusion== | ||
+ | ===Intérêts et limites d'un travail sans soutien institutionnel=== | ||
[[Fichier:CARIST 2017 Ducloy Diapositive25.png|thumb|right|505px]] | [[Fichier:CARIST 2017 Ducloy Diapositive25.png|thumb|right|505px]] | ||
{{clr}} | {{clr}} | ||
+ | ===Multiples retombées potentielles, notamment en formation=== | ||
[[Fichier:CARIST 2017 Ducloy Diapositive26.png|thumb|right|505px]] | [[Fichier:CARIST 2017 Ducloy Diapositive26.png|thumb|right|505px]] | ||
{{clr}} | {{clr}} | ||
+ | ===Une approche encyclopédique pour l'essentiel de la connaissance scientifique=== | ||
[[Fichier:CARIST 2017 Ducloy V4 Diapositive15.png|thumb|right|505px]] | [[Fichier:CARIST 2017 Ducloy V4 Diapositive15.png|thumb|right|505px]] | ||
{{clr}} | {{clr}} | ||
Ligne 92 : | Ligne 176 : | ||
===Dilib=== | ===Dilib=== | ||
[[Fichier:CARIST 2017 Ducloy Diapositive11.png|thumb|right|500px]] | [[Fichier:CARIST 2017 Ducloy Diapositive11.png|thumb|right|500px]] | ||
+ | L'origine de Dilib remonte en 1990 où l'INIST cherchait une solution pour manipuler facilement des formats MARC. En effet ce formalisme (ISO 2709) était utilisé pour la production des bases Pascal et Francis. Un exemple de notice Pascal, structurée en 2 niveaux, est visible dans l'exemple ci-dessous : | ||
+ | * {{Explor lien | ||
+ | |wiki= Wicri/Musique | ||
+ | |area= MozartV1 | ||
+ | |flux= PascalFrancis | ||
+ | |étape= Corpus | ||
+ | |type= RBID | ||
+ | |clé= Francis:09-0293711 | ||
+ | |texte= La fin de Don Giovanni : L'entrée en scène du libertin chez Mozart et Stravinsky | ||
+ | }} | ||
+ | Ce type de structure ne se manipule pas facilement dans un SGBD relationnel. C'est pourquoi la norme SGML apparaissait pertinente dès cette époque. Une première bibliothèque nommée Ilib a alors été développée au sein de l'INIST. Elle était très spécialisée pour le traitement des notices Pascal. | ||
+ | |||
+ | Les travaux ont été ensuite poursuivis au Loria dans une approche qui anticipait la norme XML. Une nouvelle bibliothèque nommée Dilib a alors été développée avec une généralisation dans l'optique de traiter de grands volumes de documents de métadonnées d'origine quelconque. | ||
+ | |||
+ | Les travaux sur Dilib ont été repris par l'INIST en 2000 puis arrêtés en 2003. | ||
+ | |||
+ | Avec ISTEX, il faut manipuler de vastes corpus de documents plein texte avec des DTD très diverses. Ceci a donné l'occasion de reprendre les développements pour répondre à cette nouvelle classe de problèmes. | ||
+ | |||
+ | Par rapport à XML, le parser DILIB évolue pour traiter tous les types de documents offerts par ISTEX. Pour les traitements proprement dits, une recommandation nommée Sxml a été introduite. Pour en savoir plus, voir [[wicri-meta.fr:Dilib, flots de données Sxml|sur Wicri/Métadonnées les flux de documents Sxml]]. | ||
+ | |||
+ | Cela dit, compte tenu de l'absence de moyens institutionnels, le développement de Dilib est strictement opportuniste en fonction des besoins. | ||
+ | ;Utilisabilité ISTEX: | ||
+ | La bibliothèque est en open/source. Elle est donc utilisable par toute équipe voulant exploiter des données ISTEX. Encore faut-il qu'un minimum de suivi et de maintenance soit assuré. | ||
{{clr}} | {{clr}} | ||
+ | |||
===Serveurs d'exploration=== | ===Serveurs d'exploration=== | ||
+ | ====Listes d'index==== | ||
[[Fichier:CARIST 2017 Ducloy Diapositive12.png|thumb|right|500px]] | [[Fichier:CARIST 2017 Ducloy Diapositive12.png|thumb|right|500px]] | ||
+ | {| class="wikitable" | ||
+ | |- | ||
+ | |Liens vers les serveurs : | ||
+ | * {{Explor lien | ||
+ | |wiki= Wicri/Ticri | ||
+ | |area= TeiVM2 | ||
+ | |url=Main/Exploration/indexHead.php?index=Author.i | ||
+ | |texte=index auteur sur la TEI}} | ||
+ | * {{Explor lien | ||
+ | |wiki= Wicri/Ticri | ||
+ | |area= OcrV1 | ||
+ | |url=Main/Exploration/indexHead.php?index=Author.i | ||
+ | |texte=index auteur sur l'OCR}} | ||
+ | * {{Explor lien | ||
+ | |wiki= Wicri/Ticri | ||
+ | |area= CyberinfraV1 | ||
+ | |url=Main/Exploration/indexHead.php?index=Author.i | ||
+ | |texte=index auteur sur la Cyberinfrastructure}} | ||
+ | |Listes brutes | ||
+ | :un exemple sur les régions du serveur Cyberinfrastructure | ||
+ | {{CyberinfraV1, include|section=region}} | ||
+ | |- | ||
+ | |} | ||
{{clr}} | {{clr}} | ||
+ | ===Association entre patronyme et affiliation brute=== | ||
[[Fichier:CARIST 2017 Ducloy Diapositive13.png|thumb|right|500px]] | [[Fichier:CARIST 2017 Ducloy Diapositive13.png|thumb|right|500px]] | ||
+ | Un index s'est avéré très intéressant à l'usage. Il combine les noms d'auteurs avec l'initiale de leur premier prénom et leurs différentes affiliations. | ||
{{clr}} | {{clr}} | ||
+ | ===Outils de visualisation=== | ||
[[Fichier:CARIST 2017 Ducloy Diapositive14.png|thumb|right|500px]] | [[Fichier:CARIST 2017 Ducloy Diapositive14.png|thumb|right|500px]] | ||
{{clr}} | {{clr}} | ||
+ | ===Filtrage sur plein texte=== | ||
[[Fichier:CARIST 2017 Ducloy Diapositive16.png|thumb|right|500px]] | [[Fichier:CARIST 2017 Ducloy Diapositive16.png|thumb|right|500px]] | ||
+ | La bibliothèque Dilib (ou d'autres boîtes à outils XML) peuvent être utilisées pour réaliser des filtrages sur plein texte, notamment dans la phase de curation (après curation). | ||
+ | |||
+ | |||
{{clr}} | {{clr}} | ||
==Curation des corpus== | ==Curation des corpus== | ||
+ | ===Enrichissement par dédoublonnage=== | ||
[[Fichier:CARIST 2017 Ducloy Diapositive15.png|thumb|right|500px]] | [[Fichier:CARIST 2017 Ducloy Diapositive15.png|thumb|right|500px]] | ||
+ | ;Retour sur un exemple : | ||
+ | |||
+ | *Sur le wiki Wicri/Santé, la revue [[wicri-sante.fr:Movement Disorders (revue)|Movement Disorders]] donne un résultat très intéressant où un corpus de 20.000 documents est transformé en une base de données de 10.000 documents et références bénéficiant d'une multiple indexation. | ||
+ | |||
{{clr}} | {{clr}} | ||
+ | |||
+ | ===Un processus itératif=== | ||
[[Fichier:CARIST 2017 Ducloy Diapositive17.png|thumb|right|500px]] | [[Fichier:CARIST 2017 Ducloy Diapositive17.png|thumb|right|500px]] | ||
+ | Sur le wiki Wicri/Bois le [[wicri-bois.fr:Serveur d'exploration sur le renard|Serveur d'exploration sur le renard]] montre un exemple de dispositif de suivi des itérations. | ||
+ | |||
+ | La [[wicri-bois.fr:Discussion:Serveur d'exploration sur le renard|page de discussion de ce serveur]] donne des éléments de comparaison, entre la version initiale (sans curation) et le résultat de la dernière génération. | ||
{{clr}} | {{clr}} | ||
− | ==Curation des données== | + | ===Curation des données=== |
+ | ====Généralités==== | ||
[[Fichier:CARIST 2017 Ducloy Diapositive19.png|thumb|right|500px]] | [[Fichier:CARIST 2017 Ducloy Diapositive19.png|thumb|right|500px]] | ||
+ | Dans l'état actuel des développements, la curation de données concerne essentiellement celles qui sont relatives aux acteurs : | ||
+ | * auteurs, | ||
+ | * organisme d'affiliation, | ||
+ | * pays d'affiliation, | ||
+ | * région d'affiliation. | ||
+ | Les flux traités en priorité sont : | ||
+ | * Istex, | ||
+ | * Pascal et Francis | ||
+ | * PubMed et PubMed Central | ||
+ | * HAL | ||
+ | Des essais ont été menés sur | ||
+ | * HAL INRA | ||
+ | * ArXiv | ||
+ | * BHA | ||
{{clr}} | {{clr}} | ||
+ | ====Pays par code ISO==== | ||
[[Fichier:CARIST 2017 Ducloy Diapositive20.png|thumb|right|500px]] | [[Fichier:CARIST 2017 Ducloy Diapositive20.png|thumb|right|500px]] | ||
+ | Sur Wicri/Métadonnées : | ||
+ | * la table [[wicri-meta.fr:ISO 3166-1|ISO 3166-1]] | ||
+ | Sur Wicri/Musique, | ||
+ | * un document avec un code ISO à 3 caractères (en zone A66) | ||
+ | ** {{Explor lien | ||
+ | |wiki= Wicri/Musique | ||
+ | |area= MozartV1 | ||
+ | |flux= PascalFrancis | ||
+ | |étape= Corpus | ||
+ | |type= RBID | ||
+ | |clé= Francis:12-0074803 | ||
+ | |texte= Chuck Tilly and Mozart | ||
+ | }} | ||
+ | * Sur HAL, un document qui contient de multiples mentions de code ISO à 3 caractères | ||
+ | **{{Explor lien | ||
+ | |wiki= Wicri/Musique | ||
+ | |area= MozartV1 | ||
+ | |flux= Hal | ||
+ | |étape= Checkpoint | ||
+ | |type= RBID | ||
+ | |clé= Hal:hal-00452711 | ||
+ | |texte= Description and evaluation of the Model for Ozone and Related chemical Tracers, version 4 (MOZART-4) | ||
+ | }} | ||
+ | |||
{{clr}} | {{clr}} | ||
+ | ====Pays par listes de pays==== | ||
[[Fichier:CARIST 2017 Ducloy Diapositive21.png|thumb|right|500px]] | [[Fichier:CARIST 2017 Ducloy Diapositive21.png|thumb|right|500px]] | ||
{{clr}} | {{clr}} | ||
+ | ====Curation des régions, généralités==== | ||
[[Fichier:CARIST 2017 Ducloy Diapositive22.png|thumb|right|500px]] | [[Fichier:CARIST 2017 Ducloy Diapositive22.png|thumb|right|500px]] | ||
{{clr}} | {{clr}} | ||
+ | ====Les codes postaux==== | ||
[[Fichier:CARIST 2017 Ducloy Diapositive23.png|thumb|right|500px]] | [[Fichier:CARIST 2017 Ducloy Diapositive23.png|thumb|right|500px]] | ||
{{clr}} | {{clr}} | ||
+ | ====Les universités==== | ||
[[Fichier:CARIST 2017 Ducloy Diapositive24.png|thumb|right|500px]] | [[Fichier:CARIST 2017 Ducloy Diapositive24.png|thumb|right|500px]] | ||
{{clr}} | {{clr}} | ||
+ | |||
+ | ==Voir aussi== | ||
+ | ;Notes: | ||
+ | <references/> |
Version actuelle datée du 7 mai 2017 à 14:19
L'excellence documentaire pour tous ? Chiche !
Nous présentons les résultats du projet LorExplor. Il est destiné à l'analyse des besoins des chercheurs et partenaires de la recherche en matière d'exploration de corpus à des fins stratégiques. Il utilise la synergie de deux types de technologies : un réseau de wikis sémantiques et l'ingénierie XML. Il débouche sur un démonstrateur, prototype d'une infrastructure pour explorer la connaissance scientifique ou technique. Nous discuterons de ses retombées dans la perspective d'une « excellence documentaire pour tous ».
Pour accéder aux diapositives
Sommaire
Introduction
Le projet LorExplor s'attaque aux résolutions de problèmes éventuellement complexes menées dans un contexte de coopération (accompagnement) entre les spécialistes du domaine d'application et ceux du numérique. En pratique, deux cibles sont privilégiées :
- Aide au pilotage stratégique
- La réponse à des besoins d'exploration avec des contraintes de temps. Par exemple, dans le cadre d'une procédure de réponse à un appel à projets européens : quelles sont, par exemple, les principales équipes européennes avec lesquelles l'Université Lille 3 pourrait s'allier sur une thématique portant sur les bibliothèques numériques.
- A côté de services très fortement concernés par ce type d'approche (relations internationales, partenariats, valorisation), toute équipe de recherche peut tirer parti de ce type d'approche une à deux fois par an. Une estimation du nombre d'interventions de ce type est comprise entre 50 000 à 150 000 par an.
- Association site encyclopédique - formation
- La constitution de sites encyclopédique de références, s'inscrivant sur du long terme. Par exemple, sur ce wiki, des portails sur différents sujets comme la Text Encoding Initiative ou l'OCR.
- Des projets éditoriaux dans le cadre de formations en Master ou en dernière année d'école d'ingénieur. Ils reposent sur des sessions d'une à deux semaines où un groupe d'étudiants rédige collectivement un dossier de synthèse sur un wiki sémantique en explorant des corpus. La même approche pour une thèse dans la phase d'étude de l'existant est plus conséquente (ordre de grandeur un mois).
Une priorité, l'exploration des connaissances
- Recherche
- On sait qu'une information existe, mais on a perdu le chemin pour y accéder.
- Exploration
- On recherche des informations que l'on ne connait pas :
- Quelle est l’œuvre de Mozart la plus citée ?
- Sur Wicri/Musique Sonate pour deux pianos (Mozart)
Pour la plus ancienne référence à l'hypertexte voir sur le wiki Ticri/H2PTM :
- Recherche débouchant sur des explorations
- Où trouver une explication compréhensible sur la relation entre les 8 tons de l'office (magnificats de la Renaissance) et les tonalités classiques (Do majeur...) ?
Infrastructure Wicri
Mediawiki
La nature de l'information, culturelle ou scientifique, amène de fortes contraintes éditoriales. La page Aussois, sur le wiki Wicri/France, donne un exemple d'introduction. Le début utilise « de façon classique » les outils et pratiques de Wikipédia. La fin de la page a été réalisée avec les techniques présentées ici.
- Exemples plus significatifs
- Sur ce wiki :
- cette présentation pour lee journées CARIST est enrichie par un ensemble de démonstrations, avec notamment des liens vers des serveurs d'exploration dont le contenu évolue dans le temps.
- Dans le réseau Wicri,
- l'adaptation de la traduction française de la pièce de Pouchkine Mozart et Salieri demande de manipuler un outil de notation musicale (LilyPond).
- elle est intégrée dans un dossier Mozart qui donne accès à environ 15 000 documents (en majorité ISTEX).
- Aspects techniques concernant MediaWiki
La solution MediaWiki est puissante mais son utilisation avancée demande un dispositif d'accompagnement. Sur un plan informatique il faut un soutien logistique relativement léger en termes de temps d'intervention mais possédant une solide expertise technique. Au niveau des pratiques, elle demande une stratégie de formation et d'accompagnement des contributeurs.
Semantic MediaWiki
La souche MediaWiki est déjà très riche par ses mécanismes d'indexation et l'utilisation de modèles. Cette page contient d'ailleurs un grand nombre d'appels de modèles, visualisables par l'onglet « modifier ou voir le texte source ».
Par rapport à Wikipédia le réseau Wicri utilise une extension développée par l'Université de Karlsruhe : Semantic MediaWiki.
De nombreux exemples d'utilisation sont disponibles.
- Sur Wicri/Musique, la page sur Lorenzo da Ponte qui est utilisé comme exemple sur la diapositive ci-jointe.
- sur ce wiki, la page Serveur d'exploration qui exploite les données numériques sur les corpus.
- sur ce wiki, les pages relatives aux colloques CIDE avec la sémantisation des auteurs et comités de programme (voir par exemple CIDE 2016 Athènes).
Le réseau Wicri
- Un même sujet peut être traité de façon différente sur différents wikis.
Exemple, pour le même article, on peut constater des différences significatives de l'indexation sémantique [1] :
- Sur ce wiki : Alain Bonardi, CIDE (2007) Bonardi.
- Sur le wiki Wicri/Musique : Le patch comme document numérique : support de création et de constitution de connaissances
- Pour se repérer dans le réseau
Le réseau Wicri est un démonstrateur qui contient de nombreuses expérimentations en cours de montage. Mais il ne dispose pas de forces éditoriales et la navigation n'est pas toujours évidente. Voici quelques éléments simples :
- sur un wiki, de façon classique le logo en haut à gauche pointe vers la page d'accueil.
- l'onglet communauté permet également de s'orienter au sein du réseau de wikis.
- Quelques points d'entrée (wikis communs)
- Le wiki point d'accueil principal du réseau : Wicri/Wicri.
- le premier wiki régional : Wicri/Lorraine.
- le premier wiki thématique (autour de l'ingénierie de la connaissance pour les communautés de la recherche et de l'innovation : Wicri/Ticri.
- Apport ISTEX, distribution des règles de curation
Les règles de curation vont être distribuées (et contextualisées) dans l'ensemble du réseau. Par exemple :
- Sur le wiki Wicri/Musique : Liste de musicologues,
- Sur le wiki Wicri/Amérique : Liste de grandes universités américaines.
Quelques résultats
Pour voir quelques statistiques :
Plateformes de curation et d'exploration
Manipuler un ensemble de ressources hétérogènes
- Un exemple
- Sur le Serveur d'exploration sur la TEI, le flux ISTEX :
Un atelier flexible
On trouvera de nombreuses applications dans le réseau Wicri en utilisant (dans chaque wiki) la catégorie Serveur d'exploration.
Voici quelques exemples :
- Sur ce wiki :
- Sur Wicri/Terre : Serveur d'exploration sur l'europium.
- Sur Wicri/Linguistique : Serveur d'exploration sur la philologie
- Sur Wicri/Eau : Serveur d'exploration Lota lota (lotte de rivière).
- Sur Wicri/Luxembourg : Serveur d'exploration sur la visibilité du Luxembourg à la NLM.
Si les wikis jouent un rôle fondamental dans l'interface homme machine avec les corpus, les travaux de curation et d'exploration sont réalisés avec une bibliothèque de composants XML.
Pour un corpus donné, cette bibliothèque va notamment permettre de réaliser :
- un serveur d'exploration qui devrait être accessible à un public assez large mais averti.
- une plateforme de curation et d'exploration. Il s'agit d'un ensemble de serveurs intermédiaires destinés aux spécialistes.
Les serveurs d'exploration sont réalisés sur une machine Unix avec des composants logiciels écrits en langage C.
Les modules de navigation sont réalisés en php.
Ces modules sont intégrés dans la bibliothèque Dilib. Elle est principalement documentée sur le wiki Wicri/Outils.
Bilan
Utilisation en travaux dirigés
Dans le cadre des TD de l'Université de Lorraine en 2016.
- Le scalaire (poisson) - sur Wicri/Eau,
- L'oranger - sur Wicri/Bois et Wicri/Agronomie
- Le Libre accès en Belgique sur Wicri/Belgique, et sur ce wiki
- La visibilité du Havre sur Wicri/France et Wicri/Eau
- Le cobalt au Maghreb sur Wicri/Terre, Wicri/Maroc et Wicri/Afrique.
Dans le cadre des TD de l'Université Paris 8 en 2017.
- La maladie de Parkinson en France,
- La paléopathologie,
- Le nickel au Maghreb,
- L'Université de Trèves,
- L'esturgeon,
- La thérapie familiale en francophonie,
- Le renard,
- Système d'information stratégique et agriculture,
- le chêne en Belgique.
Un aspect essentiel : la curation des corpus
Chaque corpus pose des problèmes spécifiques en fonction du type de données, de sa volumétrie et du type de résultats attendus.
Quand les critères de sélection peuvent être précis les résultats peuvent être très intéressants.
- Sur le wiki Wicri/Santé, la revue Movement Disorders donne un résultat très intéressant où un corpus de 20.000 documents est transformé en une base de données de 10.000 documents et références bénéficiant d'une multiple indexation.
Malheureusement, nous avons rencontré de très nombreux exemples qui posent de sérieux problèmes.
- Un essai sur la méthode Scrum a montré un haut degré de pollution d'un corpus par un phénomène d'OCR (voir sur Wicri/Informatique le premier essai sur la méthode Scrum).
Attention aux pratiques documentaires diversifiées
Conclusion
Intérêts et limites d'un travail sans soutien institutionnel
Multiples retombées potentielles, notamment en formation
Une approche encyclopédique pour l'essentiel de la connaissance scientifique
Visite guidée
Dilib
L'origine de Dilib remonte en 1990 où l'INIST cherchait une solution pour manipuler facilement des formats MARC. En effet ce formalisme (ISO 2709) était utilisé pour la production des bases Pascal et Francis. Un exemple de notice Pascal, structurée en 2 niveaux, est visible dans l'exemple ci-dessous :
Ce type de structure ne se manipule pas facilement dans un SGBD relationnel. C'est pourquoi la norme SGML apparaissait pertinente dès cette époque. Une première bibliothèque nommée Ilib a alors été développée au sein de l'INIST. Elle était très spécialisée pour le traitement des notices Pascal.
Les travaux ont été ensuite poursuivis au Loria dans une approche qui anticipait la norme XML. Une nouvelle bibliothèque nommée Dilib a alors été développée avec une généralisation dans l'optique de traiter de grands volumes de documents de métadonnées d'origine quelconque.
Les travaux sur Dilib ont été repris par l'INIST en 2000 puis arrêtés en 2003.
Avec ISTEX, il faut manipuler de vastes corpus de documents plein texte avec des DTD très diverses. Ceci a donné l'occasion de reprendre les développements pour répondre à cette nouvelle classe de problèmes.
Par rapport à XML, le parser DILIB évolue pour traiter tous les types de documents offerts par ISTEX. Pour les traitements proprement dits, une recommandation nommée Sxml a été introduite. Pour en savoir plus, voir sur Wicri/Métadonnées les flux de documents Sxml.
Cela dit, compte tenu de l'absence de moyens institutionnels, le développement de Dilib est strictement opportuniste en fonction des besoins.
- Utilisabilité ISTEX
La bibliothèque est en open/source. Elle est donc utilisable par toute équipe voulant exploiter des données ISTEX. Encore faut-il qu'un minimum de suivi et de maintenance soit assuré.
Serveurs d'exploration
Listes d'index
Liens vers les serveurs : | Listes brutes
|
Association entre patronyme et affiliation brute
Un index s'est avéré très intéressant à l'usage. Il combine les noms d'auteurs avec l'initiale de leur premier prénom et leurs différentes affiliations.
Outils de visualisation
Filtrage sur plein texte
La bibliothèque Dilib (ou d'autres boîtes à outils XML) peuvent être utilisées pour réaliser des filtrages sur plein texte, notamment dans la phase de curation (après curation).
Curation des corpus
Enrichissement par dédoublonnage
- Retour sur un exemple
- Sur le wiki Wicri/Santé, la revue Movement Disorders donne un résultat très intéressant où un corpus de 20.000 documents est transformé en une base de données de 10.000 documents et références bénéficiant d'une multiple indexation.
Un processus itératif
Sur le wiki Wicri/Bois le Serveur d'exploration sur le renard montre un exemple de dispositif de suivi des itérations.
La page de discussion de ce serveur donne des éléments de comparaison, entre la version initiale (sans curation) et le résultat de la dernière génération.
Curation des données
Généralités
Dans l'état actuel des développements, la curation de données concerne essentiellement celles qui sont relatives aux acteurs :
- auteurs,
- organisme d'affiliation,
- pays d'affiliation,
- région d'affiliation.
Les flux traités en priorité sont :
- Istex,
- Pascal et Francis
- PubMed et PubMed Central
- HAL
Des essais ont été menés sur
- HAL INRA
- ArXiv
- BHA
Pays par code ISO
Sur Wicri/Métadonnées :
- la table ISO 3166-1
Sur Wicri/Musique,
- un document avec un code ISO à 3 caractères (en zone A66)
- Sur HAL, un document qui contient de multiples mentions de code ISO à 3 caractères
Pays par listes de pays
Curation des régions, généralités
Les codes postaux
Les universités
Voir aussi
- Notes
- ↑ Visible dans les boîtes en fin de page.