Nuvola apps important.png Attention, suite à une faille de sécurité, les liens vers les serveurs d'exploration sont désactivés.

Ingénierie des systèmes d'information (2019) Ducloy : Différence entre versions

De Wicri SIC
imported>Jacques Ducloy
(Wicri, une architecture de bibliothèque numérique basée sur une encyclopédie)
imported>Jacques Ducloy
(Notes et remerciements)
Ligne 96 : Ligne 96 :
 
{{Fin corps article/Petit}}
 
{{Fin corps article/Petit}}
 
{{Fin corps article}}
 
{{Fin corps article}}
 +
==Bibliographie==
 +
{{Corps article/Début}}
 +
{{Corps article/Fin}}
  
 
==Voir aussi==
 
==Voir aussi==

Version du 4 janvier 2020 à 19:34

Systèmes d’information encyclopédiques édités par les scientifiques

Partager le savoir pour l’excellence documentaire et scientifique


 
 

Titre
Systèmes d’information encyclopédiques édités par les scientifiques : Partager le savoir pour l’excellence documentaire et scientifique
Auteur
Jacques Ducloy
Affiliations
Université de Lorraine, Université Paris 8 (Paragraphe), retraité du CNRS (LORIA, Inist)
Dates

Cet article présente la démarche dans laquelle s'inscrit l'activité scientifique et éditoriale à l'origine de la création ce ce wiki.

La musique jouant un rôle pilote dans le projet Wicri, cet article doit être réédité dans sa totalité sur ce wiki.

Résumé
Nous présentons une bibliothèque numérique structurée par une infrastructure encyclopédique. Des chercheurs, peuvent y exercer de façon collaborative, un large spectre de pratiques numériques, comme des explorations de corpus d’articles en texte intégral. Les textes, les données et les terminologies peuvent être mutualisées pour constituer de grands services de partage de connaissances (bases bibliographiques, dictionnaires, encyclopédies). Elle est réalisée avec un réseau de wikis sémantiques complété par une ingénierie XML. La conception de ce démonstrateur s’appuie sur une analyse de situations rencontrées à l’Inist.
Mots-clés
Musicologie, bibliothèque numérique, exploration de corpus, changement de paradigme, édition diplomatique.

Introduction

Dans les années 1970, avec Pascal, Francis ou le Trésor de la langue française, la recherche française a été pionnière à l’échelle internationale sur les grands systèmes d’information scientifique. Comment, en 2020, retrouver une telle ambition, en s’appuyant sur les outils et pratiques fédératives du XXIe siècle ?

Ces grands projets s’inscrivaient au sein d’une des missions fondamentales du CNRS : Le partage du savoir pour la communauté scientifique, les médias, et le grand public. Dans les années 2000, Wikipédia est venu bouleverser le paysage en remplissant une mission citoyenne de partage du savoir. Au moment où le monde académique, humaniste et politique, s’interroge sur l’explosion de la désinformation sur les réseaux sociaux, faut-t-il laisser le monopole de la connaissance mondiale à un système qui repose sur l’anonymat ?

Progressivement, la Wikimedia Foundation est devenue un acteur terminologique incontournable, notamment sur le Web sémantique, avec DbPedia et WikiData. Comment redonner aux chercheurs et praticiens la maîtrise de leurs ressources sémantiques avec des mécanismes de validation scientifique ?

Le projet ISTEX[1]vient précisément d’ouvrir un nouveau défi en offrant à tous les chercheurs la possibilité d’explorer et de traiter des dizaines de milliers de documents. Pour atteindre l’excellence documentaire pour tous (le slogan d’ISTEX) ils vont devoir se former massivement aux pratiques de fouilles de données (TDM[2]). Il y a 50 ans, les ingénieurs, les physiciens et les chimistes ont dû massivement troquer leurs règles à calcul contre des paquets de cartes perforées pour bénéficier de la puissance de l’informatique naissante. En 2020, ils vont devoir acquérir une expertise dans le traitement de corpus textuels, en relation avec leurs données numériques ou symboliques. Est-il possible de canaliser cette énergie pour construire de gigantesques systèmes d’information scientifique ?

Nous donnerons, dans un premier temps un retour d’expérience sur les grands projets d’information scientifique qui se sont développés à Nancy. Nous proposerons un éclairage sur les problèmes rencontrés avec les changements de paradigmes intervenus depuis l’irruption du numérique dans la connaissance. Pour y faire face, nous présenterons une expérimentation qui, partant d’une intention de partage de la connaissance, débouche sur un réseau cohérent de bibliothèques encyclopédiques. Nous conclurons par quelques pistes de réflexion pour l’avenir.


Retour d’expériences sur des grands projets d’information scientifique

Changements de paradigmes dans la connaissance numérique

Nous venons de décrire l’abandon de deux systèmes complexes d’exploitation de données de la recherche qui répondaient aux missions de transfert de savoir du CNRS et des universités. Ces réalisations ont mobilisé pendant des décennies des centaines d’ingénieurs avec un noyau conséquent de décideurs. Tous ces acteurs ont été recrutés en fonction de leurs compétences attestées dans d’autres circonstances. Avant de donner des pistes pour de nouvelles applications, nous proposons une réflexion sur les changements de paradigmes pour une analyse systémique de ces évènements.

Les quatre paradigmes de Jim Gray

Pour alerter les décideurs américains sur la révolution numérique, Jim Gray (Gray 2005) avait défini quatre paradigmes dans les pratiques de la recherche.

  1. Pendant des millénaires, les premiers érudits avaient une méthodologie empirique basée sur l'observation.
  2. Puis, depuis quelques siècles, avec Maxwell ou Newton, les scientifiques utilisent des modèles théoriques faisant appel aux abstractions et aux généralisations, afin d'établir des « lois universelles ».
  3. Depuis environ 1950, quelques décennies, ils utilisent des ordinateurs pour modéliser des phénomènes complexes. La programmation devient un outil de travail et d'expression du chercheur.
  4. Nous entrons maintenant dans une nouvelle étape où les chercheurs doivent maîtriser le déluge de données.

Les ingénieurs et physiciens face au troisième paradigme de Jim Gray

La façon avec laquelle les chercheurs ont géré ces mutations il y a cinquante ans donne des pistes pour analyser les problèmes rencontrés maintenant sur les données numériques. Par exemple, l’histoire de l’informatique à Nancy, révèle des conflits entre mathématiciens et pionniers de l’analyse numérique. En effet, en 1956, dans son livre sur la résolution des équations aux dérivés partielles, Jean Legras, écrivait :

« L’ingénieur, le physicien se trouvent souvent devant les problèmes que les mathématiciens classiques n’ont pas pu résoudre. Il leur faut alors, ou renoncer à l’emploi de l’outil mathématique, ou utiliser des méthodes moins strictes, que réprouvent les mathématiciens, mais qui sont seules capables de les dépanner. »

Assumant pleinement cette réprobation, il ajoutait :

« Il est alors indispensable que l’ingénieur, le physicien et tous ceux qui s’occupent de mathématiques appliquées, soient capables de se dégager du complexe inhibitif de rigueur que leur a imposé leur éducation, et qu’ils osent se lancer à l’aventure : la vérification expérimentale sera là pour leur crier casse-cou le cas échéant. »

Le document structuré face au paradigme relationnel

Par rapport aux grandes étapes tracées par Jim Gray, les pratiques documentaires ajoutent de nouveaux paradigmes « secondaires ». Concernant l’Inist, les conflits informatiques des années 1990 sont révélateurs d’un changement de paradigme mal identifié. Pour l’immense majorité des formateurs, des décideurs et des sociétés de service, le complexe inhibitif de rigueur était « un système de gestion de données intégré géré par un SGBD relationnel ». En effet, en 1990, ceux-ci offraient une approche globale avec des outils méthodologiques comme MERISE. Issues du monde de la compilation, les technologies du document structuré ont dû attendre 1996 et la généralisation d’XML pour obtenir le même niveau de complétude.

L’émergence d’une technologie de rupture implique alors des prises de décisions qui ne peuvent pas encore être aidées par un soutien méthodologique. Par exemple, dans l’informatisation de la bibliothèque de l’Inist, Nathalie Dusoulier, nous a amené à changer notre vision sans pouvoir faire une démonstration formelle. Ceux qui avaient vécu une expérience comme celle de l’ANL sont facilement arrivés à une « conviction commune » sur la séparation des applications. La suite nous a donné raison, et, nous aurions perdu au moins 3 ans avec un système intégré. Mais, nous avons pris cette décision sur une forte conviction ! Nous aurions été incapables de produire un argumentaire recevable par une commission de validation composée d’informaticiens des systèmes d’information du CNRS. De même une grande partie des personnels de l’Institut, notamment chez les informaticiens, ne partageaient pas notre point de vue. En revanche, Goéry Delacôte nous a fait confiance.

Autres ruptures liées à la nature du document et de la connaissance en 2020 En 2019, le succès rencontré par ISTEX avec une infrastructure « file system » sur le moteur de recherche Elasticsearch montre une évolution considérable dans la conception des services de recherche d’information. Mais de nouvelles technologies de rupture apparaissent.

Nous allons présenter une expérimentation basée sur une technologie du XXIème siècle, illustrée par MediaWiki. Elle introduit trois ruptures conséquentes. Le simple usage du wiki rompt déjà le principe de validation a priori, pour des mécanismes de modération a posteriori. Ensuite, le paramétrage de MediaWiki met l’algorithmique à la disposition de l’utilisateur. Il permet à chaque discipline scientifique de définir ses propres applications, mais il brise la séparation des rôles entre les informaticiens et les utilisateurs. Enfin, la généricité de MediaWiki permet aux acteurs de travailler ensemble mais en brisant les périmètres traditionnellement gérés par différents chefs de projets bien identifiés. De son côté, l’exploitation des corpus ISTEX à des fins de recherche (et pas seulement d’évaluation) montre le besoin d’appropriation de compétences TDM par les chercheurs eux-mêmes - ce qui n’est pas toujours bien perçu. Nous avons donc rencontré en 2015 le même type de difficultés que celles de 1991. Le projet LorExplor voulait analyser en profondeur les besoins des chercheurs dans les explorations de corpus. Initialement calibré pour une dizaine de permanents, et soutenu par ISTEX, son effectif en permanents s’est finalement réduit à un retraité.


Wicri, une architecture de bibliothèque numérique basée sur une encyclopédie

Notes et remerciements

Cette section introduit les notes de l'article lors de sa soumission.

  1. Le projet ISTEX (Initiative d’excellence de l’Information Scientifique et Technique) s’inscrit dans le programme « Investissements d’Avenir »
    < http://www.cnrs.fr/dist/projet-istex.html >
  2. Text and Data Mining

Bibliographie


Voir aussi

Notes de la rédaction
  1. Cette date correspond en fait à la date initialement prévue pour l'édition de l'article.
Dans le réseau Wicri :

Ceci est la page de référence de « Ingénierie des systèmes d'information (2019) Ducloy »

Cet article est également réédité sur les wikis :