HIS 2021 Casablanca/Atelier Wicri/Article version 1

De Wicri Chanson de Roland
< HIS 2021 Casablanca‎ | Atelier Wicri
Révision datée du 11 septembre 2021 à 19:28 par Jacques Ducloy (discussion | contributions) (Les serveurs d'exploration de corpus dans une ingénierie Xml/TEI)
logo lien interne Cette page est en phase de création pour des raisons de cohérence des liens dans ce wiki (ou au sein du réseau Wicri).
Pour en savoir plus, consulter l'onglet pages liées de la boîte à outils de navigation ou la rubrique « Voir aussi ».

Cette page introduit un projet d'article pour le colloque HIS.7.

Projet de titre
Bibliothèques encyclopédiques pour la valorisation du patrimoine
Sous-titre
Une application pilote avec la Chanson de Roland
Avant-propos

Cet article est rédigé dans une dynamique collaborative et publique sur le wiki Wicri/Chanson de Roland .

Introduction

Qu'est-ce qu'une bibliothèque numérique, au juste ?

Il y a 15 ans, Carl Lagoze, un des pionniers des archives ouvertes aux États-Unis posait cette question dans un article de référence [Lagoze 2005]. Les mots wiki et hypertexte étaient absents de cet article.

Au même moment, Wikipédia émergeait. Il allait bouleverser le monde de la connaissance et faire devenir réalité le rêve de Paul Otlet. Mais cette encyclopédie s'est développée à côté du monde de la connaissance scientifique académique.

Le réseau Wicri s'est emparé de cette technologie pour proposer un réseau de sites encyclopédiques pour la recherche et l'innovation. Puis, des articles, des livres, ont été réédités dans cet espace hypertexte, au départ de façon anecdotique, puis de façon de plus en plus conséquente.

Progressivement et paradoxalement, sur un support numérique, nous avons travaillé comme les bibliothécaires, les copistes et... les savants avant l'invention de l'imprimerie. La bibliothèque n'était pas seulement un lieu de stockage de la connaissance mais avant tout un espace de travail et d'échange scientifique.

Une expérimentation autour de La Chanson de Roland rassemble un large panorama d'informations patrimoniales hétérogènes : une histoire du VIIIe siècle, des manuscrits du XIIe siècle, des ouvrages du XIXe siècle, de multiples publications au XXe siècle et une composition musicale du XXIe siècle. Toutes ces sources sont rééditées, découpées, ré-assemblées dans une formulation hypertexte.

Cette expérience amène donc donc à reposer la question :

  • Qu'est-ce qu'une bibliothèque numérique encyclopédique, au juste ?

Dans cet article, nous présenterons sommairement la suite des étapes qui ont fait progresser cette réflexion au sein du réseau Wicri dans les sciences fondamentales et expérimentales. Nous montrerons comment cette notion de bibliothèque encyclopédique s'impose dans les humanités numériques. Enfin nous détaillons et discuterons l'expérimentation sur la Chanson de Roland.

Les racines du projet Wicri/Chanson de Roland

L'expérimentation « Wicri/Chanson de Roland » est menée au sein du projet Wicri/Explore, actuellement porté par le laboratoire Paragraphe de l'Université Paris 8.

En réalité le projet Wicri a été monté en Lorraine par des chercheurs et des ingénieurs qui se sont impliqués depuis 50 ans d'abord dans le développement de l'informatique puis,dans les grandes réalisations éditoriales de la connaissance : le Dictionnaire Trésor de la Langue Française (TLF) et les Bulletins signalétiques du CNRS.

L'informatique s'est développée au CNRS dans le département « sciences pour l'ingénieur (SPI) ». Ce nom n'est pas anecdotique, il s'agissait bien d'accompagner les ingénieurs, et donc la société scientifique et industrielle, pour qu'ils s'approprier l'informatique afin qu'ils puissent résoudre des problèmes de grande complexité. En 2020, la résolution des applications complexes dans les humanités exige également une appropriation conséquente de l'outil numérique. Le projet Wicri s'appuie sur des expérimentations comme celle de la Chanson de Roland pour explorer les outils et pratiques qui pourraient être appropriées par les chercheurs et praticiens du patrimoine humaniste.

Dans les années 65 à 95, le TLF a mobilisé près d'une centaine de linguistes de haut niveau pour produire un dictionnaire de référence. En 90 - 95 Le TLFi (TLF informatisé en ligne) a offert une transposition de ce document. Le CNRS a alors décidé d'arrêter cette application, pour des raisons liées notamment à la complexité des chaines de production.

De 1945 à 1992, des centaines d'ingénieurs de haut niveau ont édités les bulletins signalétiques du CNRS. Ils rédigeaient des résumés en français accompagnée d'une indexation contrôlée pour offrir à la société une synthèse périodique et analysée de l'essentiel de la production scientifique mondiale. Dans les années 75, le contenu des bulletins a été automatisé pour produire les bases Pascal et Francis. Là encore, pour des raisons financières, dans les années 95, en dépit de réaction des ingénieurs documentalistes, le CNRS à abandonné les analyses pour se limiter à un signalement devant être automatisé et limité à la fourniture de documents. [1]

Dans les années 2000 à 2010, des dizaines de milliers de volontaires ont trouvé du plaisir à construire Wikipédia. Ils ont bouleversé les mécanismes de production de la connaissance numérique. Les outils et pratiques de cette gigantesque application seraient-ils utilisables dans de grands projets académiques pilotés par des scientifiques ?

La réponse à cette question guide les réflexions du projet Wicri/Chanson de Roland.

logo travaux A partir de ce point le texte est une simple suite de notes

De l’interopérabilité XML/TEI aux bibliothèques encyclopédiques

Pour progresser dans nos objectifs, nous nous sommes appuyé sur deux ruptures technologiques d'abord la technologie XML/TEI, puis les wikis programmables et sémantiques. Dans cette section nous rappelons les grandes phases de cette évolution.

Les serveurs d'exploration de corpus dans une ingénierie Xml/TEI

Dans les années 90, le projet ILIB a été développé à l'INIST pour améliorer l'exploitation des bases Pascal et Francis en utilisant une ingénierie SGML. Au départ, c'était pour améliorer les explorations élémentaires de corpus de métadonnées liés à des processus de production. [2]

Un peu plus tard, au LORIA, avec une autre boîte à outil nommée DILIB, il était possible d'assembler des modules en interface XMl pour générer des systèmes de recherche d'information incluant des fonctions infométriques (algorithmes de classification).

Par rapport aux objectifs visés plus haut, des améliorations importantes ont été apportées. Elles auraient pu être importantes sans les résistances aux changements dans les services du CNRS. Mais des blocages importants n'étaient pas résolus. Par exemple :

  • Les chaînes de production d'applications comme le TLF ou les bases Pascal demandaient des développements très conséquents.
  • L'utilisation des outils XML exigeait une maitrise conséquente de la programmation C sous Unix.
  • Dans les serveur d'exploration la gestion des ontologies nécessaires à la curation de données était encore très complexe.

Un réseau d'encyclopédies pour transmettre la connaissance scientifique

Le réseau Wicri, les extensions sémantiques pour modéliser les systèmes de recherche. Le nouveaux serveurs d'explorations Leurs limites dans les humanités numériques.

Les rééditions structurantes

Les nouveaux serveurs d'exploration

Les wikis de colloques

Applications aux humanités numériques

Le wiki Wicri/Histoire de l'IST

La musique

Les dictionnaires

Autour de la Chanson de Roland

Genèse de l'expérimentation

Annotation type.jpg

La Bibliothèque universitaire de Lettres de Nancy est dépositaire d'un fonds Paul Meyer dont l'un des objet de référence est « La Chanson de Roland et le Roman de Roncevaux des XIIe et XIIIe siècles » écrit par Francisque Michel et annoté par Paul Meyer.

Sur le wiki Wicri/Musique, une œuvre du compositeur Gilles Mathieu, Irish Mass, est mise en ligne dans une approche hypertexte.

Or Gilles Mathieu a écrit une Chanson de Roland.

Nous avons donc pensé créer un wiki sur la Chanson de Roland en associant ces deux approches.

Le problème s'est révélé beaucoup plus complexe qu'il n'avait été imaginé.

Conclusion

Notes

  1. Pendant la même période la NLM a doublé la production de la base PubMed réalisée par des spécialistes, aidés, et non dominés par les algorithmes.
  2. Avec les formats précédents (ISO 2709), toute requête exploratoire demandée par un ingénieur documentaliste demandait quelques jours de développement informatique. Avec cette boîte à outils il suffisait sous unix de lancer une requête paramétrée par une préfiguration des Xpath pour résoudre la plupart des demandes.

Bibliographie

[Lagoze 2005] Carl Lagoze,  et al. What Is a Digital Library Anymore, Anyway? In: D-Lib Magazine, 11 2005
Traduit dans la revue AMETIST : Qu'est-ce qu'une bibliothèque numérique, au juste ? Juin 2006

< http://www.dlib.org/dlib/november05/lagoze/11lagoze.html >