HIS 2021 Casablanca/Atelier Wicri/Article version 1 : Différence entre versions

Version du 13 septembre 2021 à 11:35

article en cours de rédaction collective

Cette page introduit un projet d'article pour le colloque HIS.7.

Projet de titre: Bibliothèques encyclopédiques pour la valorisation du patrimoine
Sous-titre: Une application pilote avec la Chanson de Roland

Sommaire

1 Introduction
2 Les racines du projet Wicri/Chanson de Roland
3 De l’interopérabilité XML/TEI aux bibliothèques encyclopédiques
4 Applications aux humanités et patrimoines numériques
5 Autour de la Chanson de Roland
- 5.1 Genèse de l'expérimentation
- 5.2 Les sources et la modélisation de leur réseau
6 Conclusion
7 Notes
8 Bibliographie

Avant-propos

Cet article est rédigé dans une dynamique collaborative et publique sur le wiki Wicri/Chanson de Roland. Ce wiki (et l'ensemble du réseau) sont mis à jour en cohérence avec la rédaction de l'article.

Introduction

Qu'est-ce qu'une bibliothèque numérique, au juste ?

Il y a 15 ans, Carl Lagoze, un des pionniers des archives ouvertes aux États-Unis posait cette question dans un article de référence [Lagoze 2005]. Les mots wiki et hypertexte étaient absents de cet article.

Au même moment, Wikipédia émergeait. Il allait bouleverser le monde de la connaissance et faire devenir réalité le rêve de Paul Otlet. Mais cette encyclopédie s'est développée à côté du monde de la connaissance scientifique académique.

Le réseau Wicri s'est emparé de cette technologie pour proposer un réseau de sites encyclopédiques pour la recherche et l'innovation. Puis, des articles, des livres, ont été réédités dans cet espace hypertexte, au départ de façon anecdotique, puis de façon de plus en plus conséquente.

Progressivement et paradoxalement, sur un support numérique, nous avons travaillé comme les bibliothécaires, les copistes et... les savants avant l'invention de l'imprimerie. La bibliothèque n'était pas seulement un lieu de stockage de la connaissance mais avant tout un espace de travail et d'échange scientifique.

Une expérimentation autour de La Chanson de Roland rassemble un large panorama d'informations patrimoniales hétérogènes : une histoire du VIIIe siècle, des manuscrits du XIIe siècle, des ouvrages du XIX^e siècle, de multiples publications au XXe siècle et une composition musicale du XXIe siècle. Toutes ces sources sont rééditées, découpées, ré-assemblées dans une formulation hypertexte.

Cette expérience amène donc donc à reposer la question :

Qu'est-ce qu'une bibliothèque numérique encyclopédique, au juste ?

Dans cet article, nous présenterons sommairement la suite des étapes qui ont fait progresser cette réflexion au sein du réseau Wicri dans les sciences fondamentales et expérimentales. Nous montrerons comment cette notion de bibliothèque encyclopédique s'impose dans les humanités numériques. Enfin nous détaillons et discuterons l'expérimentation sur la Chanson de Roland.

Les racines du projet Wicri/Chanson de Roland

L'expérimentation « Wicri/Chanson de Roland » est menée au sein du projet Wicri/Explore, actuellement porté par le laboratoire Paragraphe de l'Université Paris 8.

En réalité le projet Wicri a été monté en Lorraine par des chercheurs et des ingénieurs qui se sont impliqués depuis 50 ans d'abord dans le développement de l'informatique puis,dans les grandes réalisations éditoriales de la connaissance : le Dictionnaire Trésor de la Langue Française (TLF) et les Bulletins signalétiques du CNRS.

L'informatique s'est développée au CNRS dans le département « sciences pour l'ingénieur (SPI) ». Ce nom n'est pas anecdotique, il s'agissait bien d'accompagner les ingénieurs, et donc la société scientifique et industrielle, pour qu'ils s'approprier l'informatique afin qu'ils puissent résoudre des problèmes de grande complexité. En 2020, la résolution des applications complexes dans les humanités exige également une appropriation conséquente de l'outil numérique. Le projet Wicri s'appuie sur des expérimentations comme celle de la Chanson de Roland pour explorer les outils et pratiques qui pourraient être appropriées par les chercheurs et praticiens du patrimoine humaniste.

Dans les années 65 à 95, le TLF a mobilisé près d'une centaine de linguistes de haut niveau pour produire un dictionnaire de référence. En 90 - 95 Le TLFi (TLF informatisé en ligne) a offert une transposition de ce document. Le CNRS a alors décidé d'arrêter cette application, pour des raisons liées notamment à la complexité des chaines de production.

De 1945 à 1992, des centaines d'ingénieurs de haut niveau ont édités les bulletins signalétiques du CNRS. Ils rédigeaient des résumés en français accompagnée d'une indexation contrôlée pour offrir à la société une synthèse périodique et analysée de l'essentiel de la production scientifique mondiale. Dans les années 75, le contenu des bulletins a été automatisé pour produire les bases Pascal et Francis. Là encore, pour des raisons financières, dans les années 95, en dépit de réaction des ingénieurs documentalistes, le CNRS à abandonné les analyses pour se limiter à un signalement devant être automatisé et limité à la fourniture de documents. ^[1]

Dans les années 2000 à 2010, des dizaines de milliers de volontaires ont trouvé du plaisir à construire Wikipédia. Ils ont bouleversé les mécanismes de production de la connaissance numérique. Les outils et pratiques de cette gigantesque application seraient-ils utilisables dans de grands projets académiques pilotés par des scientifiques ?

La réponse à cette question guide les réflexions du projet Wicri/Chanson de Roland.

De l’interopérabilité XML/TEI aux bibliothèques encyclopédiques

Pour progresser dans nos objectifs, nous nous sommes appuyé sur deux ruptures technologiques d'abord la technologie XML/TEI, puis les wikis programmables et sémantiques. Dans cette section nous rappelons les grandes phases de cette évolution.

Les serveurs d'exploration de corpus dans une ingénierie Xml/TEI

Dans les années 90, le projet ILIB a été développé à l'INIST pour améliorer l'exploitation des bases Pascal et Francis en utilisant une ingénierie SGML. Au départ, c'était pour améliorer les explorations élémentaires de corpus de métadonnées liés à des processus de production. ^[2]

Un peu plus tard, au LORIA, avec une nouvelle version nommée DILIB, il était possible d'assembler des modules en interface XMl pour générer des systèmes de recherche d'information incluant des fonctions infométriques (algorithmes de classification).

Par rapport aux objectifs visés plus haut, des améliorations notables ont été apportées. Elles auraient pu être importantes avec un soutien des services du CNRS. Mais quelques verrous technologiques n'étaient pas résolus. Par exemple :

Les chaînes de production pour des applications comme le TLF ou Pascal demandaient encore des investissements très conséquents, avec des délais se chiffrant en années entre la décision politique et sa réalisation.
Du côté des ingénieurs, l'utilisation des outils XML exigeait une maitrise conséquente de la programmation C sous Unix. Un programme de formation avait été déployé sur une centaine d'ingénieurs sur plusieurs années. L'étape initiale de « formation Unix - Langage C - analyseurs lexicographique » était souvent très mal vécue. En revanche, les témoignages en fin d'opération étaient plutôt satisfaisants (y compris sur la nécessité de vaincre le blocage initial).
Dans les serveur d'exploration qui seront évoqués plus loin, la gestion des ontologies nécessaires à la curation de données était encore très complexe.

Un réseau d'encyclopédies pour transmettre la connaissance scientifique

En 2008, l'expérience Wikipédia, démontrait que les deux premier verrous repérés au paragraphe précédent étaient potentiellement résolus.

Le moteur MediaWiki se révèle comme un progiciel puissant et flexible pour réduire les développements cités précédemment à une phase de paramétrage (où les rédacteurs peuvent être immédiatement associés).
Wikipédia s'est construit par la participation de dizaines de milliers de volontaires trouvant du plaisir à construire de la connaissance dans une dynamique d'appropriation progressive des outils technologiques (dont la modélisation XML).

La DRRT Lorraine, en coopération avec Nancy Université, a donc soutenu un programme nommé WICRI (Wikis pour les communautés de la recherche et de l'innovation) afin de tester cette approche en construisant un ensemble d'observatoires de l'activité scientifique.

Quelques wikis ont été créés avec deux différences fondamentales par rapport à Wikipédia.

Les chercheurs produisent des informations originales et donc non sourcées. L'anonymat est donc exclu et tous les contributeurs sont sélectionnés et identifiables.

Wikipédia est une gigantesque encyclopédie mais dans un seul ouvrage. Wicri est un réseau de sites scientifiques où chacun peut être piloté par une communauté scientifique. Le réseau actuel est un ensemble d'une vingtaine de familles multilingues à couverture géographique, un autre ensemble équivalent de sites scientifiques, quelques wikis spécialisés, et des wikis techniques. Un des wikis techniques (Wicri/Base) contient un ensemble d'un millier de modèles et métadonnées communes qui apporte un premier niveau de cohérence sémantique au réseau.

A partir de ce point le texte est une simple suite de notes

les extensions sémantiques pour modéliser les systèmes de recherche.

Les extensions sémantiques ont été utilisées dès le départ en utilisant les colloques pour repérer les personnalités et institutions notables dans un champ scientifique donné.

Leur usage a été ensuite généralisé (par exemple les relations dans une dynasties).

Les rééditions structurantes, puis éditoriales

Pour construire un observatoire des recherches dans un champ donné, la réalisation d'un ensemble sémantique de fiches relatives aux chercheurs, laboratoires, congrès, publications, entités géographiques est « relativement simple » et quantifiable. La fusion de 4 universités demande de nombreuses modifications dans le réseau mais qui restent facilement programmables.

En revanche la rédaction d'une page de synthèse sur « la recherche en Lorraine » sur Wicri, ou la tentative de reconstruire une page correcte sur le concept de métadonnées sur Wikipédia s'avèrent complexe et demande un travail de rédaction très conséquent.

Dans le réseau Wicri, les premières rééditions ont été motivées par le besoin d'offrir rapidement des textes de synthèse. Ainsi le premier exemple a été : le CPER (Contrat de plan état région) de la Région Lorraine en 2007. Le document a été en fait réédité pour permettre une meilleure lisibilité en ligne et l'insertion de liens et d'annotations sémantiques.

A l'occasion d'une action politique nancéienne sur la Renaissance, un premier test de réédition dans une perspective hypertexte a été réalisée sur un ouvrage écrit par Henri Lepage en 1852 sur le Palais Ducal de Nancy. Les opérations suivantes ont été réalisées :

mise en ligne sous la forme d'un ensemble de pages wikis avec des mécanismes de navigation entre les chapitres,
correction de l'OCR issu de Gallica, (ce texte devient réutilisable)
insertion de nombreux liens sémantiques avec enrichissement du wiki sur l'histoire de la Lorraine (aspects structurants du domaine sur le wiki qui joue un rôle de glossaire)
reprise d'une figure contenant de nombreuses ancres (sous la forme de lettres majuscules) par une carte cliquable.

Dans cet exemple, il s'agit bien d'une réédition d'un ouvrage et pas simplement d'un archivage. De son coté le wiki n'est plus simplement un ensemble de pages ou de fiches mais commence à ressembler à une bibliothèque.

Les serveurs d'explorations

Nous avons évoqué plus haut l'utilisation d'une boîte de composants pour générer des dispositifs d'exploration de corpus paramétrables. Dans les années 2000, la technologie XML était utilisés pour résoudre des problèmes d'interopérabilité entre différentes sources d'information (par exemple Pascal et Medline). Les services proposés étaient livrés sous forme de rapport accompagnés d'une extraction de références bibliographiques pertinentes (par exemple 200 sur un ensemble de 5000 notices initiales).

Grâce au programme ISTEX, nous avons repris ce type d'expérimentation 150 sur quelques années. Une grande partie a été réalisée dans le cadre de travaux dirigés dans des master en science de l'information. Par rapport à la phase précédente l’infrastructure wiki a apporté des améliorations notables :

La génération des serveurs est réalisée à partir d'un paramétrage réalisé dans les pages du wiki (au lieu d'un assemblage assez complexe dans des scripts en shell d'unix). La lancement de la génération demande encore une compétence Unix, mais des actions comme le retrait d'un périodique d'un corpus peut être géré sur le wiki.
Des règles de curation peuvent être exprimées dans le wiki en s'appuyant sur la formalisation sémantique contenue dans le wiki.

Un phénomène non prévu initialement a joué un rôle fondamental : tous les documents manipulés dans le corpus sont visualisables à partir du wiki, par exemple à partir de projection dans des listes ou cartes géographiques. Il devient alors très tentant d'aller explorer des régions de faible occurrence (comme par exemple les 5 références inattendues de la région lorraine dans un corpus de 10.000 références). Cette curiosité s'avère extrêmement performante pour détecter des défaillances dans les corpus.

Par rapport à la réflexion générale de l'article, il est bien entendu possible de rééditer sur le wiki quelques articles repérés en texte intégral (ou sur un wiki privé en fonction des droits de copie). La bibliothèque peut donc être enrichie par des explorations de corpus et devient un espace de travail.

Applications aux humanités et patrimoines numériques

Nous venons de présenter des aspects universels de l'approche Wicri. Les différentes communautés scientifiques ont des relations différentes avec leurs production scientifique. Par exemple, en informatique, la plus récente publication sur un algorithme donné rend caduque, et pratiquement sans intérêt (hors évaluation) la plupart des précédentes. Dans les sciences du vivant une observation de terrain des années 1920 peut avoir un intérêt en 2020. Sur Wicri/Santé, dans l'espace dédié au Covid, un ouvrage de Gustave André écrit en 1908 sur la pandémie grippale de 1889 retrouve une actualité singulière en 2020.

Les wikis de colloques en sciences de l'information

Le wiki Wicri/Histoire de l'IST

La musique

Les dictionnaires

Autour de la Chanson de Roland

Genèse de l'expérimentation

La Bibliothèque universitaire de Lettres de Nancy est dépositaire d'un fonds Paul Meyer dont l'un des objet de référence est « La Chanson de Roland et le Roman de Roncevaux des XII^e et XIII^e siècles » écrit par Francisque Michel et annoté par Paul Meyer.

Sur le wiki Wicri/Musique, une œuvre du compositeur Gilles Mathieu, Irish Mass, est mise en ligne dans une approche hypertexte.

Or Gilles Mathieu a écrit une Chanson de Roland.

Nous avons donc pensé créer un wiki sur la Chanson de Roland en associant ces deux approches.

Le problème s'est révélé beaucoup plus complexe qu'il n'avait été imaginé.

Les sources et la modélisation de leur réseau

Les manuscrits

feuillets
laisses
vers
erreurs des copistes

Les transcriptions, les traductions

Les études

Conclusion

Notes

↑ Pendant la même période la NLM a doublé la production de la base PubMed réalisée par des spécialistes, aidés, et non dominés par les algorithmes.
↑ Avec les formats précédents (ISO 2709), toute requête exploratoire demandée par un ingénieur documentaliste demandait quelques jours de développement informatique. Avec cette boîte à outils il suffisait sous unix de lancer une requête paramétrée par une préfiguration des Xpath pour résoudre la plupart des demandes.

Bibliographie

[Lagoze 2005] ↑ Carl Lagoze, et al. What Is a Digital Library Anymore, Anyway? In: D-Lib Magazine, 11 2005
Traduit dans la revue AMETIST : Qu'est-ce qu'une bibliothèque numérique, au juste ? Juin 2006

< http://www.dlib.org/dlib/november05/lagoze/11lagoze.html >

[1] Pendant la même période la NLM a doublé la production de la base PubMed réalisée par des spécialistes, aidés, et non dominés par les algorithmes.

[2] Avec les formats précédents (ISO 2709), toute requête exploratoire demandée par un ingénieur documentaliste demandait quelques jours de développement informatique. Avec cette boîte à outils il suffisait sous unix de lancer une requête paramétrée par une préfiguration des Xpath pour résoudre la plupart des demandes.

[1]

[2]