HIS 2021 Casablanca/Atelier Wicri/Article version 1 : Différence entre versions

De Wicri Chanson de Roland
(Les racines du projet Wicri)
(Les racines du projet Wicri)
Ligne 33 : Ligne 33 :
 
L'informatique s'est développée au CNRS dans le département  « sciences pour l'ingénieur (SPI) ». Le CNRS voulait accompagner les ingénieurs afin qu'ils puissent résoudre collectivement des problèmes de grande complexité.  
 
L'informatique s'est développée au CNRS dans le département  « sciences pour l'ingénieur (SPI) ». Le CNRS voulait accompagner les ingénieurs afin qu'ils puissent résoudre collectivement des problèmes de grande complexité.  
  
En 2020, la résolution des applications complexes dans les humanités exige également une appropriation conséquente du numérique. '''Le projet Wicri explore les outils et pratiques qui peuvent être appropriées par les chercheurs et praticiens du patrimoine culturel.'''
+
En 2020, la résolution des applications complexes dans les humanités exige également une appropriation conséquente du numérique.  
 +
:'''Le projet Wicri explore les outils et pratiques qui peuvent être appropriées par les chercheurs et praticiens du patrimoine culturel.'''
  
 
Dans les années 65 à 95, le TLF a mobilisé près d'une centaine de linguistes de haut niveau pour produire un dictionnaire de référence. En 90 - 95 Le TLFi (TLF informatisé en ligne) a offert une transposition numérique de ce document.  
 
Dans les années 65 à 95, le TLF a mobilisé près d'une centaine de linguistes de haut niveau pour produire un dictionnaire de référence. En 90 - 95 Le TLFi (TLF informatisé en ligne) a offert une transposition numérique de ce document.  

Version du 22 septembre 2021 à 17:34

logo travaux article en cours de rédaction collective

Cette page introduit un projet d'article pour le colloque HIS.7.

Projet de titre
Bibliothèques encyclopédiques pour la valorisation du patrimoine
Sous-titre
Une application pilote avec la Chanson de Roland
Avant-propos

Cet article est rédigé sur le wiki Wicri/Chanson de Roland. Les travaux sur le wiki sont réalisés en relation avec sa rédaction.

Introduction

Qu'est-ce qu'une bibliothèque numérique, au juste ?

Il y a 15 ans, Carl Lagoze, un des pionniers des archives ouvertes aux États-Unis posait cette question dans un article de référence [Lagoze 2005]. Les mots wiki et hypertexte étaient absents de cet article.

Au même moment, Wikipédia allait bouleverser le monde de la connaissance et réaliser une partie des rêves de Paul Otlet. Mais cette encyclopédie s'est développée à côté du monde académique.

Le réseau Wicri s'est donc emparé de cette technologie pour proposer un réseau de sites encyclopédiques pour la recherche. Puis, des articles, des livres, y ont été réédités dans un mode hypertexte. Le site ressemble donc à une bibliothèque où les rayonnages sont remplacés par un substrat encyclopédique.

Avec le soutien ISTEX, en 2015, des serveurs d'explorations ont utilisé la souche encyclopédique pour d'explorer de vastes corpus de documents, comme dans une bibliothèque le plan de classement peut être utilisé pour gérer les archives en sous-sol...

En 2020, suite à une réorganisation, quelques wikis ont été dédiés à des sujets historiques (histoire de l'Information scientifique et technique) ou patrimoniaux (la chanson de Roland). Les document deviennent des objets numériques qui vont être travaillés, manipulés ou comparés.

Ces expérience nous amènent donc à reposer la question :

  • Qu'est-ce qu'une bibliothèque numérique encyclopédique pour le patrimoine au juste ?

Dans cet article, nous présenterons sommairement la suite des étapes qui ont fait progresser cette réflexion au sein du réseau Wicri. Nous montrerons comment cette notion de bibliothèque encyclopédique s'impose dans les humanités numériques. Enfin nous détaillerons et discuterons une expérimentation sur la Chanson de Roland.

Les racines du projet Wicri

L'expérimentation « Wicri » est portée par le laboratoire Paragraphe de l'Université Paris 8.

En réalité ce projet a été créé en Lorraine par des acteurs impliqués depuis 50 ans d'abord dans le développement de l'informatique au service de la recherche, puis dans de grandes réalisations de la connaissance numérique : le Dictionnaire Trésor de la Langue Française (TLF) et les bases Pascal et Francis.

L'informatique s'est développée au CNRS dans le département « sciences pour l'ingénieur (SPI) ». Le CNRS voulait accompagner les ingénieurs afin qu'ils puissent résoudre collectivement des problèmes de grande complexité.

En 2020, la résolution des applications complexes dans les humanités exige également une appropriation conséquente du numérique.

Le projet Wicri explore les outils et pratiques qui peuvent être appropriées par les chercheurs et praticiens du patrimoine culturel.

Dans les années 65 à 95, le TLF a mobilisé près d'une centaine de linguistes de haut niveau pour produire un dictionnaire de référence. En 90 - 95 Le TLFi (TLF informatisé en ligne) a offert une transposition numérique de ce document.

De 1945 à 1992, des centaines d'ingénieurs de haut niveau ont édités les bulletins signalétiques du CNRS. Ils rédigeaient des résumés en français accompagnée d'une indexation contrôlée pour offrir à la société une synthèse périodique et analysée de l'essentiel de la production scientifique mondiale. Dans les années 75, le contenu des bulletins a été automatisé pour produire les bases Pascal et Francis. Dans les sciences humaines et la valorisation du patrimoine (BHA) la base Francis était le résultat d'un très large réseau de coopérations.

Dans les années 95, pour des des raisons financières, le CNRS a décidé d'arrêter les travaux sur le dictionnaire TLF et de restreindre les bases Pascal et Francis à la fourniture de documents [1]. En fait, la complexité des chaines de production a joué un rôle important dans la prise de décision du CNRS.

Or quelques années plus tard, dans les années 2000 à 2010, des dizaines de milliers de volontaires ont trouvé du plaisir à construire Wikipédia. Les mécanismes de production de la connaissance numérique ont été bouleversés. Cette dynamique pourrait-elle s'appliquer dans de grands projets académiques pilotés par des scientifiques ?

La réponse à cette question guide les réflexions du projet Wicri, notamment pour les sciences humaines ou la valorisation du patrimoine culturel.

Pour progresser dans nos objectifs, nous nous sommes appuyés sur deux ruptures technologiques d'abord la technologie XML, puis les wikis programmables et sémantiques. Dans cette section nous rappelons les grandes phases de cette évolution.

SGML puis XML pour l'exploration des corpus

Créé en 1986 pour des applications industrielles, le standard SGML s'est rapidement diffusé dans les humanités numériques avec les recommandations TEI en 1988.

Dans les années 90, le projet ILIB a été développé à l'INIST pour améliorer l'exploitation des bases Pascal et Francis en utilisant SGML pour les métadonnées bibliographiques[2]. Un peu plus tard, au LORIA, une nouvelle version nommée DILIB, permettait d'assembler des modules en interface XMl pour générer des systèmes de recherche d'information incluant des fonctions infométriques (notamment des algorithmes de classification). Nous évoquerons plus loin les corpus de documents plein textes en TEI avec ISTEX.

Par rapport aux objectifs visés plus haut, des améliorations notables ont été apportées. Mais quelques verrous technologiques n'étaient pas résolus. Par exemple :

  • Les chaînes de production pour des applications comme le TLF ou Pascal demandaient encore des investissements très conséquents, avec des délais se chiffrant en années entre la décision politique et sa réalisation.
  • Du côté des ingénieurs, l'utilisation des outils XML exigeait une maitrise conséquente de la programmation C sous Unix. [3]
  • Dans les serveur d'exploration qui seront évoqués plus loin, la gestion des ontologies nécessaires à la curation de données était encore très complexe.

Un réseau d'encyclopédies pour transmettre la connaissance scientifique

En 2008, l'expérience Wikipédia, démontrait que les deux premier verrous repérés au paragraphe précédent étaient potentiellement résolus.

  • Le moteur MediaWiki se révèle comme un progiciel puissant et flexible pour réduire les développements cités précédemment à une phase de paramétrage (où les rédacteurs peuvent être immédiatement associés).
  • Wikipédia s'est construit par la participation de dizaines de milliers de volontaires trouvant du plaisir à construire de la connaissance dans une dynamique d'appropriation progressive des outils technologiques (dont la modélisation XML).

La DRRT Lorraine, en coopération avec Nancy Université, a donc soutenu un programme nommé WICRI (Wikis pour les communautés de la recherche et de l'innovation) afin de tester cette approche. Quelques wikis ont été créés avec deux différences fondamentales par rapport à Wikipédia.

  • Les chercheurs produisent des informations originales et donc non sourcées. L'anonymat est donc exclu et tous les contributeurs sont sélectionnés et identifiables.
  • Wikipédia est une gigantesque encyclopédie mais dans un seul ouvrage. Wicri est un réseau de sites scientifiques où chacun peut être piloté par une communauté scientifique.

Le réseau actuel est un ensemble d'une vingtaine de familles multilingues à couverture géographique, un autre ensemble équivalent de sites scientifiques, quelques wikis spécialisés, et des wikis techniques. Un des wikis techniques (Wicri/Base) contient un ensemble d'un millier de modèles et métadonnées communes qui apporte un premier niveau de cohérence sémantique au réseau.

WicriRéseauGabarit3.png

Pour aller sur Wicri/Wicri (fr)

Pour aller sur le wiki d'accueil du domaine lorexplor.ixtex.fr (fr)

Pour aller sur le pool d'images du réseau Wicri sur le domaine lorexplor.istex.fr

Pour aller sur le wiki d'accueil du réseau Wicri sur le domaine wicri-demo.istex.fr

Pour aller sur le pool d'images du réseau Wicri sur le domaine wicri-demo.istex.fr

Pour aller sur le wiki de service Wicri/Manuel (fr)

Pour aller sur le wiki de service Wicri/Base 1.28 (fr)

Pour aller sur le wiki de service Wicri/Base 1.31 (fr)

Pour aller sur le wiki de service Wicri/Métadonnées (fr)

Pour aller sur Wicri/Outils (fr)

Pour aller sur Wicri/Archéologie (fr)

Pour aller sur le wiki Wicri/Arts (fr)

Pour aller sur le wiki Wicri/Musique (fr)

Pour aller sur Wicri/Ingénierie (fr)

Pour aller sur le wiki Wicri/Psychologie (fr)

Pour aller sur le wiki Wicri/Yoga (fr)

Pour aller sur Wicri/Informatique (fr)

Pour aller sur Wicri/Sic (fr)

Pour aller sur le wiki Wicri/Histoire des sciences (fr)

Pour aller sur le wiki Wicri/Histoire de l'IST (fr)

Pour aller sur Wicri/Linguistique (fr)

Pour aller sur Wicri/Mathématiques (fr)

Pour aller sur Wicri/Santé (fr)

Pour aller sur Wicri/Biomasse (fr)

Pour aller sur Wicri/Eau (fr)

Pour aller sur Wicri/Bois et forêts (fr)

Pour aller sur Wicri/Terre (fr)

Pour aller sur Wicri/Sols urbains (fr)

Pour aller sur Wicri/Agronomie (fr)

Pour lire les Mots de  l'Agronomie (fr)

Pour aller sur Wicri/Animaux (fr)

Pour aller sur le wiki des émérites de Lorraine (fr)

Pour aller sur Wicri/Artist (fr)

Pour aller sur Wic/Sic/Cide (fr)

Pour aller sur Wic/Sic/H2PTM (fr)

Pour aller sur Wicri Sic/VSST (fr)

Pour aller sur le wiki du réseau Médici (fr)

Pour aller sur Wicri/Afrique (fr)

Pour aller sur Wicri/Amérique (fr)

Pour aller sur Wicri/Asie (fr)

Pour aller sur Wicri/Europe (fr)

Pour aller sur Wicri/Océanie (fr)

Pour aller sur Wicri/Belgique (fr)

Pour aller sur Wicri/Allemagne (fr)

Pour aller sur Wicri/France (fr)

Pour aller sur Wicri/Luxembourg (fr)

Pour aller sur Wicri/Francophonie (fr)

Pour aller sur Wicri/Maroc (fr)

Pour aller sur Wicri/Brésil (fr)

Pour aller sur Wicri/Canada (fr)

Pour aller sur Wicri/Grande Région (fr)

Pour aller sur Wicri/Rhénanie-Palatinat (fr)

Pour aller sur Wicri/Sarre (fr)

Pour aller sur Wicri/Wallonie (fr)

Pour aller sur Wicri/Chanson de Roland (fr)

Pour aller sur Wicri/Grand Est (fr)

Pour aller sur Wicri/Grand Est (fr)

Pour aller sur Wicri/Alsace (fr)

Pour aller sur Wicri/Lorraine (fr)

Pour aller sur Wicri/Histoire Lorraine (fr)

Pour aller sur Wicri Lorraine/Bul Nancy (fr)

Pour aller sur Wicri/Nancy (fr)

Pour aller sur Wicri/Île-de-France (fr)

logo travaux A partir de ce point le texte est souvent réduit à suite de notes

La Chanson de Roland, expérience pilote dans les humanités numériques

La suite de cet article sera illustrée principalement à partir de deux expérimentations réalisées en 2021. Nous avons profité de l'opportunité offerte par deux demandes de stages pour initialiser deux nouveaux wikis dans ce réseau.

Le premier porte sur l'histoire de l'information scientifique et technique (IST). Il s'appuie sur quelques wikis dédiés aux sciences de l'information, mais en introduisant une dimension historique.

Le deuxième est totalement centré sur la Chanson de Roland. Les circonstances de sa création sont intéressantes. En effet, ce sujet a été abordé avec des acteurs qui n'avaient aucune connaissance préalable sur le sujet. La construction du wiki a servi a donc progressé en parallèle avec l'acquisition des connaissances des constructeurs. Voici donc la genèse de ce projet.

Annotation type.jpg

La Bibliothèque universitaire de Lettres de Nancy est dépositaire d'un fonds Paul Meyer dont l'un des objet de référence est « La Chanson de Roland et le Roman de Roncevaux des XIIe et XIIIe siècles » écrit par Francisque Michel et annoté par Paul Meyer. Cet ouvrage s'appuie sur un manuscrit possédé à Oxford.

Sur le wiki Wicri/Musique, une œuvre du compositeur Gilles Mathieu, Irish Mass, avait été mise en ligne dans une approche hypertexte. Or Gilles Mathieu a écrit un suite musicale sur la Chanson de Roland, en s'appuyant sur le même manuscrit.

A l'occasion d'un stage, nous avons donc pensé créer le wiki sur la Chanson de Roland en associant ces deux approches. Le problème s'est révélé beaucoup plus complexe et plus intéressant qu'il n'avait été imaginé. En effet, Gilles Mathieu, s'est appuyé sur une autre transcription de ce manuscrit, réalisée par Paul Gautier. Les deux philologues médiévistes ont des divergences d'analyse. Par exemple, ils ne sont pas d'accord sur le découpage du texte du manuscrit en couplets.

Modèles et extensions sémantiques pour les systèmes de recherche.

Les extensions sémantiques ont été utilisées dès le départ en utilisant les colloques pour repérer les personnalités et institutions notables dans un champ scientifique donné.

Leur usage a été ensuite généralisé (par exemple les relations dans une dynasties).

Les rééditions structurantes, puis éditoriales

Pour construire un observatoire des recherches dans un champ donné, la réalisation d'un ensemble sémantique de fiches relatives aux chercheurs, laboratoires, congrès, publications, entités géographiques est « relativement simple » et quantifiable. La fusion de 4 universités demande de nombreuses modifications dans le réseau mais qui restent facilement programmables.

En revanche la rédaction d'une page de synthèse sur « la recherche en Lorraine » sur Wicri, ou la tentative de reconstruire une page correcte sur le concept de métadonnées sur Wikipédia s'avèrent complexe et demande un travail de rédaction très conséquent.

Dans le réseau Wicri, les premières rééditions ont été motivées par le besoin d'offrir rapidement des textes de synthèse. Ainsi le premier exemple a été : le CPER (Contrat de plan état région) de la Région Lorraine en 2007. Le document a été en fait réédité pour permettre une meilleure lisibilité en ligne et l'insertion de liens et d'annotations sémantiques.

A l'occasion d'une action politique nancéienne sur la Renaissance, un premier test de réédition dans une perspective hypertexte a été réalisée sur un ouvrage écrit par Henri Lepage en 1852 sur le Palais Ducal de Nancy. Les opérations suivantes ont été réalisées :

  • mise en ligne sous la forme d'un ensemble de pages wikis avec des mécanismes de navigation entre les chapitres,
  • correction de l'OCR issu de Gallica, (ce texte devient réutilisable)
  • insertion de nombreux liens sémantiques avec enrichissement du wiki sur l'histoire de la Lorraine (aspects structurants du domaine sur le wiki qui joue un rôle de glossaire)
  • reprise d'une figure contenant de nombreuses ancres (sous la forme de lettres majuscules) par une carte cliquable.

Dans cet exemple, il s'agit bien d'une réédition d'un ouvrage et pas simplement d'un archivage. De son coté le wiki n'est plus simplement un ensemble de pages ou de fiches mais commence à ressembler à une bibliothèque.

Les serveurs d'explorations

Nous avons évoqué plus haut l'utilisation d'une boîte de composants pour générer des dispositifs d'exploration de corpus paramétrables. Dans les années 2000, la technologie XML était utilisés pour résoudre des problèmes d'interopérabilité entre différentes sources d'information (par exemple Pascal et Medline). Les services proposés étaient livrés sous forme de rapport accompagnés d'une extraction de références bibliographiques pertinentes (par exemple 200 sur un ensemble de 5000 notices initiales).

Grâce au programme ISTEX, nous avons repris ce type d'expérimentation 150 sur quelques années. Une grande partie a été réalisée dans le cadre de travaux dirigés dans des master en science de l'information. Par rapport à la phase précédente l’infrastructure wiki a apporté des améliorations notables :

  • La génération des serveurs est réalisée à partir d'un paramétrage réalisé dans les pages du wiki (au lieu d'un assemblage assez complexe dans des scripts en shell d'unix). La lancement de la génération demande encore une compétence Unix, mais des actions comme le retrait d'un périodique d'un corpus peut être géré sur le wiki.
  • Des règles de curation peuvent être exprimées dans le wiki en s'appuyant sur la formalisation sémantique contenue dans le wiki.

Un phénomène non prévu initialement a joué un rôle fondamental : tous les documents manipulés dans le corpus sont visualisables à partir du wiki, par exemple à partir de projection dans des listes ou cartes géographiques. Il devient alors très tentant d'aller explorer des régions de faible occurrence (comme par exemple les 5 références inattendues de la région lorraine dans un corpus de 10.000 références). Cette curiosité s'avère extrêmement performante pour détecter des défaillances dans les corpus.

Par rapport à la réflexion générale de l'article, il est bien entendu possible de rééditer sur le wiki quelques articles repérés en texte intégral (ou sur un wiki privé en fonction des droits de copie). La bibliothèque peut donc être enrichie par des explorations de corpus et devient un espace de travail.

Applications aux humanités et patrimoines numériques

Nous venons de présenter des aspects universels de l'approche Wicri. Les différentes communautés scientifiques ont des relations différentes avec leurs production scientifique. Par exemple, en informatique, la plus récente publication sur un algorithme donné rend caduque, et pratiquement sans intérêt (hors évaluation) la plupart des précédentes. Dans les sciences du vivant une observation de terrain des années 1920 peut avoir un intérêt en 2020. Sur Wicri/Santé, dans l'espace dédié au Covid, un ouvrage de Gustave André écrit en 1908 sur la pandémie grippale de 1889 retrouve une actualité singulière en 2020.

Les wikis de colloques en sciences de l'information

Les sciences de l'information communication sont un lieu de rencontre entre la technologie numérique et les sciences humaines et sociales. L'exploitation de corpus d'articles dans leur histoire a donc du sens, et donc leur réédition hypertexte.

Pour les sciences de l'information, le projet Wicri implémente un exemple de réseau de bibliothèques, avec deux niveaux de validation. Trois wikis sont affectés à des communautés scientifiques (CIDE, H2PTM, VSST). Tous les articles acceptés peuvent donc y être transcrits, indexés, annotés, commentés dans les pages de discussion. Dans le contexte ISTEX, des étudiants (sous encadrement avancé) ont réalisé des serveurs d'exploration qui permettent d'éclairer la couverture de la communauté de ces colloques avec la production internationale. Ces wikis sont pilotés par les communautés scientifiques concernées.

Un wiki thématique commun (Wicri/Sciences de l'Information) est destiné notamment à mettre en valeur les meilleurs articles.

Le wiki Wicri/Histoire de l'IST

Les wikis cités au paragraphe précédents sont plutôt dédiés à l'actualité des sciences de l'information. Le wiki « histoire de l'IST » s'intéresse à l'information scientifique dans l'histoire.

Un des motifs de la création de ce wiki était de mieux comprendre les raisons de l’effondrement des bases Pascal/Francis et du dictionnaire TLF. Il s'agissait donc de travailler sur 50 ans d'histoire dans une dimension comparative (avec par exemple une comparaison avec la situation aux États-Unis). Or la création des bulletins scientifiques du CNRS en 1945 trouve une antériorité avec les tables annuelles de constantes éditées en 1910, et donc à la même période que les travaux de Paul Otlet.

Il nous a donc paru intéressant de situer cette analyse dans un paysage plus large. La page d'accueil du wiki cite notamment la tablette babylonienne YBC 7289 qui décrit le calcul de et qui est datée entre 1900 et 1600 av. J.-C..

Le wiki intègre donc des rééditions couvrant une large période historique.

Une démarche réalisée pendant un stage illustre la démarche recherchée. La mission portait sur l'histoire de l'IST en francophonie. Un article ancien du BBF a été réédité et attiré l'attention sur les problèmes liés à la santé. Un serveur d'exploration a dons été lancé à partir d'une recherche sur PubMed. Elle a permis de repérer un acteur tunisien important (Ahmed Ben Abdelaziz) dont les articles ont montré le rôle important de l'Institut Pasteur vers 1900. Un travail sur cet époque a permis de repérer le rôle de Ibl Al Jassar à Kairouan au Xe siècle.

La musique

Le wiki Wicri/Musique introduit une dimension multimédia qui offre un volet très démonstratif dans la valorisation du patrimoine écrit. Dans une bibliothèque classique ou sur Gallica la lecture avancée d'un livre traitant de musique implique que le lecteur soit capable d'interpréter une partition. Sur Wikipédia ou dans le réseau Wicri la musique peut être immédiatement écoutée[4].

La technologie utilisée repose sur le logiciel de gravure musicale LilyPond. La musique y est codée dans un langage formel dont la syntaxe rappelle celle de TeX pour les mathématiques. Voici par exemple les premières notes d'au clair de la lune en si bémol majeur :

\relative c' { 
  \time 4/4 
  \key bes \major  
  bes4 bes4 bes4 c4 
  d2 c2 }


\relative c'' { \time 4/4 \key bes \major bes4 bes4 bes4 c4 d2 c2 }

Les musiciens sont souvent partagés sur les avantages de cette pratique par rapport aux systèmes WYSIWIG, notamment pour les compositions conséquentes. Ici, de nombreux articles contiennent beaucoup de texte avec de courtes séquences musicales sur lesquelles plusieurs contributeurs peuvent intervenir.

Cette approche est mise en œuvre pour rééditer des articles issus notamment de Gallica. Des articles originaux ont été produits avec comme objectif éditoriaux d'aider les choristes interprétant des pièces de la Renaissance à comprendre les mécanismes de transcription à partir des partitions originales. Une pièce contemporaine (Irish Mass de Gilles Mathieu) a été rééditée sur une cinquantaine de pages wikis (soit des centaines de pages effectives), pour offrir des outils de travail à destination des choristes et des articles pour l'approfondissement du contexte et de la musique.

Les dictionnaires

L'article carillon du Dictionnaire de musique de Jean-Jacques Rousseau (1767) a été l'un des premiers articles de réédition avec une partition sur Wicri/Musique.

Sur Wicri/Musique la comparaison entre plusieurs dictionnaires :

  • Le dictionnaire de musique de Sébastien de Brossard (1703)
  • l'Encyclopédie de Diderot en 1751
  • le Trésor de la Langue Française (1970 - 1990)

Les dictionnaires sont en fait « découpés en articles » pour que les définitions puissent être comparées.

Pour la TLF les liens entre les entrées et les textes sont établis. Ainsi sur Wicri/Santé l'introduction à la médecine expérimentale de Claude Bernard est rééditées car elle est très souvent citée dans le TLF pour les articles médicaux. Cet exemple montre la faisabilité d'un ensemble constituté d'un dictionnaire de langue en construction incrémentale avec un ensemble de textes réédités dans cette bibliothèque.

Autour de la Chanson de Roland

Une expérimentation autour de la Chanson de Roland montre un autre type d'utilisation de ce modèle de bibliothèque encyclopédique.

En effet cette chanson de geste a généré un nombre considérable de livres, articles ou objets multimédia. Basés à l'origine sur une tradition orale elle a donné lieu à de multiples variantes. Par un concours de circonstances nous avons été amené à contruire un ensemble numérique où les principaux acteurs n'avaient au départ aucune connaissance de cette chanson de geste autre que de vieux souvenirs scolaires (pour les plus anciens !). La construction de cette bibliothèque numérique est donc une expérimentation très significative d'une construction itérative d'un système information scientifique.

Les sources et la modélisation de leur réseau

A partir d'une une histoire du VIIIe siècle, la Chanson de Roland rassemble un large panorama d'informations patrimoniales hétérogènes : , des manuscrits du XIIe siècle, des ouvrages du XIXe siècle, de multiples publications au XXe siècle et une composition musicale du XXIe siècle. Toutes ces sources peuvent être rééditées, découpées, ré-assemblées dans une formulation hypertexte.

Grandes difficultés de trouver les informations (avalanche de sources, hétérogénéité; hermétisme sans érudition).

Dans un premier temps, une priorité s'est manifestée : la gestion des sources primaires (manuscrits), leurs transcriptions et leurs traduction. En effet, la plupart des articles contiennent des références sous la forme de numéro de vers ou de numéro de laisse.

L'organisation des manuscrits parait relativement simple. Un manuscrit est un ensemble de vers qui sont d'une part répartis sur un ensemble de feuillets recto verso, et d'autre part regroupés en couplets (laisses). Une laisse contient des vers rimés et commence par une lettrine. Elle peut être à cheval sur 2 pages.

En fait, dès que l'on cherche à aligner plusieurs ouvrages primaires (transcription) avec un manuscrit les divergences de numérotation sont omniprésentes. Ainsi la dernière laisse est numérotée CCXCI chez Roland Bédier, CCXCIII chez Edmund Stengel, CCXCVI chez Francisque Michel et CCXCVII chez Léon Gautier.

Premier essai d'association entre le l'ouvrage de Francisque Michel et les le manuscrit d'Oxford.

Les manuscrits

  • feuillets
  • laisses
  • vers
  • erreurs des copistes

Les transcriptions, les traductions

Les études

Les interactions entre un Oratorio profane, les manuscrits et les traductions

Blog dialogue avec un compositeur

Analyses et perspectives

Les approches et technologies ici expérimentées sont largement utilisées au niveau mondial dans des applications souvent spécialisées.

Conclusion

Progressivement et paradoxalement, sur un support numérique, nous avons travaillé comme les bibliothécaires, les copistes et... les savants avant l'invention de l'imprimerie. La bibliothèque n'était pas seulement un lieu de stockage de la connaissance mais avant tout un espace de travail et d'échange scientifique.

Notes

  1. Pendant la même période la NLM a doublé la production de la base PubMed réalisée par des spécialistes, assistés et non dominés, par les algorithmes.
  2. Par exemple Avec les formats précédents (ISO 2709), toute requête exploratoire demandée par un ingénieur documentaliste demandait quelques jours de développement informatique. Avec cette boîte à outils il suffisait sous unix de lancer une requête paramétrée par une préfiguration des Xpath pour résoudre la plupart des demandes.
  3. Un programme de formation avait été déployé sur une centaine d'ingénieurs sur plusieurs années. L'étape initiale de « formation Unix - Langage C - analyseurs lexicographique » était souvent très mal vécue. En revanche, les témoignages en fin d'opération étaient plutôt satisfaisants (y compris sur la nécessité de vaincre le blocage initial).
  4. Au moment où cet article est rédigé, pour des raisons de sécurité cette fonction est provisoirement désactivée sur Wikipédia.

Bibliographie

[Lagoze 2005] Carl Lagoze,  et al. What Is a Digital Library Anymore, Anyway? In: D-Lib Magazine, 11 2005
Traduit dans la revue AMETIST : Qu'est-ce qu'une bibliothèque numérique, au juste ? Juin 2006

< http://www.dlib.org/dlib/november05/lagoze/11lagoze.html >