HIS 2021 Casablanca/Atelier Wicri/Article version 1

De Wicri Chanson de Roland
< HIS 2021 Casablanca‎ | Atelier Wicri
Révision datée du 4 octobre 2021 à 16:22 par Jacques Ducloy (discussion | contributions) (La Chanson de Roland, expérience pilote dans les humanités numériques)
logo travaux Suite à une réunion de travail, cet article doit être totalement remanié !

Cette page introduit un projet d'article pour le colloque HIS.7.

Projet de titre
Bibliothèques encyclopédiques pour la valorisation du patrimoine
Sous-titre
Une application pilote avec la Chanson de Roland
Avant-propos

Cet article est rédigé sur le wiki Wicri/Chanson de Roland. Les travaux sur le wiki sont réalisés en relation avec sa rédaction.

Introduction

Qu'est-ce qu'une bibliothèque numérique, au juste ?

Il y a 15 ans, Carl Lagoze, un des pionniers des archives ouvertes aux États-Unis posait cette question dans un article de référence [Lagoze 2005]. Le terme hypertexte était absent de cet article.

Au même moment, Wikipédia allait bouleverser le monde de la connaissance et réaliser une partie des rêves de Paul Otlet. Le réseau Wicri s'est donc appuyé sur cette technologie pour proposer un réseau de sites encyclopédiques pour la recherche. Puis, des articles, des livres, y ont été réédités dans un mode hypertexte. Le site ressemble donc à une bibliothèque où les rayonnages sont remplacés par un substrat encyclopédique.

En 2021, une demande de valorisation d'un ouvrage autour de la Chanson de Roland a révélé un champ d'application exceptionnel pour les architectures hypertextuelles. En effet il demande de faire coopérer des centaines de documents du XIXe siècle qui discutent sur des fragments de textes extraits de dizaines de manuscrits recopiés entre le Xe et le XIVe siècle. Les articles contemporains explorent cet ensemble dans toutes les directions, pour travailler manipuler ou comparer ces fragments et les autres textes qui en discutent. Tous ces documents sont disponibles sur de multiples sites qui ont chacun leur propre logique. Comment rééditer ces écrits dans un ensemble hypertexte unifié pour permettre tout type d'explotation.

Ces expérience nous amènent donc à reposer la question :

  • Qu'est-ce qu'une bibliothèque numérique encyclopédique pour le patrimoine au juste ?

Dans cet article, nous présenterons différents volets de cette expérimentation sur la Chanson de Roland.

...

La genèse du projet Wicri/Chanson de Roland

L'expérience sur la Chanson de Roland est issue d'un concours de circonstances qui mérite d'être rapporté car il illustre la réactivité des approches étudiées dans ce projet. Voici donc les points de départ de cette initiative.

L'expérimentation Wicri

L'expérimentation « Wicri » est actuellement portée par le laboratoire Paragraphe de l'Université Paris 8. En fait, le réseau Wicri a été créé il y a 10 ans par des acteurs impliqués depuis 50 ans sur le développement de l'informatique au service de la recherche (LORIA) puis sur des grands projets numériques du CNRS sur la connaissance au service de la société (INIST, TLF). En 2008, l'expérience Wikipédia venait de montrer que des milliers de volontaires avaient trouvant du plaisir pour construire un immense service de diffusion de connaissances.

La DRRT Lorraine, en accord avec Nancy Université, a donc soutenu un programme nommé WICRI (Wikis pour les communautés de la recherche et de l'innovation) afin de tester cette approche. Quelques wikis ont été créés avec deux différences fondamentales par rapport à Wikipédia.

  • Les chercheurs produisent des informations originales et donc non sourcées. L'anonymat est donc exclu et tous les contributeurs sont sélectionnés et identifiables.
  • Wikipédia est une gigantesque encyclopédie mais dans un seul ouvrage. Wicri est un réseau de sites scientifiques où chacun peut être piloté par une communauté scientifique.

Ce réseau a servi de support pour des centaines d'expérimentations, notamment dans les sciences de l'environnement, et récemment, dans la santé dans le cadre des mobilisations sur le COVID. Des expérimentations ont été également menées en sciences humaines, sous la forme de rééditions numériques en histoire Lorraine ou en musique par exemple.

Francisque Michel annoté par Paul Meyer

Suite à une réédition d'un ouvrage d'Henri Lepage édité en 1852 sur le Palais Ducal de Nancy, l'équipe Wicri a été sollicitée pour assister un stagiaire en philologie.

Annotation type.jpg

En effet, la Bibliothèque universitaire de Lettres de Nancy (BUL) est dépositaire d'un fonds Paul Meyer dont l'un des objet de référence est « La Chanson de Roland et le Roman de Roncevaux des XIIe et XIIIe siècles » écrit par Francisque Michel et annoté par Paul Meyer. Cet ouvrage s'appuie sur un manuscrit possédé par la bibliothèque Bodléienne à Oxford. Cet ouvrage avait fait l'objet d'une mission de stage portée par la BUL pour le valoriser par une réédition numérique.

L'équipe Wicri a donc apporté un soutien logistique pour rééditer cet ouvrage sur un wiki dédiée aux collections de la BUL en 2014.

D'Irish Mass à la Chanson de Roland

De façon totalement indépendante, sur un wiki dédié à la musique, en 2018, l'équipe Wicri avait procédé à une mise en ligne des partitions d'une œuvre du compositeur Gilles Mathieu. En effet, cette pièce nommée Irish Mass (messe irlandaise) avait fait l'objet d'une œuvre régionale des chorales de la fédération A Coeur Joie Lorraine. Le site avait été construit pour permettre aux choristes de trouver des outils d'apprentissage et surtout, pour les chanteurs ou auditeurs curieux de découvrir le contexte culturel et musical de l’œuvre.

Or Gilles Mathieu a aussi réalisé une suite sur la Chanson de Roland (qui avait été interprétée par la Chorale Universitaire de Nancy).

Un stage déclencheur

En 2021, le projet Wicri a été sollicité pour accueillir des stages d’étudiants en L3 sciences cognitives. Un des candidats avait une bonne culture musicale. Il lui a alors été demandé, comme mission de stage, d'étudier le rapprochement de la réédition annotée avec une transcription de la suite composée par Gilles Mathieu.

La suite de cet article sera illustrée principalement à partir de expérimentation en mai 2021 sur la Chanson de Roland. Les circonstances de sa création sont intéressantes. En effet, ce sujet a été abordé avec des acteurs qui n'avaient aucune connaissance préalable sur le sujet. La construction du wiki a servi a donc progressé en parallèle avec l'acquisition des connaissances des constructeurs.

Le problème s'est révélé beaucoup plus complexe et plus intéressant qu'il n'avait été imaginé. En effet, Gilles Mathieu, s'est appuyé sur une autre transcription de ce manuscrit, réalisée par Paul Gautier. Or les deux philologues médiévistes ont des divergences d'analyse. Par exemple, ils ne sont pas d'accord sur le découpage du texte du manuscrit en couplets.

Cette mission de stage a donc levé un problème beaucoup plus complexe (et intéressant). Il a donc été décidé de mener une étude de faisabilité sur un projet de grande ampleur autour des multiples sources et travaux sur la Chanson de Roland.

La Chanson de Roland, expérience pilote dans les humanités numériques

En mai 2021, la Chanson de Roland est donc devenue pour une expérience pilote. Cette section en détaille les diverses facettes du projet Wicri sur lesquelles va s'appuyer ce chantier.

Le réseau Wicri est souvent présenté comme une bibliothèque numérique où les ouvrages sont réédités, dans une approche hypertexte sur une architecture où les rayonnages sont remplacés par des encyclopédies.

Les fondations encyclopédiques

De façon générale le noyau encyclopédique Wicri est une fédération d'observatoires sur les recherches en cours. Les travaux sur (ou autour de) la Chanson de Roland sont abondants, par exemple 30.000 documents sur Google Scolar. Face à l'abondance de cette littérature, le wiki Wicri/Chanson de Roland devra intégrer un observatoire encore embryonnaire. Sur chaque wiki, ce noyau est ensuite complété par des données propres au domaine (par exemple, la classification du vivant dans les domaines de l'environnement. Cet ensemble forme la base encyclopédique.

Cette section présente le montage des fondations encyclopédiques pour favoriser une large variété de travaux relatifs à la Chanson de Roland. Le projet Wicri étudie les nouvelles pratiques des acteurs de la recherche et de l'innovation face aux changements de paradigme dans le numérique. L'expérimentation sur la Chanson de Roland permet d'approfondir cette réflexion dans le champ des applications du patrimoine. L'objectif actuel du projet est de l'explorer de façon transversale (sans chercher à l'exhaustivité des branches).

Signalements multiples et mises en fiches

La technologie utilisée repose sur MediaWiki, le moteur de Wikipédia, qui offre une palette de dispositifs, comme par exemple les pages de discussions ou les pages personnelles, où l'on peut noter des informations brutes ou des questionnements.

Un autre point fort de MediaWiki est la puissance des modèles qui donnent aux spécialistes d'un domaine une très grande autonomie de développements. Par exemple, sur Wikipédia, chaque communauté peut définir ses propres boîtes de description (infobox).

Concernant la Chanson de Roland, plusieurs types de données doivent être pris en compte : les recherches en cours, la littérature historique, et le sujet proprement dit.

Le signalement des recherches en cours est basé sur les publications avec des métadonnées relativement classiques. L'identification des grandes revues (exemple Romania) ou des grands colloques (exemple : Rencesvals) est un premier point d'entrée pour localiser (et mettre en fiches) les personnalités essentielles (via les comités) les articles fondamentaux, les institutions dans leurs contextes géographiques actuels. Avec l'introduction des indicateurs dans le vie académique depuis 30 ans, l'identification de ces éléments est relativement facile. Les acteurs et les organismes vont être répartis sur des pages wikis avec les liens vers d'autres pages affectés aux entités géographiques. Pour faciliter la tâche des contributeurs, (et l'insertion dans le Web sémantique) le nommage de ces pages est aligné sur Wikipédia.

En revanche, les éléments de la littérature historique (des manuscrits aux ouvrages des années 1950 en passant par les traductions du XIXe siècle) sont apparues plus complexes à identifier. Il faut par exemple intégrer les variantes historiques des éléments bibliographiquees (en s'appuyant notamment sur Data.bnf).

L'histoire de la Chanson de Roland, avec ses personnages, ses lieux, ses évènements ouvre un autre champ d'investigation où il faut expliciter ce qui relève de l'histoire où de la légende. Il faut également intégrer les autres récits (chansons de geste...) qui l'ont inspiré.

La Chanson de Roland est également une source de textes de références pour les études sur les langues médiévales.

Enfin, la Chanson de Roland a inspiré une multitude d’œuvres romanesques, théâtrales, musicales ou cinématographiques dans différentes régions pour différents publics.

Tous ces éléments doivent faire l'objet de fiches commentées en reliées dans la base encyclopédique.

Réseaux sémantiques dans la base encyclopédique

MediaWiki propose un mécanisme de catégories hiérarchisées. Il permet de définir un thésaurus qui apporte un premier élément de structuration sémantique.

Le réseau Wicri utilise également les extensions sémantiques (Semantic MediaWiki). Elles permettent d'affecter un nom de propriété aux liens entre pages. Par exemple, dans la page décrivant le colloque Rencesvals 2020 Nancy, la mention de l'Université de Lorraine en tant qu'organisatrice est codifiée ainsi :

[[A pour organisateur::Université de Lorraine]]

Sur la page de l'Université, un modèle nommé {{Wicri voir aussi, université}} permet alors d'afficher automatiquement la liste des manifestations organisées par cette institution.

Ce modèle sémantique des organisations a été rodé dans des domaines où les chercheurs sont attentifs au signalement de leurs affiliations, où les organisations de colloques sont formalisées et où les pratiques liées à la science ouverte se généralisent. Ici, cette formalisation est plus complexe. Par exemple, dans les congrès de la Société Rencesvals, la notion de comité de programme est nettement plus floue, avec un comité d'organisation qui joue manifestement un rôle de sélection scientifique.

Pour les lecteurs, la navigation élémentaire est transparente (comme sur Wikipédia). Une formation légère permet de bénéficier d'une navigation experte. Pour les contributeurs, une petite formation est nécessaire pour utiliser une ontologie existante. L'adjonction de nouveaux attributs relève de la conception d'ontologies.

logo travaux A partir de ce point le texte est souvent réduit à suite de notes ou doit être remanié en profondeur

Les serveurs d'explorations pour enrichir la base encyclopédique

Cohérence sémantique dans le réseau

Cette couche encyclopédique est en grande partie indépendant d'un domaine donné. Le réseau de wikis apporte alors une aide importante pour bâtir les fondations d'un nouveau wiki.

Le réseau actuel est un ensemble d'une vingtaine de familles multilingues à couverture géographique, un autre ensemble équivalent de sites scientifiques, quelques wikis spécialisés, et des wikis techniques. Un des wikis techniques (Wicri/Base) contient un ensemble d'un millier de modèles et métadonnées communes qui apporte un premier niveau de cohérence sémantique au réseau.

WicriRéseauGabarit3.png

Pour aller sur Wicri/Wicri (fr)

Pour aller sur le wiki d'accueil du domaine lorexplor.ixtex.fr (fr)

Pour aller sur le pool d'images du réseau Wicri sur le domaine lorexplor.istex.fr

Pour aller sur le wiki d'accueil du réseau Wicri sur le domaine wicri-demo.istex.fr

Pour aller sur le pool d'images du réseau Wicri sur le domaine wicri-demo.istex.fr

Pour aller sur le wiki de service Wicri/Manuel (fr)

Pour aller sur le wiki de service Wicri/Base 1.28 (fr)

Pour aller sur le wiki de service Wicri/Base 1.31 (fr)

Pour aller sur le wiki de service Wicri/Métadonnées (fr)

Pour aller sur Wicri/Outils (fr)

Pour aller sur Wicri/Archéologie (fr)

Pour aller sur le wiki Wicri/Arts (fr)

Pour aller sur le wiki Wicri/Musique (fr)

Pour aller sur Wicri/Ingénierie (fr)

Pour aller sur le wiki Wicri/Psychologie (fr)

Pour aller sur le wiki Wicri/Yoga (fr)

Pour aller sur Wicri/Informatique (fr)

Pour aller sur Wicri/Sic (fr)

Pour aller sur le wiki Wicri/Histoire des sciences (fr)

Pour aller sur le wiki Wicri/Histoire de l'IST (fr)

Pour aller sur Wicri/Linguistique (fr)

Pour aller sur Wicri/Mathématiques (fr)

Pour aller sur Wicri/Santé (fr)

Pour aller sur Wicri/Biomasse (fr)

Pour aller sur Wicri/Eau (fr)

Pour aller sur Wicri/Bois et forêts (fr)

Pour aller sur Wicri/Terre (fr)

Pour aller sur Wicri/Sols urbains (fr)

Pour aller sur Wicri/Agronomie (fr)

Pour lire les Mots de  l'Agronomie (fr)

Pour aller sur Wicri/Animaux (fr)

Pour aller sur le wiki des émérites de Lorraine (fr)

Pour aller sur Wicri/Artist (fr)

Pour aller sur Wic/Sic/Cide (fr)

Pour aller sur Wic/Sic/H2PTM (fr)

Pour aller sur Wicri Sic/VSST (fr)

Pour aller sur le wiki du réseau Médici (fr)

Pour aller sur Wicri/Afrique (fr)

Pour aller sur Wicri/Amérique (fr)

Pour aller sur Wicri/Asie (fr)

Pour aller sur Wicri/Europe (fr)

Pour aller sur Wicri/Océanie (fr)

Pour aller sur Wicri/Belgique (fr)

Pour aller sur Wicri/Allemagne (fr)

Pour aller sur Wicri/France (fr)

Pour aller sur Wicri/Luxembourg (fr)

Pour aller sur Wicri/Francophonie (fr)

Pour aller sur Wicri/Maroc (fr)

Pour aller sur Wicri/Brésil (fr)

Pour aller sur Wicri/Canada (fr)

Pour aller sur Wicri/Grande Région (fr)

Pour aller sur Wicri/Rhénanie-Palatinat (fr)

Pour aller sur Wicri/Sarre (fr)

Pour aller sur Wicri/Wallonie (fr)

Pour aller sur Wicri/Chanson de Roland (fr)

Pour aller sur Wicri/Grand Est (fr)

Pour aller sur Wicri/Grand Est (fr)

Pour aller sur Wicri/Alsace (fr)

Pour aller sur Wicri/Lorraine (fr)

Pour aller sur Wicri/Histoire Lorraine (fr)

Pour aller sur Wicri Lorraine/Bul Nancy (fr)

Pour aller sur Wicri/Nancy (fr)

Pour aller sur Wicri/Île-de-France (fr)

Rééditions numériques hypertextuelles

Les rééditions structurantes, puis éditoriales

La musique

Le wiki Wicri/Musique introduit une dimension multimédia qui offre un volet très démonstratif dans la valorisation du patrimoine écrit. Dans une bibliothèque classique ou sur Gallica la lecture avancée d'un livre traitant de musique implique que le lecteur soit capable d'interpréter une partition. Sur Wikipédia ou dans le réseau Wicri la musique peut être immédiatement écoutée[1].

La technologie utilisée repose sur le logiciel de gravure musicale LilyPond. La musique y est codée dans un langage formel dont la syntaxe rappelle celle de TeX pour les mathématiques. Voici par exemple les premières notes d'au clair de la lune en si bémol majeur :

\relative c' { 
  \time 4/4 
  \key bes \major  
  bes4 bes4 bes4 c4 
  d2 c2 }


\relative c'' { \time 4/4 \key bes \major bes4 bes4 bes4 c4 d2 c2 }

Les musiciens sont souvent partagés sur les avantages de cette pratique par rapport aux systèmes WYSIWIG, notamment pour les compositions conséquentes. Ici, de nombreux articles contiennent beaucoup de texte avec de courtes séquences musicales sur lesquelles plusieurs contributeurs peuvent intervenir.

Cette approche est mise en œuvre pour rééditer des articles issus notamment de Gallica. Des articles originaux ont été produits avec comme objectif éditoriaux d'aider les choristes interprétant des pièces de la Renaissance à comprendre les mécanismes de transcription à partir des partitions originales. Une pièce contemporaine (Irish Mass de Gilles Mathieu) a été rééditée sur une cinquantaine de pages wikis (soit des centaines de pages effectives), pour offrir des outils de travail à destination des choristes et des articles pour l'approfondissement du contexte et de la musique.

Les dictionnaires

L'article carillon du Dictionnaire de musique de Jean-Jacques Rousseau (1767) a été l'un des premiers articles de réédition avec une partition sur Wicri/Musique.

Sur Wicri/Musique la comparaison entre plusieurs dictionnaires :

  • Le dictionnaire de musique de Sébastien de Brossard (1703)
  • l'Encyclopédie de Diderot en 1751
  • le Trésor de la Langue Française (1970 - 1990)

Les dictionnaires sont en fait « découpés en articles » pour que les définitions puissent être comparées.

Pour la TLF les liens entre les entrées et les textes sont établis. Ainsi sur Wicri/Santé l'introduction à la médecine expérimentale de Claude Bernard est rééditées car elle est très souvent citée dans le TLF pour les articles médicaux. Cet exemple montre la faisabilité d'un ensemble constituté d'un dictionnaire de langue en construction incrémentale avec un ensemble de textes réédités dans cette bibliothèque.

Le chantier de la Chanson de Roland

Une expérimentation autour de la Chanson de Roland montre un autre type d'utilisation de ce modèle de bibliothèque encyclopédique.

En effet cette chanson de geste a généré un nombre considérable de livres, articles ou objets multimédia. Basés à l'origine sur une tradition orale elle a donné lieu à de multiples variantes. Par un concours de circonstances nous avons été amené à contruire un ensemble numérique où les principaux acteurs n'avaient au départ aucune connaissance de cette chanson de geste autre que de vieux souvenirs scolaires (pour les plus anciens !). La construction de cette bibliothèque numérique est donc une expérimentation très significative d'une construction itérative d'un système information scientifique.

Les sources et la modélisation de leur réseau

A partir d'une une histoire du VIIIe siècle, la Chanson de Roland rassemble un large panorama d'informations patrimoniales hétérogènes : , des manuscrits du XIIe siècle, des ouvrages du XIXe siècle, de multiples publications au XXe siècle et une composition musicale du XXIe siècle. Toutes ces sources peuvent être rééditées, découpées, ré-assemblées dans une formulation hypertexte.

Grandes difficultés de trouver les informations (avalanche de sources, hétérogénéité; hermétisme sans érudition).

Dans un premier temps, une priorité s'est manifestée : la gestion des sources primaires (manuscrits), leurs transcriptions et leurs traduction. En effet, la plupart des articles contiennent des références sous la forme de numéro de vers ou de numéro de laisse.

L'organisation des manuscrits parait relativement simple. Un manuscrit est un ensemble de vers qui sont d'une part répartis sur un ensemble de feuillets recto verso, et d'autre part regroupés en couplets (laisses). Une laisse contient des vers rimés et commence par une lettrine. Elle peut être à cheval sur 2 pages.

En fait, dès que l'on cherche à aligner plusieurs ouvrages primaires (transcription) avec un manuscrit les divergences de numérotation sont omniprésentes. Ainsi la dernière laisse est numérotée CCXCI chez Roland Bédier, CCXCIII chez Edmund Stengel, CCXCVI chez Francisque Michel et CCXCVII chez Léon Gautier.

Premier essai d'association entre le l'ouvrage de Francisque Michel et les le manuscrit d'Oxford.

Les manuscrits

  • feuillets
  • laisses
  • vers
  • erreurs des copistes

Les transcriptions, les traductions

Les études

Les interactions entre un Oratorio profane, les manuscrits et les traductions

Blog dialogue avec un compositeur

Les racines du projet Wicri

Cette section repose sur des informations détaillées sur le wiki Wicri/Histoire de l'IST sur lequel des témoignages basés sur la mémoire sont confrontés à des documents des années 1970 - 2000. Ils sont remis en perspective avec des ouvrages plus anciens (Paul Otlet) et des études historiques pouvant à l'antiquité.


En réalité ce projet a été créé en Lorraine par des acteurs impliqués il y a 50 ans d'abord dans le développement de l'informatique au service de la recherche, puis dans de grandes réalisations de la connaissance numérique au service de la société : le Dictionnaire Trésor de la Langue Française (TLF) et les bases Pascal et Francis.

L'informatique s'est développée au CNRS dans le département « sciences pour l'ingénieur (SPI) ». Le CNRS voulait accompagner les ingénieurs afin qu'ils puissent résoudre collectivement des problèmes de grande complexité.

En 2020, la résolution des applications complexes dans les humanités exige également une appropriation conséquente du numérique.

Le projet Wicri explore maintenant les outils et pratiques qui peuvent être appropriées par les chercheurs et praticiens du patrimoine culturel.

Dans les années 65 à 95, le TLF a mobilisé près d'une centaine de linguistes de haut niveau pour produire un dictionnaire de référence. En 90 - 95 Le TLFi (TLF informatisé en ligne) a offert une transposition numérique de ce document.

De 1945 à 1992, des centaines d'ingénieurs de haut niveau ont édités les bulletins signalétiques du CNRS. Ils rédigeaient des résumés en français accompagnée d'une indexation contrôlée pour offrir à la société une synthèse périodique et analysée de l'essentiel de la production scientifique mondiale. Dans les années 75, le contenu des bulletins a été automatisé pour produire les bases Pascal et Francis. Dans les sciences humaines et la valorisation du patrimoine (BHA) la base Francis était le résultat d'un très large réseau de coopérations.

Dans les années 95, pour des des raisons financières, le CNRS a décidé d'arrêter les travaux sur le dictionnaire TLF et de restreindre les bases Pascal et Francis à la fourniture de documents [2]. En fait, la complexité des chaines de production a joué un rôle important dans la prise de décision du CNRS.

Or quelques années plus tard, dans les années 2000 à 2010, des dizaines de milliers de volontaires ont trouvé du plaisir à construire Wikipédia. Les mécanismes de production de la connaissance numérique ont été bouleversés. Cette dynamique pourrait-elle s'appliquer dans de grands projets académiques pilotés par des scientifiques ?

Face au déferlement de fausses informations sur le web, le projet Wicri explore les outils et pratiques qui pourraient relancer de grandes applications d'information scientifique ou culturelle pilotées par les communautés de la recherche

Pour progresser dans ces objectifs, deux ruptures technologiques ont été étudiées d'abord la technologie XML, puis les wikis programmables et sémantiques.

SGML puis XML pour l'exploration des corpus

Créé en 1986 pour des applications industrielles, le standard SGML s'est rapidement diffusé dans les humanités numériques avec les recommandations TEI en 1988.

Dans les années 90, le projet ILIB a été développé à l'INIST pour améliorer l'exploitation des bases Pascal et Francis en utilisant SGML pour les métadonnées bibliographiques[3]. Un peu plus tard, au LORIA, une nouvelle version nommée DILIB, permettait d'assembler des modules en interface XMl pour générer des systèmes de recherche d'information incluant des fonctions infométriques (notamment des algorithmes de classification). Nous évoquerons plus loin les corpus de documents plein textes en TEI avec ISTEX.

Par rapport aux objectifs visés plus haut, des améliorations notables ont été apportées. Mais quelques verrous technologiques n'étaient pas résolus. Par exemple :

  • Les chaînes de production pour des applications comme le TLF ou Pascal demandaient encore des investissements très conséquents, avec des délais se chiffrant en années entre la décision politique et sa réalisation.
  • Du côté des ingénieurs, l'utilisation des outils XML exigeait une maitrise conséquente de la programmation C sous Unix. [4]
  • Dans les serveur d'exploration qui seront évoqués plus loin, la gestion des ontologies nécessaires à la curation de données était encore très complexe.

Un réseau d'encyclopédies pour transmettre la connaissance scientifique

Les serveurs d'explorations

Nous avons évoqué plus haut l'assemblage de composants XML pour générer des dispositifs personnalisés d'exploration de corpus. Dans les années 2000, les services proposés relevaient de la recherche d'acteurs dans des corpus de métadonnées hétérogènes (exemple Pascal et Medline) mais bien structurés. Les résultats étaient générallement livrés sous forme de rapport accompagnés d'une extraction de quelques références bibliographiques pertinentes (par exemple 200 sur un ensemble de 5000 notices initiales).

Avec la solution ici proposée, les corpus sont visibles dans leur intégralité, par exemple à partir de projection dans des listes ou cartes géographiques. Il devient alors très tentant d'aller explorer des régions de faible occurrence (comme par exemple la seule références de la région lorraine dans un corpus de 3.000 références). Cette curiosité s'avère extrêmement performante pour détecter des défaillances dans les corpus.


Grâce au programme ISTEX, nous avons repris ce type d'expérimentation 150 sur quelques années. Une grande partie a été réalisée dans le cadre de travaux dirigés dans des master en science de l'information. Par rapport à la phase précédente l’infrastructure wiki a apporté des améliorations notables :

  • La génération des serveurs est réalisée à partir d'un paramétrage réalisé dans les pages du wiki (au lieu d'un assemblage assez complexe dans des scripts en shell d'unix). La lancement de la génération demande encore une compétence Unix, mais des actions comme le retrait d'un périodique d'un corpus peut être géré sur le wiki.
  • Des règles de curation peuvent être exprimées dans le wiki en s'appuyant sur la formalisation sémantique contenue dans le wiki.

Valorisation des publications

Le résultat des étapes précédentes est un réseau de fiches commentées. La phase suivante est dédiée à la valorisation des publications les plus significatives.

Par exemple, pour les sciences de l'information, le projet Wicri implémente un exemple de réseau de bibliothèques, avec deux niveaux de validation. Trois wikis sont affectés à des communautés scientifiques (CIDE, H2PTM, VSST). Tous les articles acceptés peuvent donc y être transcrits, indexés, annotés, commentés dans les pages de discussion. Dans le contexte ISTEX, des étudiants (sous encadrement avancé) ont réalisé des serveurs d'exploration qui permettent d'éclairer la couverture de la communauté de ces colloques avec la production internationale. Sur cet ensemble, un wiki thématique commun (Wicri/Sciences de l'Information) va mettre en valeur les meilleurs articles.

Ces articles sont généralement transcrits en wikitexte pour bénéficier des mécanismes d'indexation sémantique (et être analysés par le moteur de recherche du wiki).

Concernant la Chanson de Roland, cette phase en en cours de démarrage. Elle pose quelques problèmes spécifiques :

  1. Les pratiques liées à la science ouverte sont encore peu répandues dans la communauté scientifique concernée. Il est donc difficile de valoriser des articles récents.
  2. La lecture de nombreux articles demande une solide érudition. Le wiki doit donc offrir une collection d'articles abordables par un plus large public.
  3. Ces articles font des références aux manuscrits originaux et à leurs transcriptions et traductions historiques.

Ce dernier point fait l'objet des travaux prioritaires et sera détaillé dans la section suivante.

Rééditions

Les rééditions structurantes, puis éditoriales

Pour construire un observatoire des recherches dans un champ donné, la réalisation d'un ensemble sémantique de fiches relatives aux chercheurs, laboratoires, congrès, publications, entités géographiques est « relativement simple » et quantifiable. La fusion de 4 universités demande de nombreuses modifications dans le réseau mais qui restent facilement programmables.

En revanche la rédaction d'une page de synthèse sur « la recherche en Lorraine » sur Wicri, ou la tentative de reconstruire une page correcte sur le concept de métadonnées sur Wikipédia s'avèrent complexe et demande un travail de rédaction très conséquent.

Dans le réseau Wicri, les premières rééditions ont été motivées par le besoin d'offrir rapidement des textes de synthèse. Ainsi le premier exemple a été : le CPER (Contrat de plan état région) de la Région Lorraine en 2007. Le document a été en fait réédité pour permettre une meilleure lisibilité en ligne et l'insertion de liens et d'annotations sémantiques.

A l'occasion d'une action politique nancéienne sur la Renaissance, un premier test de réédition dans une perspective hypertexte a été réalisée sur un ouvrage écrit par Henri Lepage en 1852 sur le Palais Ducal de Nancy. Les opérations suivantes ont été réalisées :

  • mise en ligne sous la forme d'un ensemble de pages wikis avec des mécanismes de navigation entre les chapitres,
  • correction de l'OCR issu de Gallica, (ce texte devient réutilisable)
  • insertion de nombreux liens sémantiques avec enrichissement du wiki sur l'histoire de la Lorraine (aspects structurants du domaine sur le wiki qui joue un rôle de glossaire)
  • reprise d'une figure contenant de nombreuses ancres (sous la forme de lettres majuscules) par une carte cliquable.

Dans cet exemple, il s'agit bien d'une réédition d'un ouvrage et pas simplement d'un archivage. De son coté le wiki n'est plus simplement un ensemble de pages ou de fiches mais commence à ressembler à une bibliothèque.

Applications aux humanités et patrimoines numériques

Nous venons de présenter des aspects universels de l'approche Wicri. Les différentes communautés scientifiques ont des relations différentes avec leurs production scientifique. Par exemple, en informatique, la plus récente publication sur un algorithme donné rend caduque, et pratiquement sans intérêt (hors évaluation) la plupart des précédentes. Dans les sciences du vivant une observation de terrain des années 1920 peut avoir un intérêt en 2020. Sur Wicri/Santé, dans l'espace dédié au Covid, un ouvrage de Gustave André écrit en 1908 sur la pandémie grippale de 1889 retrouve une actualité singulière en 2020.

Le wiki Wicri/Histoire de l'IST

Les wikis cités au paragraphe précédents sont plutôt dédiés à l'actualité des sciences de l'information. Le wiki « histoire de l'IST » s'intéresse à l'information scientifique dans l'histoire.

Un des motifs de la création de ce wiki était de mieux comprendre les raisons de l’effondrement des bases Pascal/Francis et du dictionnaire TLF. Il s'agissait donc de travailler sur 50 ans d'histoire dans une dimension comparative (avec par exemple une comparaison avec la situation aux États-Unis). Or la création des bulletins scientifiques du CNRS en 1945 trouve une antériorité avec les tables annuelles de constantes éditées en 1910, et donc à la même période que les travaux de Paul Otlet.

Il nous a donc paru intéressant de situer cette analyse dans un paysage plus large. La page d'accueil du wiki cite notamment la tablette babylonienne YBC 7289 qui décrit le calcul de et qui est datée entre 1900 et 1600 av. J.-C..

Le wiki intègre donc des rééditions couvrant une large période historique.

Une démarche réalisée pendant un stage illustre la démarche recherchée. La mission portait sur l'histoire de l'IST en francophonie. Un article ancien du BBF a été réédité et attiré l'attention sur les problèmes liés à la santé. Un serveur d'exploration a dons été lancé à partir d'une recherche sur PubMed. Elle a permis de repérer un acteur tunisien important (Ahmed Ben Abdelaziz) dont les articles ont montré le rôle important de l'Institut Pasteur vers 1900. Un travail sur cet époque a permis de repérer le rôle de Ibl Al Jassar à Kairouan au Xe siècle.

Analyses et perspectives

Les approches et technologies ici expérimentées sont largement utilisées au niveau mondial dans des applications souvent spécialisées. Le projet Wicri veut offrir, sur un sujet donné, ici la Chanson de Roland, une infrastructure commune pour multiples applications.

Transmission des connaissances

Autonomie des acteurs du patrimoine

Grands projets ?

Conclusion

Progressivement et paradoxalement, sur un support numérique, nous avons travaillé comme les bibliothécaires, les copistes et... les savants avant l'invention de l'imprimerie. La bibliothèque n'était pas seulement un lieu de stockage de la connaissance mais avant tout un espace de travail et d'échange scientifique.

Notes

  1. Au moment où cet article est rédigé, pour des raisons de sécurité cette fonction est provisoirement désactivée sur Wikipédia.
  2. Pendant la même période la NLM a doublé la production de la base PubMed réalisée par des spécialistes, assistés et non dominés, par les algorithmes.
  3. Par exemple Avec les formats précédents (ISO 2709), toute requête exploratoire demandée par un ingénieur documentaliste demandait quelques jours de développement informatique. Avec cette boîte à outils il suffisait sous unix de lancer une requête paramétrée par une préfiguration des Xpath pour résoudre la plupart des demandes.
  4. Un programme de formation avait été déployé sur une centaine d'ingénieurs sur plusieurs années. L'étape initiale de « formation Unix - Langage C - analyseurs lexicographique » était souvent très mal vécue. En revanche, les témoignages en fin d'opération étaient plutôt satisfaisants (y compris sur la nécessité de vaincre le blocage initial).

Bibliographie

[Lagoze 2005] Carl Lagoze,  et al. What Is a Digital Library Anymore, Anyway? In: D-Lib Magazine, 11 2005
Traduit dans la revue AMETIST : Qu'est-ce qu'une bibliothèque numérique, au juste ? Juin 2006

< http://www.dlib.org/dlib/november05/lagoze/11lagoze.html >