Humanum Nancy 2022/Atelier Wicri/Article numérique

De Wicri Chanson de Roland
Révision datée du 21 mars 2022 à 20:12 par Jacques Ducloy (discussion | contributions) (Les manuscrits)
logo travaux Document en cours de réédition

Expérimentations sémantiques autour de la Chanson de Roland


 
 

   
Titre
Expérimentations sémantiques autour de la Chanson de Roland
Auteurs
Jacques Ducloy(1), Thierry Daunois(2), Isabelle Turcan(2)
Affiliations
Article journée numérique web sémantique V9.pdf
Résumé
Cet article présente une bibliothèque numérique hypertexte sur la Chanson de Roland. Elle doit rassembler des manuscrits, des éditions critiques, des traductions, des articles de recherche et des partitions musicales. Elle est à la fois un espace de travail pour les spécialistes du sujet et une source d’information pour un public amateur. Les articles et manuscrits sont réédités en mode hypertexte avec une structure sémantique commune. Le démonstrateur actuel repose sur 3 manuscrits (Oxford, Paris, Châteauroux) et des éditions critiques (Francisque Michel, Léon Gautier, Edmund Stengel, Joseph Bédier). Deux applications sont présentées. Les spécialistes peuvent travailler sur une partie du fonds Paul Meyer. Les amateurs curieux, par exemple des choristes, peuvent explorer le contexte d’un oratorio profane de Gilles Mathieu. Cette diversité implique la prise en compte de diverses approches numériques qui sont ici expérimentées avec Semantic MediaWiki, et une ingénierie XML. Une réflexion sur la généralisation de cette approche est proposée.
Abstract
This article introduces a hypertext digital library on the Chanson de Roland. It will collect manuscripts, critical editions, translations, research articles and musical scores. It is both a workspace for specialists in humanities and a source of information for a curious but non-specialist reader. Articles and manuscripts are republished in hypertext mode with a common semantic structure. The current demonstrator is based on 3 manuscripts (Oxford, Paris, Châteauroux) and critical editions (Francisque Michel, Léon Gautier, Edmund Stengel, Joseph Bédier). Two applications are presented. Specialists can work on part of the Paul Meyer collection. Curious amateurs, for example choristers, can explore the context of a secular oratorio by Gilles Mathieu. This diversity implies taking into account various digital approaches which are experimented here with Semantic MediaWiki, and XML engineering. A reflection on the generalization of this approach is proposed.

Avant-propos

Cet article reprend intégralement le texte d'un article présenté aux journées Humanités numériques et Web sémantique 2022 Nancy.

Quelques notes de bas de page ont été remplacées par des liens.

L'article

Introduction

Le 15 aout 778, de retour d'Espagne, Charlemagne perd son arrière-garde, tombée, à titre de représailles, sous le feu des troupes des seigneurs basques dont il a attaqué les possessions. Lors de la bataille de Roncevaux, l'arrière-garde est écrasée, provoquant la mort de nombreux braves de l'entourage de Charlemagne, dont celle de Roland, préfet de la Marche de Bretagne. Ce fait d’armes a inspiré des cantilènes, des récits et une chanson de geste, la Chanson de Roland. Ce poème épique a été déclamé dans toute l’Europe par des jongleurs et des troubadours. Quelques manuscrits ont survécu et font l’objet d’une abondante production littéraire depuis le XIXe siècle.

Mais ces écrits n’étaient pas toujours accessibles facilement. Les manuscrits étaient enfermés dans des bibliothèques dispersées (Oxford, Paris, Venise, Châteauroux…). Les ouvrages étaient souvent édités avec une diffusion modeste à destination d’un public d’érudits comme les élèves de l’École nationale des chartes, à côté d’éditions grand public. Le numérique permet aujourd’hui d’accéder à cette littérature. Mais cette dernière est toujours dispersée sur de multiples sites qui ont chacun leur mode d’accès.

Dans le fonds Paul Meyer de l’Université de Lorraine se trouve un document particulièrement intéressant : une édition de 1869 de « La Chanson de Roland, ou de Roncevaux, du XIIe siècle » de Francisque Michel (Michel 1837), annotée par Paul Meyer. Celui-ci a ainsi effectué un travail préparatoire à une de ses publications (Meyer 1874). Afin de confronter les points de vue des deux auteurs aux manuscrits originaux, il faut manipuler des centaines de laisses avec leurs transcriptions et leurs traductions. Ce problème est apparu comme particulièrement pertinent pour le réseau Wicri, un projet sur les bibliothèques qui traite des documents hypertextes.

Par un concours de circonstances, nous avions travaillé avec un musicien, Gilles Mathieu, qui a composé une suite musicale à partir des mêmes manuscrits, mais sur la base d’une autre traduction (Gautier 1895). Cette composition amène un nouveau point de vue qui enrichit cet ensemble. Elle ouvre également le site à un nouveau public, les choristes amateurs, qui sont des lecteurs curieux mais pas forcément érudits. Cette contrainte implique notamment de rééditer d’autres documents plus explicatifs.

Nous avons donc décidé de constituer une bibliothèque numérique spécialisée autour de la Chanson de Roland. Ce projet a déjà été présenté, dans sa phase de démarrage, avec un éclairage de valorisation du patrimoine écrit (Ducloy 2021). Nous présentons ici les premières avancées et un éclairage sur les aspects sémantiques.

Après une description des relations sémantiques dans le réseau Wicri, nous détaillerons l’organisation retenue pour les manuscrits et leurs traductions. Puis nous montrerons les premières réalisations autour du fonds Paul Meyer et de la suite musicale.

Les relations sémantiques dans le réseau Wicri

Le projet Wicri (Wikis pour les communautés de la recherche et de l’innovation) a été créé en 2008. Pour les communautés de la recherche, il explore de nouvelles approches numériques en s’inspirant des mécanismes et pratiques mises en œuvre dans Wikipédia dont le moteur favorise un développement collectif et incrémental.

Un premier réseau d’une dizaine de wikis a été expérimenté pour valoriser les résultats de la recherche en Lorraine autour des sciences et du génie de l’environnement. Une coopération avec le Loria a permis de maitriser l’usage des extensions sémantiques (Semantic MediaWiki). Elle a permis de modéliser les équipements financés par le Contrat de Projets État Région (CPER). Plus tard, un système d’information évolutif sur les projets européens en Lorraine a été développé.

Pour ces actions, un modèle initialisé sur l’ancien site Semantic Web a été adapté pour décrire les systèmes de recherche, notamment autour des colloques.

Ce modèle a été utilisé sur la plupart wikis, et notamment, pour ceux dédiés aux communautés de colloques (notamment CIDE ou H2PTM).

La figure 1 montre, en 2021, l’ensemble des wikis communs en français du démonstrateur Wicri. Ils sont généralement associés à un wiki en anglais (et parfois en allemand).

WicriRéseauGabarit3.png

Pour aller sur Wicri/Wicri (fr)

Pour aller sur le wiki d'accueil du domaine lorexplor.ixtex.fr (fr)

Pour aller sur le pool d'images du réseau Wicri sur le domaine lorexplor.istex.fr

Pour aller sur le wiki d'accueil du réseau Wicri sur le domaine wicri-demo.istex.fr

Pour aller sur le pool d'images du réseau Wicri sur le domaine wicri-demo.istex.fr

Pour aller sur le wiki de service Wicri/Manuel (fr)

Pour aller sur le wiki de service Wicri/Base 1.28 (fr)

Pour aller sur le wiki de service Wicri/Base 1.31 (fr)

Pour aller sur le wiki de service Wicri/Métadonnées (fr)

Pour aller sur Wicri/Outils (fr)

Pour aller sur Wicri/Archéologie (fr)

Pour aller sur le wiki Wicri/Arts (fr)

Pour aller sur le wiki Wicri/Musique (fr)

Pour aller sur Wicri/Ingénierie (fr)

Pour aller sur Wicri/Informatique (fr)

Pour aller sur Wicri/Sic (fr)

Pour aller sur le wiki Wicri/Histoire des sciences (fr)

Pour aller sur le wiki Wicri/Histoire de l'IST (fr)

Pour aller sur Wicri/Linguistique (fr)

Pour aller sur Wicri/Mathématiques (fr)

Pour aller sur Wicri/Santé (fr)

Pour aller sur le wiki Wicri/Psychologie (fr)

Pour aller sur Wicri/Biomasse (fr)

Pour aller sur Wicri/Eau (fr)

Pour aller sur Wicri/Bois et forêts (fr)

Pour aller sur Wicri/Terre (fr)

Pour aller sur Wicri/Sols urbains (fr)

Pour aller sur Wicri/Agronomie (fr)

Pour lire les Mots de  l'Agronomie (fr)

Pour aller sur le wiki du réseau Médici (fr)

Pour aller sur Wicri/Artist (fr)

Pour aller sur Wic/Sic/Cide (fr)

Pour aller sur Wic/Sic/H2PTM (fr)

Pour aller sur Wicri Sic/VSST (fr)

Pour aller sur Wicri Musique/Musamat (fr)

Pour aller sur Wicri/Afrique (fr)

Pour aller sur Wicri/Amérique (fr)

Pour aller sur Wicri/Asie (fr)

Pour aller sur Wicri/Europe (fr)

Pour aller sur Wicri/Océanie (fr)

Pour aller sur Wicri/Belgique (fr)

Pour aller sur Wicri/Allemagne (fr)

Pour aller sur Wicri/France (fr)

Pour aller sur Wicri/Luxembourg (fr)

Pour aller sur Wicri/Maroc (fr)

Pour aller sur Wicri/Brésil (fr)

Pour aller sur Wicri/Canada (fr)

Pour aller sur Wicri/Grande Région (fr)

Pour aller sur Wicri/Rhénanie-Palatinat (fr)

Pour aller sur Wicri/Sarre (fr)

Pour aller sur Wicri/Wallonie (fr)

Pour aller sur Wicri/Chanson de Roland (fr)

Pour aller sur Wicri/Grand Est (fr)

Pour aller sur Wicri/Grand Est (fr)

Pour aller sur Wicri/Alsace (fr)

Pour aller sur Wicri/Lorraine (fr)

Pour aller sur Wicri/Histoire Lorraine (fr)

Pour aller sur Wicri/Nancy (fr)

Pour aller sur Wicri/Île-de-France (fr)

Figure 1 : le réseau Wicri en 2021

Un réseau de bibliothèques sur base encyclopédique

Après cette première étape sur la valorisation des résultats de la recherche, deux séries d’études ont été menées.

Pour les sciences relevant de l’ingénierie, de l’environnement et de la santé des résultats très intéressants ont été obtenus avec l’analyse statistique de corpus bibliographiques.

Un financement ISTEX a permis de créer plus d’une centaine de serveurs d’explorations. Un tel outil traite des milliers de références hétérogènes (ISTEX, Pascal, HAL, PubMed). Il est créé à l’aide d’une boîte à outil XML nommée Dilib (Ducloy 2018) dont la conception initiale a été réalisée à l’INIST (Ducloy 1991). Dans sa version initiale, un serveur d’exploration était produit par des commandes Unix avec un paramétrage complexe et sans accès au texte intégral. Le wiki est maintenant utilisé pour le paramétrage, la visualisation de résultats significatifs, et la curation des données. Plus précisément, les relations sémantiques utilisées dans la valorisation des innovations deviennent des règles de curation. Par exemple, l’Université Carnegie Mellon est basée à Pittsburgh en Pennsylvanie. Avec Semantic MediaWiki, cette phrase peut générer des triplets RDF ou alimenter des règles d’extensions géographiques à partir d’une mention de l’université.

Pour les humanités, cette approche donne des résultats plus limités. En effet, des sources de données très structurantes comme Pascal ou PubMed ne sont plus utilisables. De plus, les corpus ISTEX sont souvent constitués de « books review » qui traitent de sujets variés rassemblées dans un même document numérique. Les résultats statistiques donnent alors des corrélations aberrantes[1]. En revanche des résultats très pertinents ont été obtenus avec des rééditions hypertextes (et sémantisées) de documents anciens (libres de droit).

Le premier résultat significatif a été obtenu avec un ouvrage sur le Palais ducal de Nancy. À partir d’un facsimilé en mode « image + OCR » sur Gallica, nous avons notamment montré comment transformer en hypertexte une gravure de fin de volume (figure 2). Elle contenait des liens, matérialisés par des lettres, qui pointaient vers un hypertexte de paragraphes descriptifs qui eux-mêmes renvoyaient à des pages du livre.

Figure 2. Le Palais ducal : à gauche la gravure et une rubrique (D) avec des renvois ; à droite, le développé de la rubrique D en hypertexte

Cette approche a été généralisée dans les articles scientifiques pour quelques colloques. Enfin, dans un wiki dédié à la musique, des articles du dictionnaire de Jean-Jacques Rousseau ont été réédités pour permettre au lecteur d’écouter les partitions. Ainsi, un dictionnaire devient assez naturellement un document totalement hypertextuel (là où par exemple Gallica conserve une vision linéaire).

En appliquant cette approche au dictionnaire TLF , les auteurs cités deviennent alors des points d’entrée potentiels. Ainsi, sur un wiki dédié à la santé nous avons pu associer à une réédition d’un ouvrage de Claude Bernard de nombreux articles du TLF.

Dans le réseau Wicri, un site wiki devient donc une bibliothèque spécialisée qui utilise une base encyclopédique pour mettre en relation des ouvrages réédités. Il devient également un espace de travail, où il est, par exemple, possible de piloter collectivement des explorations de corpus.

Les relations sémantiques en réseau.

Dès le lancement du réseau Wicri la cohérence terminologique et sémantique du réseau a fait l’objet d’investigations (Ducloy 2010). A titre d’exemple simple, la figure 3 montre l’alignement des éléments géographiques entre les wikis du réseau.

Figure 3 : alignement des relations géographiques entre les wikis

Cette cohérence est basée sur un alignement sur le Web sémantique. Plus précisément les noms de page sur les wikis sont, si possible, les mêmes, que ceux de Wikipédia. Pour favoriser cet alignement, de nombreux modèles (par exemple la « palette des régions administratives de France ») sont importés de Wikipédia et éventuellement adaptés. Ces modèles communs sont gérés sur un des wikis du réseau (Wicri/Base). Ils sont regroupés en collections pour favoriser des opérations d’exportation (depuis Wicri/Base) vers les wikis cibles. Actuellement, tous les wikis sont sur le même site physique, et ces actions sont réalisées par des procédures en batch.

Un autre mécanisme, nommé wiki de référence, est également utilisé. Par exemple, l’Université McGill a naturellement Wicri/Canada pour wiki de référence. Lorsqu’une activité significative de cette université est détectée sur un autre wiki, par exemple Wicri/Musique, une page spécialisée y est alors créée. Sur celle-ci, un lien interwiki pointe vers la page de référence (sur Wicri/Canada). Enfin, sur ce dernier, un lien est établi vers Wicri/Musique. Ces opérations sont en fait très rapides pour des entités déjà signalées. Cela dit, la création d’un nouveau wiki demande une adaptation du réseau. Par exemple, avant la création de Wiki/Canada, les entités canadiennes étaient sur Wicri/Amérique. Il a donc fallu passer quelques heures pour mettre à jour le réseau de liens . Le maintien de la cohérence du signalement des universités françaises en mutation permanente s’avère nettement plus complexe et montre la nécessité d’une administration terminologique, et surtout éditoriale.

Les manuscrits et leurs éditions critiques

Nous venons de présenter la structure d’accueil de l’expérimentation sur la Chanson de Roland. Nous allons maintenant introduire les ressources bibliographiques fondamentales de ce sujet : les manuscrits originaux et les éditions critiques associées. Dans une bibliothèque universitaire classique, ce sujet occupe quelques décimètres de rayonnage sous la forme de quelques livres de références (Francisque Michel, Léon Gautier, Joseph Bédier, Joseph Duggan, etc).

Ici, pour permettre des études comparatives, ces quelques livres vont alimenter, à moyen terme, un réseau hypertexte de plusieurs dizaines de milliers d’articles.

Un corpus riche et varié

Les manuscrits

De la Chanson de Roland et de ses transcriptions médiévales, on connait aujourd'hui sept versions, et trois fragments. La version considérée comme la plus ancienne et la plus proche d'un hypothétique « texte initial » est le manuscrit conservé à la Bibliothèque Bodléienne d'Oxford (Digby, 23, f. 1r-72r). Communément daté du deuxième quart du XIIe siècle, ce manuscrit a suscité plusieurs dizaines d'éditions modernes, depuis le début du XIXe siècle, a été traduit dans de nombreuses langues, et fait l'objet de plusieurs centaines d'études .

Une analyse même sommaire des versions manuscrites de la chanson de geste permet immédiatement de comprendre la situation. Là où le manuscrit d'Oxford compte 4002 vers répartis en 291 laisses (ou couplets), la version Venise 4 - datée du XIIIe siècle - en compte 6011, pour 419 laisses, la version de Châteauroux, 8201 vers et 449 laisses, le manuscrit Venise 7 rassemble 8395 vers organisés en 445 laisses. Les manuscrits de Paris, Cambridge et Lyon, pour leur part, comptent respectivement 6828, 5695 et 2932 vers, distribués en 375, 354 et 216 laisses. Chaque manuscrit possède sa propre variante linguistique (Par exemple, Venise 4 est en italien francisé). Les mécanismes de versification sont variables, de l’assonance à la véritable rime.

Ces manuscrits sont organisés en laisses. Une laisse est une suite de vers avec une unité de versification (assonance sur le manuscrit d’Oxford), et généralement matérialisée par une lettrine (voir figue 4) . Dans le manuscrit d'Oxford, elles se termine par une mention mystérieuse [Aoi]., sur laquelle aucune explication n'est unanimement acceptée (Horrent 2022).

Chanson de Roland Oxford extrait 2v.png

Notes de l'article

  1. Par exemple, un corpus ISTEX de 1500 documents sur le compositeur William Byrd donne 360 mentions de l’Islam (dont aucune n’est significative).

Voir aussi