Humanum Nancy 2022/Atelier Wicri/Article numérique

De Wicri Chanson de Roland
Révision datée du 21 mars 2022 à 19:36 par Jacques Ducloy (discussion | contributions) (Un réseau de bibliothèques sur base encyclopédique)
logo travaux Document en cours de réédition

Expérimentations sémantiques autour de la Chanson de Roland


 
 

   
Titre
Expérimentations sémantiques autour de la Chanson de Roland
Auteurs
Jacques Ducloy(1), Thierry Daunois(2), Isabelle Turcan(2)
Affiliations
Article journée numérique web sémantique V9.pdf
Résumé
Cet article présente une bibliothèque numérique hypertexte sur la Chanson de Roland. Elle doit rassembler des manuscrits, des éditions critiques, des traductions, des articles de recherche et des partitions musicales. Elle est à la fois un espace de travail pour les spécialistes du sujet et une source d’information pour un public amateur. Les articles et manuscrits sont réédités en mode hypertexte avec une structure sémantique commune. Le démonstrateur actuel repose sur 3 manuscrits (Oxford, Paris, Châteauroux) et des éditions critiques (Francisque Michel, Léon Gautier, Edmund Stengel, Joseph Bédier). Deux applications sont présentées. Les spécialistes peuvent travailler sur une partie du fonds Paul Meyer. Les amateurs curieux, par exemple des choristes, peuvent explorer le contexte d’un oratorio profane de Gilles Mathieu. Cette diversité implique la prise en compte de diverses approches numériques qui sont ici expérimentées avec Semantic MediaWiki, et une ingénierie XML. Une réflexion sur la généralisation de cette approche est proposée.
Abstract
This article introduces a hypertext digital library on the Chanson de Roland. It will collect manuscripts, critical editions, translations, research articles and musical scores. It is both a workspace for specialists in humanities and a source of information for a curious but non-specialist reader. Articles and manuscripts are republished in hypertext mode with a common semantic structure. The current demonstrator is based on 3 manuscripts (Oxford, Paris, Châteauroux) and critical editions (Francisque Michel, Léon Gautier, Edmund Stengel, Joseph Bédier). Two applications are presented. Specialists can work on part of the Paul Meyer collection. Curious amateurs, for example choristers, can explore the context of a secular oratorio by Gilles Mathieu. This diversity implies taking into account various digital approaches which are experimented here with Semantic MediaWiki, and XML engineering. A reflection on the generalization of this approach is proposed.

Avant-propos

Cet article reprend intégralement le texte d'un article présenté aux journées Humanités numériques et Web sémantique 2022 Nancy.

Quelques notes de bas de page ont été remplacées par des liens.

L'article

Introduction

Le 15 aout 778, de retour d'Espagne, Charlemagne perd son arrière-garde, tombée, à titre de représailles, sous le feu des troupes des seigneurs basques dont il a attaqué les possessions. Lors de la bataille de Roncevaux, l'arrière-garde est écrasée, provoquant la mort de nombreux braves de l'entourage de Charlemagne, dont celle de Roland, préfet de la Marche de Bretagne. Ce fait d’armes a inspiré des cantilènes, des récits et une chanson de geste, la Chanson de Roland. Ce poème épique a été déclamé dans toute l’Europe par des jongleurs et des troubadours. Quelques manuscrits ont survécu et font l’objet d’une abondante production littéraire depuis le XIXe siècle.

Mais ces écrits n’étaient pas toujours accessibles facilement. Les manuscrits étaient enfermés dans des bibliothèques dispersées (Oxford, Paris, Venise, Châteauroux…). Les ouvrages étaient souvent édités avec une diffusion modeste à destination d’un public d’érudits comme les élèves de l’École nationale des chartes, à côté d’éditions grand public. Le numérique permet aujourd’hui d’accéder à cette littérature. Mais cette dernière est toujours dispersée sur de multiples sites qui ont chacun leur mode d’accès.

Dans le fonds Paul Meyer de l’Université de Lorraine se trouve un document particulièrement intéressant : une édition de 1869 de « La Chanson de Roland, ou de Roncevaux, du XIIe siècle » de Francisque Michel (Michel 1837), annotée par Paul Meyer. Celui-ci a ainsi effectué un travail préparatoire à une de ses publications (Meyer 1874). Afin de confronter les points de vue des deux auteurs aux manuscrits originaux, il faut manipuler des centaines de laisses avec leurs transcriptions et leurs traductions. Ce problème est apparu comme particulièrement pertinent pour le réseau Wicri, un projet sur les bibliothèques qui traite des documents hypertextes.

Par un concours de circonstances, nous avions travaillé avec un musicien, Gilles Mathieu, qui a composé une suite musicale à partir des mêmes manuscrits, mais sur la base d’une autre traduction (Gautier 1895). Cette composition amène un nouveau point de vue qui enrichit cet ensemble. Elle ouvre également le site à un nouveau public, les choristes amateurs, qui sont des lecteurs curieux mais pas forcément érudits. Cette contrainte implique notamment de rééditer d’autres documents plus explicatifs.

Nous avons donc décidé de constituer une bibliothèque numérique spécialisée autour de la Chanson de Roland. Ce projet a déjà été présenté, dans sa phase de démarrage, avec un éclairage de valorisation du patrimoine écrit (Ducloy 2021). Nous présentons ici les premières avancées et un éclairage sur les aspects sémantiques.

Après une description des relations sémantiques dans le réseau Wicri, nous détaillerons l’organisation retenue pour les manuscrits et leurs traductions. Puis nous montrerons les premières réalisations autour du fonds Paul Meyer et de la suite musicale.

Les relations sémantiques dans le réseau Wicri

Le projet Wicri (Wikis pour les communautés de la recherche et de l’innovation) a été créé en 2008. Pour les communautés de la recherche, il explore de nouvelles approches numériques en s’inspirant des mécanismes et pratiques mises en œuvre dans Wikipédia dont le moteur favorise un développement collectif et incrémental.

Un premier réseau d’une dizaine de wikis a été expérimenté pour valoriser les résultats de la recherche en Lorraine autour des sciences et du génie de l’environnement. Une coopération avec le Loria a permis de maitriser l’usage des extensions sémantiques (Semantic MediaWiki). Elle a permis de modéliser les équipements financés par le Contrat de Projets État Région (CPER). Plus tard, un système d’information évolutif sur les projets européens en Lorraine a été développé.

Pour ces actions, un modèle initialisé sur l’ancien site Semantic Web a été adapté pour décrire les systèmes de recherche, notamment autour des colloques.

Ce modèle a été utilisé sur la plupart wikis, et notamment, pour ceux dédiés aux communautés de colloques (notamment CIDE ou H2PTM).

La figure 1 montre, en 2021, l’ensemble des wikis communs en français du démonstrateur Wicri. Ils sont généralement associés à un wiki en anglais (et parfois en allemand).

WicriRéseauGabarit3.png

Pour aller sur Wicri/Wicri (fr)

Pour aller sur le wiki d'accueil du domaine lorexplor.ixtex.fr (fr)

Pour aller sur le pool d'images du réseau Wicri sur le domaine lorexplor.istex.fr

Pour aller sur le wiki d'accueil du réseau Wicri sur le domaine wicri-demo.istex.fr

Pour aller sur le pool d'images du réseau Wicri sur le domaine wicri-demo.istex.fr

Pour aller sur le wiki de service Wicri/Manuel (fr)

Pour aller sur le wiki de service Wicri/Base 1.28 (fr)

Pour aller sur le wiki de service Wicri/Base 1.31 (fr)

Pour aller sur le wiki de service Wicri/Métadonnées (fr)

Pour aller sur Wicri/Outils (fr)

Pour aller sur Wicri/Archéologie (fr)

Pour aller sur le wiki Wicri/Arts (fr)

Pour aller sur le wiki Wicri/Musique (fr)

Pour aller sur Wicri/Ingénierie (fr)

Pour aller sur Wicri/Informatique (fr)

Pour aller sur Wicri/Sic (fr)

Pour aller sur le wiki Wicri/Histoire des sciences (fr)

Pour aller sur le wiki Wicri/Histoire de l'IST (fr)

Pour aller sur Wicri/Linguistique (fr)

Pour aller sur Wicri/Mathématiques (fr)

Pour aller sur Wicri/Santé (fr)

Pour aller sur le wiki Wicri/Psychologie (fr)

Pour aller sur Wicri/Biomasse (fr)

Pour aller sur Wicri/Eau (fr)

Pour aller sur Wicri/Bois et forêts (fr)

Pour aller sur Wicri/Terre (fr)

Pour aller sur Wicri/Sols urbains (fr)

Pour aller sur Wicri/Agronomie (fr)

Pour lire les Mots de  l'Agronomie (fr)

Pour aller sur le wiki du réseau Médici (fr)

Pour aller sur Wicri/Artist (fr)

Pour aller sur Wic/Sic/Cide (fr)

Pour aller sur Wic/Sic/H2PTM (fr)

Pour aller sur Wicri Sic/VSST (fr)

Pour aller sur Wicri Musique/Musamat (fr)

Pour aller sur Wicri/Afrique (fr)

Pour aller sur Wicri/Amérique (fr)

Pour aller sur Wicri/Asie (fr)

Pour aller sur Wicri/Europe (fr)

Pour aller sur Wicri/Océanie (fr)

Pour aller sur Wicri/Belgique (fr)

Pour aller sur Wicri/Allemagne (fr)

Pour aller sur Wicri/France (fr)

Pour aller sur Wicri/Luxembourg (fr)

Pour aller sur Wicri/Maroc (fr)

Pour aller sur Wicri/Brésil (fr)

Pour aller sur Wicri/Canada (fr)

Pour aller sur Wicri/Grande Région (fr)

Pour aller sur Wicri/Rhénanie-Palatinat (fr)

Pour aller sur Wicri/Sarre (fr)

Pour aller sur Wicri/Wallonie (fr)

Pour aller sur Wicri/Chanson de Roland (fr)

Pour aller sur Wicri/Grand Est (fr)

Pour aller sur Wicri/Grand Est (fr)

Pour aller sur Wicri/Alsace (fr)

Pour aller sur Wicri/Lorraine (fr)

Pour aller sur Wicri/Histoire Lorraine (fr)

Pour aller sur Wicri/Nancy (fr)

Pour aller sur Wicri/Île-de-France (fr)

Figure 1 : le réseau Wicri en 2021

Un réseau de bibliothèques sur base encyclopédique

Après cette première étape sur la valorisation des résultats de la recherche, deux séries d’études ont été menées.

Pour les sciences relevant de l’ingénierie, de l’environnement et de la santé des résultats très intéressants ont été obtenus avec l’analyse statistique de corpus bibliographiques.

Un financement ISTEX a permis de créer plus d’une centaine de serveurs d’explorations. Un tel outil traite des milliers de références hétérogènes (ISTEX, Pascal, HAL, PubMed). Il est créé à l’aide d’une boîte à outil XML nommée Dilib (Ducloy 2018) dont la conception initiale a été réalisée à l’INIST (Ducloy 1991). Dans sa version initiale, un serveur d’exploration était produit par des commandes Unix avec un paramétrage complexe et sans accès au texte intégral. Le wiki est maintenant utilisé pour le paramétrage, la visualisation de résultats significatifs, et la curation des données. Plus précisément, les relations sémantiques utilisées dans la valorisation des innovations deviennent des règles de curation. Par exemple, l’Université Carnegie Mellon est basée à Pittsburgh en Pennsylvanie. Avec Semantic MediaWiki, cette phrase peut générer des triplets RDF ou alimenter des règles d’extensions géographiques à partir d’une mention de l’université.

Pour les humanités, cette approche donne des résultats plus limités. En effet, des sources de données très structurantes comme Pascal ou PubMed ne sont plus utilisables. De plus, les corpus ISTEX sont souvent constitués de « books review » qui traitent de sujets variés rassemblées dans un même document numérique. Les résultats statistiques donnent alors des corrélations aberrantes[1]. En revanche des résultats très pertinents ont été obtenus avec des rééditions hypertextes (et sémantisées) de documents anciens (libres de droit).

Le premier résultat significatif a été obtenu avec un ouvrage sur le Palais ducal de Nancy. À partir d’un facsimilé en mode « image + OCR » sur Gallica, nous avons notamment montré comment transformer en hypertexte une gravure de fin de volume (figure 2). Elle contenait des liens, matérialisés par des lettres, qui pointaient vers un hypertexte de paragraphes descriptifs qui eux-mêmes renvoyaient à des pages du livre.

Article Isi 2019 Ducloy Figure 2.png

Notes de l'article

  1. Par exemple, un corpus ISTEX de 1500 documents sur le compositeur William Byrd donne 360 mentions de l’Islam (dont aucune n’est significative).

Voir aussi