HIS 2021 Casablanca/Atelier Wicri/Article soumis
Revisiter les textes anciens dans les bibliothèques numériques avec l’exemple de la Chanson de Roland
Cette page introduit la version numérique de l'article à soumettre pour le colloque HIS.7.
|
Sommaire
|
|
- Avant-propos
Cette page est une version numériquement enrichie d'un article publié pour le colloque HIS.7 (2021) Casablanca.
Les textes sont identiques. En revanche, cette page contient de nombreux liens qui auraient été réalisés en notes de bas de page dans un article scientifique conventionnel.
Introduction
- Qu'est-ce qu'une bibliothèque numérique, au juste ?
Il y a 15 ans, Carl Lagoze, un des pionniers des archives ouvertes aux États-Unis posait cette question dans un article de référence (Lagoze 2005).
Alors qu'il les considérait comme entrées dans « leur adolescence » - nous étions en 2005 - Carl Lagoze soulignait que leur situation était déjà préoccupante, alors que l'idée infusait que « Google a déjà tout résolu ». Et il insistait notamment sur le fait que les bibliothèques ne sont pas seulement des endroits où l’on peut retrouver de l'information pour la consulter[1], mais aussi « des lieux où des personnes se rencontrent pour accéder à un savoir qu’ils partagent et qu’ils échangent ». Reprenant l'idée de David Levy (Levy 2000), il reliait déjà les bibliothèques aux communautés dont elles sont l'espace de référence. Il s’inscrivait dans les réflexions sur le quatrième paradigme de la recherche (Gray 2006).
Mais, quinze ans plus tard, loin d'être reconnue largement, cette idée de communauté, de la dimension « humaine » des bibliothèques, semble toujours s'effacer derrière la technique. Et pourtant !
Le terme même de bibliothèque devrait nous alerter, dans sa dimension éminemment polysémique. Car une bibliothèque, nous dit le TLF[2], est à la fois un lieu, pouvant désigner un espace (de différentes natures : « bâtiment [...] où sont déposées, rangées, cataloguées diverses collections de livres », « cabinet de travail [...] qui renferme une collection de livres », « meuble à rayonnages destiné au rangement et au classement de livres ». Elle peut également désigner la collection de livres elle-même (la bibliothèque de Paul Meyer a permis de constituer le fonds du même nom). Enfin, une « bibliothèque vivante » fait directement référence à l'érudit(e) dont la mémoire est particulièrement remarquable.
La transposition dans un espace numérique de ces différentes fonctions pointe à la fois vers des documents numériques, vers des entrepôts de données et de métadonnées et vers la version moderne des scriptoria que sont les learning centers.
Carl Lagoze concluait son article en signalant que les bibliothèques numériques ne devaient pas être seulement des endroits où trouver de l'information et y accéder, mais devaient également permettre « d'ajouter de la valeur aux ressources internet », un enrichissement lié à leur contextualisation, à leur mise en relation avec de nouvelles informations et par leur imbrication dans des réseaux de relations - modèles d'usage, savoir communautaire, réseaux sémantiques. Ainsi, disait-il, « La bibliothèque numérique devient alors un espace pour l’information collaborative et l’enrichissement ».
Comment ces éléments peuvent-ils constituer un cadre profitable à une œuvre comme la Chanson de Roland ? Quelles sont les conditions de mise en œuvre d'une telle expérimentation, quel retour d'expérience peut-on en tirer ?
Un projet autour de la Chanson de Roland
Le 15 aout 778, de retour d'Espagne, Charlemagne perd son arrière-garde, tombée, à titre de représailles, sous le feu des troupes des seigneurs basques dont il a attaqué les possessions. Lors de la bataille de Roncevaux, l'arrière-garde est écrasée, provoquant la mort de nombreux braves de l'entourage de Charlemagne, dont celle de Roland, préfet de la Marche de Bretagne. On peut imaginer, mais la tradition orale en a perdu la trace, que ce fait d'armes ait été l'objet de chansons de geste et d'épopées, qui ont circulé, au gré de l'errance des jongleurs ou des troubadours, de seigneurie en seigneurie. Quoi qu'il en soit, la légende de Roland (avec par exemple la traitrise de Ganelon, le son du cor, ou l'épée Durandal qui brise le rocher) refait surface et s'inscrit matériellement sur parchemin au XIIe siècle, les basques ayant, pour des raisons probablement opportunistes, laissé la place dans le récit aux sarrasins.
Un corpus riche et varié
De la Chanson de Roland et de ses transcriptions médiévales, on connait aujourd'hui sept versions, et trois fragments. La version considérée comme la plus ancienne et la plus proche d'un hypothétique « texte initial » est le manuscrit conservé à la Bibliothèque Bodléienne d'Oxford (Digby, 23, f. 1r-72r). Communément daté du deuxième quart du XIIe siècle, ce manuscrit a suscité plusieurs dizaines d'éditions modernes, depuis le début du XIXe siècle, a été traduit dans de nombreuses langues, et été l'objet de plusieurs centaines d'études[3].
Une analyse même sommaire des versions manuscrites de la chanson de geste permet immédiatement de comprendre la situation. Là où le manuscrit d'Oxford compte 4002 vers répartis en 291 laisses (ou couplets), la version Venise 4 - datée du XIIIe siècle - en compte 6011, pour 419 laisses, la version de Châteauroux, 8201 vers et 449 laisses, le manuscrit Venise 7 rassemble 8395 vers organisés en 445 laisses. Les manuscrits de Paris, Cambridge et Lyon, pour leur part, comptent respectivement 6828, 5695 et 2932 vers, distribués en 375, 354 et 216 laisses.
Cette sérieuse diversité pose donc d'entrée de jeu la question de l'alignement des textes. Sans même parler des études, dont nous avons déjà signalé le grand nombre, on comprend aisément qu'avec la Chanson de Roland, ses éditions modernes, et les analyses sur ces éditions, on dispose d'un corpus riche à la fois en volume et en complexité.
Mais la création artistique autour des exploits et de la mort du « neveu » de Charlemagne ne s'arrête pas aux traductions : elle a également pris la forme de diverses mises en vers, en prose, en musique, avec là aussi de nombreuses productions au fil des siècles.
Une expérience pilote en 2014
La bibliothèque universitaire du Campus Lettres et sciences humaines de l'université de Lorraine à Nancy dispose d'un fonds Paul Meyer. Celui-ci, diplômé de l'École des Chartes, philologue et romaniste, spécialiste de littérature romane, a notamment travaillé à la Bibliothèque nationale. Élu au Collège de France en 1876, il prend la direction de l'École des Chartes en 1882. À sa mort, en 1917, il choisit de léguer sa bibliothèque à l'université de Strasbourg, mais, celle-ci étant soumise aux mouvements de frontières que l'Alsace et la Moselle connaissent depuis 1870, c'est la bibliothèque de l'université de Nancy qui est chargée de l'accueillir, par mesure de précaution. C'est ainsi qu'elle abrite le fonds Paul Meyer, composé de 4222 titres de monographies et d'environ 7700 brochures, tirés-à-art et petites publications.
Dans ce fonds figurent plusieurs éditions de la Chanson de Roland, dont certaines sont annotées de la main de Paul Meyer. Nous pouvons montrer [démonstration] qu'il s'agissait là d'un travail préparatoire à la publication d’ouvrages[4].
En 2014, saisissant l'opportunité d'un stage, Isabelle Turcan confiait à l'un de ses étudiants de la filière "Métiers du livre" la tâche d'explorer et d'analyser l'édition de Francisque Michel de 1869 annotée par Paul Meyer. En effet, sur sept pages du recueil, on retrouve des notes, des indications d'édition, des paperolles... Le travail de l'étudiant consistait à rééditer sur un site web les sept pages concernées, avec trois principales présentations du texte : le texte initial de Francisque Michel ; le texte avec les annotations de Paul Meyer ; le texte tel qu'il apparaîtrait une fois appliquées les modifications indiquées par Paul Meyer[exemple, la page 73].
À cette occasion, nous avons décidé d'assurer en parallèle la réédition de l'ensemble de l'ouvrage. L'étudiant ayant travaillé sur sept pages, nous nous sommes chargés de cent quinze autres pages, non annotées. Et nous avons profité de l'occasion pour effectuer une expérimentation : en annotant sémantiquement les variantes des noms de Charlemagne et de Roland, nous avons pu construire un système d'information sur les variantes (liste, nombre de pages sur lesquelles chacune est utilisée...). L'ensemble de cette expérimentation a été menée avec un seul document de référence : l'édition de 1869 de la Chanson de Roland par Francisque Michel.
Une bibliothèque numérique sur la Chanson de Roland
En mai 2021 un nouveau stage a conduit à mettre en place un projet de plus grande envergure. L'idée est de voir comment explorer et exploiter le corpus décrit précédemment, dans toutes ses dimensions et dans toute sa complexité. En effet, grâce à la numérisation d'un nombre croissant de documents, à la mise en ligne de ressources, il est désormais possible d'accéder à plusieurs de ces sources.
Tels des copistes de l'époque médiévale dans un scriptorium, ou comme les membres d'une société savante occupant la salle de travail d'une bibliothèque, l'ambition est de pouvoir travailler sur ces textes, d'observer leurs différences et leurs rapprochements.
De plus, grâce à un travail musical effectué précédemment sur une messe irlandaise (Irish Mass) du compositeur Gilles Mathieu, nous avons découvert qu’il avait également composé un oratorio profane sur la base du manuscrit d'Oxford et de sa transcription par Léon Gautier. Nous avons donc eu l'idée d'effectuer le rapprochement numérique de la partition et de la transcription du manuscrit.
La structure apparente du manuscrit d'Oxford - et que l'on peut aisément imaginer en consultant l'une ou l'autre des transcriptions - s'organise autour de « laisses » - des couplets - rassemblant un nombre variable de vers. Chacune contient des vers en assonance, et commence habituellement par une lettrine. Dans le manuscrit d'Oxford, elles se terminent généralement par une mention mystérieuse, sur laquelle aucune explication n'est acceptée largement : [Aoi][exemple avec Léon Gautier].
Lorsque l'on commence à vouloir aligner les textes des manuscrits et leurs transcriptions, on constate rapidement des divergences dans la numérotation des laisses. Ainsi, la dernière laisse du texte est numérotée CCXCI chez Joseph Bédier, CCXCIII chez Edmund Stengel, CCXCVI chez Francisque Michel et CCXCVII chez Léon Gautier.
En effet, certains philologues se réfèrent à la différenciation des laisses à l'aide des lettrines et des marques [Aoi] telle qu’elle est dans le manuscrit d’Oxford. D’autres considèrent que le copiste a fait des erreurs qu’ils cherchent à rectifier. Le feuillet 43 verso est exemplaire de ce point de vue car ne contient ni lettrine, ni mention [Aoi]. En revanche, il contient un vers qui marque une charnière essentielle entre deux parties de l’épopée : la mort de Roland.
Morz est Rollant, Deus en ad l’anme es cels.
- Roland est mort ; Dieu a son âme dans les cieux.
Le manuscrit contient curieusement un point en guise de lettrine.
Bédier et Gautier considèrent ce vers comme le début d'une nouvelle laisse. Michel en fait la fin de la précédente et Stengel propose une version sans changement de laisse (et donc avec un décalage dans la numérotation).
Ainsi, et c'est ce qui motive cet article, ce travail s'est avéré à la fois plus complexe et plus riche que nous l'imaginions.
Expérimentation, difficultés rencontrées et solutions retenues
Une organisation numérique à définir
Nous avions déjà eu l'occasion de procéder à des rééditions numériques avec le moteur MediaWiki. Nous n'avons donc pas été surpris par la première question qui se pose lorsque l'on s'attaque à ce type d'exercice : celle du choix d'une structure éditoriale et informationnelle. En effet, depuis pratiquement 2200 ans, l'organisation classique des codex, puis des livres, longtemps reprise pour les fichiers numériques simples est celle d'un assemblage de feuillets, dans lequel on tourne des pages, avec la possibilité de feuilleter.
Cette organisation avait succédé à près de 300 ans durant lesquels le format classique était celui de la page, qu'il s'agisse de tablettes d'argile ou de papyrus.
L’année 1985 marque un premier tournant, avec l'apparition du format SGML, suivi, 10 ans plus tard, par XML, qui se caractérisent par un modèle arborescent. Mais le changement n'est en général pas perceptible pour les utilisateurs.
En parallèle, et au rythme des innovations technologiques, une nouvelle approche se popularise, celle de l'hypertexte où « l'usager navigue d'information en information par un jeu de liens d'associations entre les îlots d'informations » (Vignaux 2001). Cette structuration s'articule autour de blocs de textes liés entre eux de manière non séquentielle. Elle modifie fondamentalement le "parcours" de lecture : de linéaire il devient non-linéaire.
Dans un hypertexte, donc, l'unité n'est plus la classique page : elle est choisie - négociée ! - au cas par cas. Là où une page donnée peut contenir très peu d'information, une autre peut contenir l'équivalent d'un livre entier. De façon très prosaïque, le premier choix est celui du découpage du texte : quelle est l'unité élémentaire la plus pratique à manipuler ? Ici, la laisse nous a semblé être la bonne unité.
Modéliser l'arborescence des sources
Le deuxième questionnement qui intervient très rapidement, c'est celui de la façon de traiter l'arborescence des sources. Et le phénomène décrit par Carl Lagoze trouve ici une illustration remarquable : certes, depuis 20 ans, nombre de ces sources ont été numérisées, et sont désormais trouvables et accessibles sur le web. Mais cela ne forme pas une bibliothèque pour autant, du fait de l'hétérogénéité des formats et des protocoles sous lesquels elles sont disponibles.
Ainsi, le manuscrit d'Oxford est accessible - en format photo - dans son intégralité sur Wikimedia Commons, avec une organisation séquentielle. Pour le manuscrit de Châteauroux, seule la première page est accessible avec un fac-similé de bonne qualité à l'IRHT, mais les autres pages, accessibles via le site des bibliothèques de Châteauroux, sont encombrées par une inscription de propriété. En fait presque chaque manuscrit (Venise, Cambridge) dépend de son propre service de visualisation. Il n'est pas trivial d'atteindre à un traitement identique des différents manuscrits.
De façon parallèle, pour les livres du XIXe et du XXe siècle, trois principales sources permettent d'accéder aux textes : Gallica, Internet Archive et Wikisource. La qualité de la numérisation et la performance des logiciels d'océrisation employés varient sensiblement entre Gallica et Internet Archive. En revanche, sur WikiSource, les documents sont faciles à récupérer en texte intégral car ils ont déjà fait l'objet d'un travail par les contributeurs (humains !) du site, et qu'ils sont structurés avec des modèles MediaWiki.
Gestion des manuscrits
De façon évidente, la priorité a été donnée à la gestion des sources primaires (manuscrits), leurs transcriptions et leurs traductions. En effet, la plupart des articles plus récents contiennent des références à ces documents, souvent sous la forme de numéro de vers ou de numéro de laisse (ni les uns ni les autres n'existant dans les manuscrits)[Un exemple].
À l'occasion d'un stage, un alignement a été tenté entre la version de Francisque Michel (1869) et le manuscrit d'Oxford. Des premiers travaux d'alignement entre l'oratorio de Gilles Mathieu et le manuscrit ont été réalisés. Dans les deux cas, des divergences ont été observées, qui n'ont pas été solutionnées, bien au contraire, en faisant appel à la version de Léon Bédier.
En même temps, l'exploration des sources a mis en évidence un ouvrage d’Edmund Stengel dans lequel la pagination suit le découpage en laisses du manuscrit d'Oxford.
...
Un hypertexte collaboratif pour supporter des traitements complexes
...
Les interactions entre un oratorio profane, les manuscrits et les traductions
...
La base encyclopédique
...
Résultats, analyses et perspectives
...
Premiers résultats : quelques chiffres
...
Gérer l'incomplétude sans égarer le visiteur
...
Traitement automatique des langues et fouille de données
...
Conclusion
...
- Remerciements
...
Bibliographie
[Gray 2006] ↑ Gray J., et al. (2006). Scientific Data Management in the Coming Decade, ACM SIGMOD, New York, NY, USA
[Lagoze 2005] ↑
Carl Lagoze, et al. What Is a Digital Library Anymore, Anyway? In: D-Lib Magazine, 11 2005
Traduit dans la revue AMETIST : Qu'est-ce qu'une bibliothèque numérique, au juste ? Juin 2006
[Levy 2000] ↑ D. Levy, "Digital Libraries and the Problem of Purpose," Bulletin of the American Society for Information Science, 26 (6), 2000.
[Vignaux 2001] ↑
Vignaux, G. L’hypertexte. Qu’est-ce que l’hypertexte. Origines et histoire.
https://edutice.archives-ouvertes.fr/edutice-00000004/document
Notes de l'article
- ↑ Ce qui fait référence à deux problématiques, celle de la recherche d'information et celle de son accessibilité, qui constituent encore aujourd'hui des enjeux forts.
- ↑ Trésor de la langue française, dictionnaire du CNRS.
- ↑ La consultation de la bibliographie proposée sur le site arlima.net est éclairante sur la richesse et la diversité des écrits sur et autour de la Chanson de Roland.
- ↑ Recueil d'anciens textes bas-latins, provençaux et français, accompagnés de deux glossaires, publié en 1874.