HIS (2023) Ducloy : Différence entre versions

De Wicri Chanson de Roland
(Stations de travail Unix pour l’ingénierie XML)
(Stations de travail Unix pour l’ingénierie XML)
Ligne 75 : Ligne 75 :
 
Nous étions en première ligne pour repérer des logiciels innovants pour le traitement de l’information technique. Ainsi, en 82-83 nous pouvions générer des catalogues et alimenter un serveur (sous le logiciel Texto). Un virage très important a été pris avec le pilotage des actions SM 90 par l’ADI. La SM 90 était issu des études du CNET pour concevoir une station de travail sous le système Unix qui commençait son expansion. L’ANL a alors été sollicitée pour faire un inventaire des logiciels français disponibles sous unix, avec le montage de démonstration. Notre inventaire numérique est devenu une matière première pour de nombreux tests de logiciels. En particulier, les équipes travaillant sur les compilateurs de compilateurs commençaient à appliquer leurs outils initialement conçus pour des programmes structurés aux documents. Du côté de l’équipe technique ANL nous avons donc fait une utilisation intensive d’analyseurs lexicaux (lex) pour adapter nos données à des logiciels d’intelligence artificielle (Lisp ou Prolog).
 
Nous étions en première ligne pour repérer des logiciels innovants pour le traitement de l’information technique. Ainsi, en 82-83 nous pouvions générer des catalogues et alimenter un serveur (sous le logiciel Texto). Un virage très important a été pris avec le pilotage des actions SM 90 par l’ADI. La SM 90 était issu des études du CNET pour concevoir une station de travail sous le système Unix qui commençait son expansion. L’ANL a alors été sollicitée pour faire un inventaire des logiciels français disponibles sous unix, avec le montage de démonstration. Notre inventaire numérique est devenu une matière première pour de nombreux tests de logiciels. En particulier, les équipes travaillant sur les compilateurs de compilateurs commençaient à appliquer leurs outils initialement conçus pour des programmes structurés aux documents. Du côté de l’équipe technique ANL nous avons donc fait une utilisation intensive d’analyseurs lexicaux (lex) pour adapter nos données à des logiciels d’intelligence artificielle (Lisp ou Prolog).
  
Coup de tonnerre, en 1987, Alain Madelin décide la dissolution de l’ADI qui assurait 50% du soutien de l’ANL. Je me suis alors rapproché de l’INIST. Débauché par Goéry Delacôte et sous la direction de Nathalie Dusoulier<ref>Qui avait été rappelée par le CNRS pour la création de l’INIST à Nancy.</ref>, j’ai assuré au départ la direction Informatique. L’INIST avait hérité d’un schéma directeur basé sur un système intégré avec un SGBD relationnel sur un mainframe IBM. Cela ne me paraissait pas adapté à l’indexation des bases bibliographiques mais raisonnable pour les services de fournitures de documents. Or, Nathalie Dusoulier tenait à un système dédié pour la bibliothèque. Elle m’a invité à plonger dans les normes de catalogage, et plus précisément dans l’étude du format Unimarc sous la norme ISO 2709<ref>Plus connue sous l’appellation MARC. D’un point de vue informatique, une notice MARC est un ensemble de petits arbres où toutes les données structurelles sont variables.</ref>. J’ai ainsi découvert que, malgré mon expérience documentaire antérieure j’avais tout à découvrir en bibliothéconomie ! L’INIST a donc fait l’acquisition, pour la bibliothèque, un système Geac qui a donné entièrement satisfaction.  
+
Coup de tonnerre, en 1987, Alain Madelin décide la dissolution de l’ADI qui assurait 50% du soutien de l’ANL. Je me suis alors rapproché de l’INIST. Débauché par Goéry Delacôte et sous la direction de Nathalie Dusoulier<ref>Qui avait été rappelée par le CNRS pour la création de l’INIST à Nancy.</ref>, j’ai assuré au départ la direction Informatique. L’INIST avait hérité d’un schéma directeur basé sur un système intégré avec un SGBD relationnel sur un mainframe IBM. Cela ne me paraissait pas adapté à l’indexation des bases bibliographiques mais raisonnable pour les services de fournitures de documents. Or, Nathalie Dusoulier tenait à un système dédié pour la bibliothèque. Elle m’a invité à plonger dans les normes de catalogage, et plus précisément dans l’étude du format Unimarc sous la norme ISO 2709<ref>Plus connue sous l’appellation MARC. D’un point de vue informatique, une notice MARC est un ensemble de petits arbres où toutes les données structurelles sont variables.</ref>. J’ai ainsi découvert que, malgré mon expérience documentaire antérieure j’avais tout à découvrir en bibliothéconomie ! L’INIST a donc fait l’acquisition, pour la bibliothèque, d'un système Geac qui a donné entièrement satisfaction.  
  
 
Grâce aux relations issues de l’ANL, j’ai découvert (début 89) la norme SGML qui me paraissait bien adaptée à la norme ISO 2709. Bien avant MarcXml de la Library Of Congress, Nous avons alors développé une boîte à outil (iLib) pour le développement rapide d’applications. Avec un mécanisme préfigurant xPath nous avons démarré par des filtrages de corpus ISO 2709. Puis en s’inspirant des chaines du TLF et de l’architecture MISTRAL nous avons spécifié des modèles SGML pour les données internes (fichiers inverses par exemple). Nous avons développé des modules (en langage C) qui permettaient de générer des systèmes de recherche avec des mécanismes de classification, dénommés serveur d’exploration.
 
Grâce aux relations issues de l’ANL, j’ai découvert (début 89) la norme SGML qui me paraissait bien adaptée à la norme ISO 2709. Bien avant MarcXml de la Library Of Congress, Nous avons alors développé une boîte à outil (iLib) pour le développement rapide d’applications. Avec un mécanisme préfigurant xPath nous avons démarré par des filtrages de corpus ISO 2709. Puis en s’inspirant des chaines du TLF et de l’architecture MISTRAL nous avons spécifié des modèles SGML pour les données internes (fichiers inverses par exemple). Nous avons développé des modules (en langage C) qui permettaient de générer des systèmes de recherche avec des mécanismes de classification, dénommés serveur d’exploration.

Version du 15 août 2023 à 21:17

Humanités assistées par ordinateur, un exemple avec la Chanson de Roland.


 
 

   
Titre
Humanités assistées par ordinateur, un exemple avec la Chanson de Roland
Auteurs
Jacques Ducloy(1),
Affiliations
HIS 8 article version 1.pdf

Cet article est soumis au colloque HIS 2023 Tataouine.

Résumé
Cet article ...
Avant-propos

Cet avant-propos est remplacé par une version propre à la version papier dans l'article soumis

Cet article reprend intégralement le texte d'un article présenté au symposium international sur l'HyperHeritage (HIS 2023 Tataouine).

Introduction

A partir des premiers résultats d'un projet de bibliothèque numérique sur la Chanson de Roland, un retraité propose ici des réflexions sur l'appropriation des technologies numériques pour la valorisation du patrimoine culturel. Cet article s'appuie sur 50 ans de rencontres avec le dictionnaire du Trésor de la langue française et les bases de données Pascal et Francis. Après une phase vécue comme prestigieuse, elles ont été abandonnées en raison de difficultés techniques. Pour étudier des voies de redressement nous avons travaillé sur deux technologies complémentaires : l'ingénierie XML d'une part, les wikis sémantiques de l'autre.

Appliquées initialement aux bases de données bibliographiques, elles s’avèrent très performantes sur la gestion et la publication de données dans les humanités numériques. Par exemple, un wiki dédié à la musique rassemble des références bibliographiques, des articles réédités en mode hypertexte sémantique, des œuvres musicales, des manuscrits et leurs transcriptions. Un noyau encyclopédique permet de naviguer dans cet ensemble. Par des concours de circonstances, nous avons travaillé sur la Chanson de Roland. Cette thématique, apparemment très spécialisée, est en réalité un point d'entrée pour l'exploration d'un vaste ensemble de poésies épiques avec des développements sur plus de 10 siècles d'histoire, de littérature, de musique, de linguistique, dans un contexte international (et multilingue).

La manipulation des manuscrits introduit une évolution fondamentale. En effet, une grande majorité de documents sont en dépendance étroite les uns avec autres. Nous avons donc décidé d’installer une bibliothèque numérique où l'on puisse expérimenter l'ensemble des actions liées à la recherche, depuis la transcription des données jusqu'à la diffusion de connaissances vers le grand public. Cette infrastructure est également utilisable pour des formations professionnelles destinées aux professionnels du soutien de la recherche et aussi pour les conservateurs ou les chercheurs impliqués dans les humanités numériques.

Dans cet article, nous présenterons nos motivations pour ces travaux et les solutions envisagées autour de l’Information Scientifique et Technique (IST). Nous montrerons ensuite comment elles s’appliquent aux humanités numériques et plus particulièrement dans la valorisation du patrimoine écrit.

Grandeur et décadence de l’IST en France

Notre témoignage comporte ici des assertions qui ne font pas forcément l’unanimité mais qui expliquent nos motivations et les options techniques retenues.

Se dégager du complexe inhibitif de rigueur pour aborder le numérique

Dans le contexte du Plan Calcul (1966), des initiations à l’informatique ont été créées dans les écoles d’ingénieur. Avec des collègues, nous sommes lancés dans le calcul numérique assisté par ordinateur avec les langages Algol ou Fortran.

Cette démarche n'était pas anodine. En effet, en 1956 à Nancy, Jean Legras, le fondateur de l'IUCA(Nancy) écrivait (Legras 1956) :

« L’ingénieur, le physicien se trouvent souvent devant les problèmes que les mathématiciens classiques n’ont pas pu résoudre. Il leur faut alors, ou renoncer à l’emploi de l’outil mathématique, ou utiliser des méthodes moins strictes, que réprouvent les mathématiciens, mais qui sont seules capables de les dépanner. »

Pour illustrer un véritable changement de paradigme, il ajoutait :

« Il est alors indispensable que l’ingénieur, le physicien et tous ceux qui s’occupent de mathématiques appliquées, soient capables de se dégager du complexe inhibitif de rigueur que leur a imposé leur éducation, et qu’ils osent se lancer à l’aventure : la vérification expérimentale sera là pour leur crier casse-cou le cas échéant. »

Cette remarque sur le complexe inhibitif de rigueur' nous paraît également de plus en plus fondamentale en 2023 pour les acteurs des humanités numériques.

Un premier exemple dans la documentation en 1973

En 1970, après un DEA en analyse numérique, j’ai démarré ma carrière comme assistant à Nancy (pendant un an) où j’ai notamment enseigné le langage Fortran. Puis j’ai intégré l’IUCA comme ingénieur système (et thésard en compilation). En 1973, j'ai été invité à former au langage COBOL les étudiants de l'IUT Carrières de l'Information à Nancy. Cette option avait été pour sa rigueur par mes prédécesseurs issus de l’informatique de gestion. L'écriture d'un programme COBOL était particulièrement rébarbative[C 1] avec la manipulation de données de taille fixe. Une notice bibliographique devait donc être distribuée sur quelques dizaines de cartes perforées. Il me paraissait impossible de motiver les étudiants dans ces conditions. Comme le compilateur Fortran de l'ordinateur ICL 1901 de cet IUT pouvait, par une extension, manipuler des chaines de caractères, j'ai décidé de me dégager du complexe inhibitif de rigueur pour montrer aux étudiants, en Fortran, comment faire pour réaliser des filtrages dans des corpus bibliographiques.

Une première mondiale dans les humanités numériques avec le TLF

Du côté de la valorisation de la langue française à l’ère post-numérique, en 1960, Paul Imbs, également à Nancy, avait lancé un projet sur 20 ans pour la réalisation informatique d'un dictionnaire de langue, le Trésor de la langue française. Le CNRS avait acquis l’ordinateur français le plus puissant de cette époque un Gamma 60 [C 2] de la compagnie Bull. Mais la programmation devait se faire dans un langage machine assez acrobatique, elle était donc inaccessible aux chercheurs en sciences humaines (ou même en calcul numérique). Le CNRS a donc appelé des informaticiens de haut niveau pour réaliser les développements. La compagnie Bull avait également affecté des ingénieurs pour cette vitrine technologique. Malheureusement, cette équipe a eu une durée de vie limitée au démarrage. En 1973, les programmes sont devenus obsolètes avec un nouvel ordinateur, l'Iris 80, construit par la Cii[1] . Mais les experts étant partis et la transition a été très difficile.

Dans les années 80, Jacques Dendien, a rejoint le TLF pour y développer des services de haut niveau Frantext et le TLFi (le TLF accessible par Internet). En dépit de ces succès, l'expérience difficile du management de la production avait été mal vécue par le CNRS qui, en 1995, a renoncé à la mise à jour du TLF. Le TLFi qui avait un immense succès sur le Web dans les années 2000 est maintenant supplanté par Wiktionnaire, technique et juridiquement piloté à San Francisco.

Une référence mondiale en 1975 : Pascal sur Cyclades avec MISTRAL

En 1970, la Cii a développé MISTRAL, un système de recherche d’information pour placer la France en position mondiale dans l’IST. Compte tenu de la présence du TLF, la Cii nous a naturellement invité à acquérir ce progiciel.

Les étudiants de L’IUT ont été les pionniers à Nancy. En 1973, la première version ne fonctionnait qu'avec des bandes magnétiques (6 dérouleurs) et elle ne pouvait pas être utilisée en travaux pratiques. En revanche, en 1974, une nouvelle version, disque cette fois permettait déjà des extractions avec des équations booléennes. En parallèle, l’IUCA, grâce au TLF, étant devenu site pilote pour tester les nouvelles versions du système SIRIS 8 (et de Mistral), les étudiants ont bénéficié de conditions exceptionnelles pour l’époque. Par petits groupes ils pouvaient créer leur propre base (avec un thésaurus) et lancer des recherches en temps partagé.

Forts de cette première expérience, nous avons ensuite informatisé le BALF[2] , associé au TLF. Ce bulletin existait sous la forme de notices bibliographiques. Avec un informaticien de l’INIST nous avons réalisé un transcodage (de mémoire assez simple) et généré une base Mistral. En même temps, grâce aux bonnes relations que Claude Pair avait avec l’IRIA, nous avons pu être connecté au réseau Cyclades, la préfiguration française de l’Internet, vers 1978.

Mais la plus grande performance se situait du côté du CDST qui avait réussi, grâce notamment à l’impulsion de Nathalie Dusoulier à créer la base Pascal à partir des bulletins signalétiques du CNRS. Elle avait choisi d’utiliser le format ISO 2709 qui venait d’être créé (en 1973) dont la manipulation était assez complexe mais qui garantissait une compatibilité internationale. Avec une production qui était déjà de 400.000 références par an, la base Pascal a pu être accessible sur le réseau Cyclades sous le logiciel MISTRAL.

Malheureusement cette position d’excellence a été de courte durée. Dans les années 80, le réseau Cyclades a été arrêté. Le logiciel Mistral n’a pas été repris par le groupe Bull. L’équipe MISTRAL a rejoint la société TéléSystèmes pour y créer les services Questel.

De plus, forte de ce succès, Nathalie Dusoulier a mené une carrière dans les bibliothèques de l’ONU, Genève et New York. Elle a notamment assuré la fédération numérique de l’ensemble des bibliothèques de l’ONU. Le CDST est devenu très dépendant, en amont du savoir-faire de la société Jouve pour la constitution des bases de données et de la société Questel pour les services en ligne. Cette situation a causé de nombreux problèmes de gestion qui ont conduit les pouvoirs publics à la création de l’INIST.

Stations de travail Unix pour l’ingénierie XML

Dans les années 80, les ordinateurs Multics ont remplacés les Iris 80. Avec la Cii basé à Louveciennes, nous avions des relations privilégiées avec les experts (Siris 8 ou MISTRAL) ou avec les équipes Iria (Cyclades). Multics étant géré à Phoenix, le travail à l’IUCA n’avait plus le même intérêt. J’ai alors rejoint une équipe sur un projet nommé ANL pour Association Nationale du Logiciel.

Ce projet était piloté par l’Agence de l’Informatique (ADI) et le CNRS avec comme partenaires le CNET, l’INRIA et le Ministère de la Recherche. Suite à la réalisation d’un inventaire de logiciels issus de laboratoires public, l’ANL est devenu un Groupement Scientifique pour la valorisation informationnelle des logiciels issus de la recherche. J’en ai pris la direction en 1981. Nous avions constitué un inventaire (informatisé) d’un millier de dossiers logiciels et nous organisions des expositions de logiciel en France et à l’international.

Nous étions en première ligne pour repérer des logiciels innovants pour le traitement de l’information technique. Ainsi, en 82-83 nous pouvions générer des catalogues et alimenter un serveur (sous le logiciel Texto). Un virage très important a été pris avec le pilotage des actions SM 90 par l’ADI. La SM 90 était issu des études du CNET pour concevoir une station de travail sous le système Unix qui commençait son expansion. L’ANL a alors été sollicitée pour faire un inventaire des logiciels français disponibles sous unix, avec le montage de démonstration. Notre inventaire numérique est devenu une matière première pour de nombreux tests de logiciels. En particulier, les équipes travaillant sur les compilateurs de compilateurs commençaient à appliquer leurs outils initialement conçus pour des programmes structurés aux documents. Du côté de l’équipe technique ANL nous avons donc fait une utilisation intensive d’analyseurs lexicaux (lex) pour adapter nos données à des logiciels d’intelligence artificielle (Lisp ou Prolog).

Coup de tonnerre, en 1987, Alain Madelin décide la dissolution de l’ADI qui assurait 50% du soutien de l’ANL. Je me suis alors rapproché de l’INIST. Débauché par Goéry Delacôte et sous la direction de Nathalie Dusoulier[3], j’ai assuré au départ la direction Informatique. L’INIST avait hérité d’un schéma directeur basé sur un système intégré avec un SGBD relationnel sur un mainframe IBM. Cela ne me paraissait pas adapté à l’indexation des bases bibliographiques mais raisonnable pour les services de fournitures de documents. Or, Nathalie Dusoulier tenait à un système dédié pour la bibliothèque. Elle m’a invité à plonger dans les normes de catalogage, et plus précisément dans l’étude du format Unimarc sous la norme ISO 2709[4]. J’ai ainsi découvert que, malgré mon expérience documentaire antérieure j’avais tout à découvrir en bibliothéconomie ! L’INIST a donc fait l’acquisition, pour la bibliothèque, d'un système Geac qui a donné entièrement satisfaction.

Grâce aux relations issues de l’ANL, j’ai découvert (début 89) la norme SGML qui me paraissait bien adaptée à la norme ISO 2709. Bien avant MarcXml de la Library Of Congress, Nous avons alors développé une boîte à outil (iLib) pour le développement rapide d’applications. Avec un mécanisme préfigurant xPath nous avons démarré par des filtrages de corpus ISO 2709. Puis en s’inspirant des chaines du TLF et de l’architecture MISTRAL nous avons spécifié des modèles SGML pour les données internes (fichiers inverses par exemple). Nous avons développé des modules (en langage C) qui permettaient de générer des systèmes de recherche avec des mécanismes de classification, dénommés serveur d’exploration.

Le démantèlement des missions stratégiques en IST du CNRS

Goéry Delacôte m’avait donné comme mission à l’informatique de redonner à moyen terme l’indépendance technologique (numérique donc) de l‘INIST. L’action SGML entrait dans cette stratégie, mais dans un climat souvent très conflictuel. En effet, de nombreux cadres à qui le CNRS avait demandé de rester pour assurer une continuité de services étaient très impliqués dans les relations avec les sous-traitants et voyaient comme une menace la stratégie d’indépendance.

De plus, en 1991, nouveau coup de tonnerre, Goéry Delacôte, en conflit avec la Direction Générale, quitte le CNRS pour aller diriger l'Exploratorium de San Francisco. Parmi les raisons du conflit, l’INIST avait créé une filiale INIST Diffusion pour commercialiser les bases Pascal et Francis et les prestations de fourniture de documents. En dépit de la bonne qualité du nouveau service de FDP, le marché n’a pas suivi. Le CNRS a créé un Groupe INIST, piloté de fait par la filiale (et plus précisément par son chiffre d’affaires). Pour cela le CNRS a recruté des cadres plutôt issus du secteur de la vente en ligne et favorable à un retour à un modèle informatique centralisé avec maintien des aspects techniques à la sous-traitance. Le CNRS a fait machine arrière en 2000 (j’ai alors été rappelé comme directeur des produits et services). Mais un nouveau changement de direction de l’INIST est intervenu en 2004 dans un contexte difficile à la direction générale. Une nouvelle stratégie trop dépendante de la filiale s’est révélée catastrophique sur le long terme pour les bases Pascal et Francis qui ont finalement été démontées. Pendant ce temps-là, les américains, et notamment la NLM avec qui nous faisions jeu égal en dans les années 70 jusqu’au premières années de l’INIST a plus que doublé sa production et possède de fait un monopôle stratégique.

Le projet Wicri

Pau après sa création, Wikipédia, en dépit de ses limites, est devenu un outil très utilisé par les acteurs de l'innovation. En effet, depuis Diderot et d'Alembert, la recherche dans une encyclopédie est le mode le plus naturel pour faire le point sur un sujet donné.

Dans les années 60, dans l'enthousiasme du plan calcul, le CNRS n'a pas lancé un projet d'encyclopédie de la recherche, en parallèle avec le dictionnaire TLF ? La réponse est en fait assez simple. avec les technologies des années 70, il aurait fallu plusieurs dizaines d'années (comme pour le TLF) pour produire en encyclopédie en 10 ou 20 tomes. Mais la connaissance technologique évolue beaucoup plus rapidement que la langue et le dictionnaire aurait été totalement démodé lors de la publication du dernier tome.

En revanche, en 2808, nous avons entrepris de montrer que l'approche wiki pouvait s'appliquer au monde de l'innovation.

WicriRéseauGabarit3.png

Pour aller sur Wicri/Wicri (fr)

Pour aller sur le wiki d'accueil du domaine lorexplor.ixtex.fr (fr)

Pour aller sur le pool d'images du réseau Wicri sur le domaine lorexplor.istex.fr

Pour aller sur le wiki d'accueil du réseau Wicri sur le domaine wicri-demo.istex.fr

Pour aller sur le pool d'images du réseau Wicri sur le domaine wicri-demo.istex.fr

Pour aller sur le wiki de service Wicri/Manuel (fr)

Pour aller sur le wiki de service Wicri/Base 1.28 (fr)

Pour aller sur le wiki de service Wicri/Base 1.31 (fr)

Pour aller sur le wiki de service Wicri/Métadonnées (fr)

Pour aller sur Wicri/Outils (fr)

Pour aller sur Wicri/Archéologie (fr)

Pour aller sur le wiki Wicri/Arts (fr)

Pour aller sur le wiki Wicri/Musique (fr)

Pour aller sur Wicri/Ingénierie (fr)

Pour aller sur Wicri/Informatique (fr)

Pour aller sur Wicri/Sic (fr)

Pour aller sur le wiki Wicri/Histoire des sciences (fr)

Pour aller sur le wiki Wicri/Histoire de l'IST (fr)

Pour aller sur Wicri/Linguistique (fr)

Pour aller sur Wicri/Mathématiques (fr)

Pour aller sur Wicri/Santé (fr)

Pour aller sur le wiki Wicri/Psychologie (fr)

Pour aller sur Wicri/Biomasse (fr)

Pour aller sur Wicri/Eau (fr)

Pour aller sur Wicri/Bois et forêts (fr)

Pour aller sur Wicri/Terre (fr)

Pour aller sur Wicri/Sols urbains (fr)

Pour aller sur Wicri/Agronomie (fr)

Pour lire les Mots de  l'Agronomie (fr)

Pour aller sur le wiki du réseau Médici (fr)

Pour aller sur Wicri/Artist (fr)

Pour aller sur Wic/Sic/Cide (fr)

Pour aller sur Wic/Sic/H2PTM (fr)

Pour aller sur Wicri Sic/VSST (fr)

Pour aller sur Wicri Musique/Musamat (fr)

Pour aller sur Wicri/Afrique (fr)

Pour aller sur Wicri/Amérique (fr)

Pour aller sur Wicri/Asie (fr)

Pour aller sur Wicri/Europe (fr)

Pour aller sur Wicri/Océanie (fr)

Pour aller sur Wicri/Belgique (fr)

Pour aller sur Wicri/Allemagne (fr)

Pour aller sur Wicri/France (fr)

Pour aller sur Wicri/Luxembourg (fr)

Pour aller sur Wicri/Maroc (fr)

Pour aller sur Wicri/Brésil (fr)

Pour aller sur Wicri/Canada (fr)

Pour aller sur Wicri/Grande Région (fr)

Pour aller sur Wicri/Rhénanie-Palatinat (fr)

Pour aller sur Wicri/Sarre (fr)

Pour aller sur Wicri/Wallonie (fr)

Pour aller sur Wicri/Chanson de Roland (fr)

Pour aller sur Wicri/Grand Est (fr)

Pour aller sur Wicri/Grand Est (fr)

Pour aller sur Wicri/Alsace (fr)

Pour aller sur Wicri/Lorraine (fr)

Pour aller sur Wicri/Histoire Lorraine (fr)

Pour aller sur Wicri/Nancy (fr)

Pour aller sur Wicri/Île-de-France (fr)

Figure 1 : le réseau Wicri en 2021

Le programme ISTEX nous a permis d'intégrer une technologie de type serveur d'exploration.

Figure 2 : Éléments d'un ensemble wiki + serveur d'explorations

Un projet numérique sur la Chanson de Roland

Premières étapes

Le 15 aout 778, de retour d'Espagne, Charlemagne perd son arrière-garde, tombée, à titre de représailles, sous le feu des troupes des seigneurs basques dont il a attaqué les possessions. Lors de la bataille de Roncevaux, l'arrière-garde est écrasée, provoquant la mort de nombreux braves de l'entourage de Charlemagne, dont celle de Roland, préfet de la Marche de Bretagne.

Tels sont les faits racontés par Éginhard au chapitre neuvième de sa Vita Karoli Magni (Vie de Charlemagne), et, par exemple, rappelés par Léon Gautier dans son édition populaire de 1895.

Nous montrerons plus loin l'ampleur prise par cet événement pendant plus 10 siècles au niveau international. Nous voulons ici simplement rappeler les premières étapes du projet.

En 2014, suite à nos travaux sur la réédition d'articles anciens, nous avons été sollicité par Isabelle Turcan pour accompagner un étudiant d'une filière "Métiers du livre" pour numériser un ouvrage annoté. Plus précisément, il s'agissait d'une édition critique d'un manuscrit (celui d'Oxford) publiée en 1869 par Francique Michel. Cet ouvrage était annoté par Paul Meyer.

Figure 8 : exemples d’annotations

Le démarrage a été très rapide avec un expert en numérique (votre serviteur) à mi temps pour former le stagiaire et développer quelques modèles MediaWiki (pour réaliser la mise en page). L'étudiant a commencé à produire des résultats pertinents en quelques jours. A la fin du stage, toutes les pages annotées avaient été traitées et une partie conséquente de l'ouvrage avait été transcrit en code wiki. Nous avons alors profité de cette première étape pour faire une démonstration (à destination des philologues) sur l'utilisation des wikis sémantiques en annotant les variantes d'orthographe dans le nom des personnages.

En mai 2021 un nouveau stage a conduit à mettre en place un projet de plus conséquent en visant un nouveau public : celui des choristes. En effet dans le cadre de travaux sur une bibliothèque numérique en musique, nous avons localisé une suite pour chœur et orchestre basée justement sur le manuscrit d'Oxford. Nous avons demandé aux stagiaires de mettre en relation les vers de l'oratorio avec le texte de Francisque Michel, en introduisant, à titre d'illustration, des facsimilés de feuillets du manuscrit.

Après un démarrage plutôt satisfaisant sur les premières strophes, des incohérences de numérotation de vers sont rapidement apparues. En effet, Gilles Mathieu avait travaillé à partir d'une autre édition critique (Léon Gautier). Le modèle hypertexte s'est donc fondamentalement modifié, avec 2 éditions critiques à prendre en compte. Le manuscrit devient alors le composant fondamental pour l'organisation numérique.

HIS 2023 figure 2.jog.jpg

Il a donc fallu modifier en profondeur le modèle initial. Dans notre réflexion sur l'usage du numérique, ce premier problème, découvert au bout de quelques jours de développement, nous a semble particulièrement démonstratif. En quelques mois, nous disposions d'un ensemble déjà démonstratif. Lors d'un séminaire de travail (avec des philologues) sur le fonds Paul Meyer, nous avons mis en évidence des faits peu connus. Par exemple, nous avions localisé l'ouvrage cible des annotations de Paul Meyer. Nous avions commencé à identifier la communauté des chercheurs qui, autour de l’École des Chartes et de la revue Romania examinaient et commentaient des éléments fortement localisés (un mot dans une laisse donnée...).

Nous avons donc décidé d'analyser le potentiel de cette thématique pour un projet conséquent de bibliothèque numérique.

Une bibliothèque numérique aux objectifs multiples

Il nous a donc paru intéressant d'étudier une infrastructure numérique utilisable par des chercheurs pour leurs investigations et pas seulement pour la diffusion des résultats. La valorisation du fonds Paul Meyer offrait un premier axe de développement. Paul Meyer n'est pas seulement l'annotateur de Francique Michel, il a été directeur de l'École des Chartes en 1882 et un des fondateurs des revues Romania et de la Revue critique d'histoire et de littérature.

Le réseau Wicri contient des sites basées sur des collections thématiques de publications de recherche. La thématique ici retenue introduit une contrainte nouvelle. En effet, les données sur lesquelles s'appuient ces publications sont des manuscrits qui sont numérisés et structurés en mode hypertexte sur le même site.

Du côté musical, la perspective d'un concert ouvre deux axes complémentaires. Cette œuvre ayant été peu interprétée, nous voulons faciliter les « négociations » entre le compositeur et un directeur artistique. Nous avons donc entrepris de transcrire en code LilyPond l'ensemble des partitions pour être capable de générer de nouvelles partitions en quelques jours. Nous avons aussi cherché à donner des consignes de prononciation correctes pour les vers du manuscrit. Ceci implique un alignement très précis sur les vers du manuscrit en remontant vers un glossaire qui peut donner des indications.

A l'occasion de manifestations grand public comme les « fêtes de la science » nous avons été confronté à un phénomène de pertes de racines culturelles en quelques génération :

  • En 1881, était officiellement désignée comme l’un des textes classiques à l’usage des élèves de seconde,
  • En 1906, dans une revue de grande diffusion pour la jeunesse, on peut trouver une bande dessinée sur Roland.
  • Dans les années 50 à 60, la Chanson faisait encore l'objet d'études dans les lycées. Elle était également présentée dans les cours d'histoire pour les cours élémentaires. Le manuel d'Histoire de France diffusé par Nathan en 1955 consacre 2 pages (sur 80) à Roland (autant que pour Charlemagne, Louis XIV fait mieux avec 4 pages).

Une multitude de documents hétérogènes et fortement interconncetés

Combien de mètres de rayonnage pour la Chanson de Roland ?

Dans la bibliothèque des lettres de l'Université de Lorraine, la Chanson de Roland occupe trente centimètres de rayonnage dont une dizaine pour les trois tomes (2 940 pages) de Joseph Duggan (Duggan 2005). La requête « "roland" "chanson" "charlemagne" », sans les citations, sur Google Scolar donne environ 14 000 références, soit une centaine de mètres... La mise en place d'une bibliothèque significative n'est donc pas une entreprise anodine.

Sur Wicri, les documents deviennent, comme sur Wikipédia, des ensembles de pages wiki (où les documents ont été transcrits en wikitexte et enrichis par des liens sémantiques).

Le manuscrit d'Oxford est un codex composé de 72 feuillets. Il contient 4002 vers distribués sur près de 300 couplets (laisses). Chaque laisse sera implantée sur une page wiki (qui pourra contenir une ou plusieurs transcriptions et des notes). De même pour les feuillets qui font le lien avec les facsimilés des pages. Un tel manuscrit, est donc un ensemble d'environ 500 pages wikis. Pour couvrir un ensemble comparable à celui de Duggan, il faut traiter au moins cinq manuscrits de volumétrie comparable.

La Chanson de Roland a donné lieu à de multiples ouvrages de type édition critiques ou traductions. Dans son article traduire la chanson de Roland Christopher Lucken (Lucken 2018) donne un chiffre de 50 ouvrages significatifs de traduction. Chacun fait quelques centaines de pages qui reprennent les 300 couplets qu'il faut lier avec le (ou les) manuscrits.

Ces traductions sont souvent réalisées à partir d'édition critiques. Leur structure est souvent assez complexe. Par exemple celle de Léon Gautier est un ensemble de parties très spécifiques :

  1. une introduction historique en 18 chapitres sur 200 pages ;
  2. Sur 300 pages, l'édition critique proprement dite et sa traduction, laisse par laisse. L'édition crique est répartie sur les pages paires, la traduction sur les pages impaires.
  3. Dans un deuxième volume des notes relatives aux vers
  4. un glossaire

Une grande variété de traitements éditoriaux

Recherches et importation des sources

Résolution des liens

La navigation classique dans une édition critique comme celle de Léon Gautier est complexe. Par exemple dans le glossaire qui est dans le deuxième tome, on trouve des entrées comme :

et, par erreur, empereür, 1444,

Il faut alors feuilleter le premier tome à travers les laisses pout localiser le vers en question. Paradoxalement, la manipumation est plus complexe sous Gallica.

Sous Wicri, un lien est naturellement introduit pour permettre un accès en un clic. Pour cela, on utilise un mécanisme de redirection.

Multilinguisme

Apports et limites du libre accès à l'information scientifique ou culturelle

La gestion des droits d'accès à l'information avec un haut niveau de confidentialité introduit un très haut niveau de contraintes qui impliquent des développements coûteux et complexes. Nous avons donc décidé de ne mettre en ligne que des documents libres de droits. Tout le monde peut lire les textes et seuls des contributeurs dûment identifiés peuvent intervenir sur le contenu.

Nous n'avons donc aucun problème pour rééditer des ouvrages dont les auteurs sont décédés avant 1940. De même, nous pouvons rééditer des articles issus de services comme Persée, et notamment ceux de la revue Romania. Enfin la politique d'encouragement aux archives ouvertes donne accès à de plus en plus d'articles de recherche, même récents.

En revanche, des ouvrages de référence récents sont encore protégés et ne peuvent jouer le rôle tenu par l'édition critique de Gautier. Nous avons donc dû aller en bibliothèque pour insérer le numéros de laisse donnés par J. Duggan pour permettre des alignements futurs.

Bibliographie

[Ducloy 2019] Ducloy, Jacques,  (2019). Systèmes d’information encyclopédiques édités par les scientifiques, Revue ouverte d’ingénierie des systèmes d’information, 1, 2019

[Duggan 2005] Duggan, Joseph,  (2005). La Chanson de Roland. The Song of Roland. The French Corpus, Joseph J. Duggan, General Editor, Turnhout, Brepols, 2005

[Lucken 2018] Lucken, Christopher,  (2018). Traduire la Chanson de Roland,

Médiévales [En ligne], 75 | automne 2018, mis en ligne le 15 octobre 2019, consulté le 27 juillet 2023. URL : http://journals.openedition.org/medievales/9461 ; DOI : https://doi.org/10.4000/medievales.9461

Références de l'article

  1. Compagnie Internationale pour l'Informatique, créée dans le cadre du Plan Calcul.
  2. Bulletin Analytique de la Langue Française
  3. Qui avait été rappelée par le CNRS pour la création de l’INIST à Nancy.
  4. Plus connue sous l’appellation MARC. D’un point de vue informatique, une notice MARC est un ensemble de petits arbres où toutes les données structurelles sont variables.

Voir aussi

Références complémentaires
Ces références ne figurent pas dans l'article soumis à évaluation.
  1. Les professionnels avaient introduit la catégorie analyste pour sous-traiter la programmation à des programmeur-codeurs.
  2. Cette puissance était en fait très modeste. En effet la mémoire centrale était de 130 K (octets) complétée par un tambour de 100 K. Le stockage de données utilisait exclusivement des bandes magnétiques (pas de disques).