HIS (2025) Ducloy
Révélation numérique du patrimoine culturel et immatériel des sociétés savantes.
Un exemple dans la Région Grand Est
Sommaire
- 1 Résumé
- 2 Avant propos (version papier)
- 3 Introduction
- 4 Les sociétés savantes du Grand Est
- 5 Constitution d'un corpus numérique manipulable
- 6 Où un article devient un hypertexte
- 7 Au niveau de la collection : L'histoire de la société et de ses membres
- 8 Valorisation d'un article dans un espace spécialisé
Résumé
Nous présentons une expérience (en cours) de valorisation de l'ensemble des collections de l'Académie lorraine des Sciences dans la Région Grand Est. Cette société a été créée à Strasbourg avec un déménagement à Nancy en 1970. Ce fonds représente 200 ans de publications scientifiques pluridisciplinaires (et pluriculturelles). Il était dispersé sur plusieurs sites (une partie conséquente aux États-Unis) et sous forme de fichiers en format image.
Nous décrirons un premier niveau de valorisation « assez classique » où l'on donne accès aux articles proprement dits dans une vraie bibliothèque numérique. Mais surtout, nous montrerons qu'un traitement ultérieur dans un wiki sémantique permet de révéler, pour cette société, le patrimoine immatériel et sociologique porté par ces publications. De plus nous disposons d'un réseau de wikis sémantiques spécialisés (zoologie, botanique, informatique, etc) qui permet de révéler le patrimoine scientifique ou culturel porté par des ensembles d'articles sur un thème donné.
Nous discuterons des enseignements de cette action sur un plan individuel (par exemple, acquisition de connaissances scientifiques en réalisant leur modélisation sémantiques). Nous évoquerons également les retombées institutionnelles potentielles de cette action pour un grand projet numérique adapté aux algorithmes de l'intelligence artificielle.
Avant propos (version papier)
Une version hypertexte de cet article est disponible sur le réseau WICRI.
Introduction
Cet article présente l'intégration des publications d'une société savante dans un wiki sémantique qui est intégré dans un réseau de sites scientifiques ou culturels.
Cette société savante est l'Académie lorraine des sciences (ALS), actuellement basée à Nancy mais qui a été créée à Strasbourg en 1828. Elle a été déménagée à la suite de la guerre de 1870. Nous présenterons, dans un premier temps, le contexte culturel et historique de cette action au sein d'une région qui a subi de nombreuses mutations au cours du temps. Nous présenterons également cette société.
Les publications de l'ALS, pour la période nancéienne sont disponibles sous forme de fichiers PDF, copie des bulletins trimestriels. Au départ de cette action, nous avons repéré les mémoires de la période strasbourgeoise numérisés dans des institutions américaines. Nous avons alors entrepris de réunir ces collections patrimoniales dans une vraie bibliothèque numérique (avec un accès par sommaires aux articles).
Les articles les plus intéressants sont alors enrichis avec des relations hypertextes et sémantiques. Le lecteur peut alors explorer le corpus et se faire une idée du patrimoine ainsi révélé. Pour les articles les plus pertinents sur un plan scientifique nous appliquons ce mécanisme au sein d'espaces numériques spécialisés (Botanique, Histoire de la Lorraine, histoire naturelle des animaux).
Dans une dernière partie, nous parlerons des retombées de ces pratiques dans l'acquisition des connaissances et nous proposerons des réflexions d'un caractère institutionnel.
Les sociétés savantes du Grand Est
Le cadre général de nos actions est la valorisation du patrimoine historique ou culturel contenu dans les publications scientifiques de la Région Grand Est. Voici quelques repères historiques pour ce corpus potentiel :
- 1450, création de l'imprimerie européenne par Gutenberg,
- 1572, création de l’université de Pont-à-Mousson (ancêtre de l'université de Lorraine),
- 1665, création de la première revue scientifique, le journal des sçavants,
- 1666, création de l'académie des sciences
- 1750, création de la première société savante en lorraine l'Académie de Stanislas
Plus modestement, dans ce projet, nous voulons traiter les publications de l'Académie Lorraine des sciences. Son origine remonte à Strasbourg en 1828. Elle était portée le muséum d'histoire naturelle de Strasbourg (créé en 1804). Une grande partie des académiciens étaient professeurs à la faculté de médecine de Strasbourg. Celle-ci a des racines très anciennes avec Jean Sturm en 1538. Strasbourg était alors une ville libre du Saint-Empire germanique, qui a fondé une première université en 1621. Celle-ci a été supprimée par la Convention en 1792. Napoléon Bonaparte a créé une des trois facultés de médecine (avec Paris et Montpellier) en 1808.
Cette académie s'est rapidement diversifiée pour intégrer la géologie, puis la chimie, etc.
En 1870, éclate la guerre entre l'Allemagne et la France. Strasbourg devient une ville allemande et un grand nombre de professeurs rejoignent Nancy. Les membres de la Société d'Histoire naturelle de Strasbourg modifient les statuts pour créer la Société des sciences de Nancy. Elle deviendra Académie lorraine des sciences en 1965 compte tenu de l'élargissement de ses activités.
D'un point de vue scientifique, l'ALS est maintenant organisée en 5 sections :
- Section 1 : Mathématiques, Physique, Chimie, Electronique, Informatique, Génie des Procédés.
- Section 2 : Biologie animale et végétale, Sciences de l’environnement.
- Section 3 : Médecine, Médecine vétérinaire, Pharmacie.
- Section 4 : Sciences du sol, de la terre et de l’univers.
- Section 5 : Sciences humaines.
Notre objectif est de faire ressortir le gigantesque patrimoine porté par les contributions des chercheurs et praticiens du Grand Est, pour 200 ans d'une histoire qui, en fait, a commencé il y a 500 ans.
Constitution d'un corpus numérique manipulable
De façon prosaïque, la première étape a consisté à ressembler et homogénéiser les publications.
La partie la plus importante du corpus est constituée d'un ensemble de fichiers PDF, copies des bulletins produits par l'association depuis 1973 (à Nancy). Les ouvrages papiers ont été numérisés par l'INIST en 2005 pour créer un portail d'accès aux articles (par un service dénommé eRevues). Malheureusement l'INIST a démantelé ce service en 2014. Le portail a alors été supprimé et l'INIST a remis à l'ALS une simple copie des ouvrages papiers sous forme de fichiers PDF.
Cet ensemble est très hétérogène. Il est constitué de fichiers qui vont des quelques dizaines de pages à plusieurs centaines. La longueur des articles varie d'une simple page (procès-verbaux de séance) à des mémoires de plus de 150 pages.
En démarrant cette action, nous avons découvert que les mémoires de la société strasbourgeoises n'étaient pas disponibles en France. En effet, ils avaient été perdus dans le déménagement ! Heureusement, dans le cadre d'échanges entre sociétés savantes, des exemplaires étaient rangées dans des bibliothèques américaines qui les ont numérisées. Elle sont disponibles sur le site Biodiversity Heritage Library (BHL), géré, à Washington par les « Smithsonian Libraries and Archive ». Compte-tenu des changements politiques aux États-Unis, il nous a paru urgent de rapatrier ce précieux patrimoine. Il est constitué de 6 volumes de 350 à 700 pages que l'on peut décharger, page par page, en format jpeg. Nous avons également trouvé quelques articles en PDF sur le portail numérique du Jardin botanique royal de Madrid.
Nous venons de rapatrier tous ces fichiers dans un site wiki (moteur Semantic MediaWiki). Nous avons commencé à créer un ensemble d'articles. Au départ chaque article est une « page MediaWiki » qui contient une en-tête bibliographique, suivie d'un ensemble de copies de pages PDG ou JPEG suivant le cas. Dans la description bibliographique les auteurs sont étiquetés avec un attribut « A pour auteur::
». Ceci permet de générer par exemple des listes d'articles par auteur. De même, les articles peuvent être indexées par des catégories.
Cette opération est assez longue pour les PDF issus du site ALS. Dans une phase intermédiaire, nous constituons une liste des sommaires (à partir des tables des matières des fascicules PDF). Cette opération est souvent fastidieuse car les PDF ne sont pas toujours de qualité suffisante pour un copier/coller (ou pour une bonne reconnaissance OCR). Par chance, nous avons trouvé sur le site Internet Archive des copies du site de l'ALS. Nous y avons trouvé les sommaires de qualité qui avaient été réalisés par l'INIST. Là encore, une partie de notre patrimoine numérique perdu a pu être rapatrié... à partir des États-Unis.
Nous disposons donc d'un premier niveau de bibliothèque qui permet d'accéder aux articles par sommaire, index auteur etc. Mais ces articles sont simplement juxtaposés en mode image. L'étape suivant consiste à les transcrire en OCR pour en faire des articles en format texte, puis hypertexte.
Cette opération a démarré. Nous pouvons déjà présenter trois types de valorisation hypertexte pour faire émerger le patrimoine porté par ces publications : au niveau des articles, puis de la collection et enfin de l'insertion dans un espace scientifique spécialisé.
Où un article devient un hypertexte
Les articles de la collection, nous l'avons dit, sont de taille très variable. Un article de 100 images de pages affiché sur une seule page wiki est alors illisible. Quand l'article est bien structuré (en chapitres ou sections) nous pouvons déjà le distribuer, en mode image, sur plusieurs pages wiki, la première page wiki d'accueil donnant alors le sommaire.
Pour aller plus loin, les articles doivent être converti en mode texte. Comme nous l'avons évoqué plus haut, cette procédure est de difficulté très variable en fonction de la qualité de numérisation. Il faut également introduire des balisages de base (italique, gras) ou des séquences en LaTeX pour les formules mathématiques. Le repérage des titres permet de générer automatiquement une table des contenus en début d'article.
Mais certains articles, de taille plus conséquente, contiennent en fait des petits dictionnaires. Ainsi, nous disposons d'un article de Philippe Voltz de 1830 qui décrit la collection des bélemnites du Muséum de Strasbourg sur 72 pages (plus huit pages de planches). Il contient 17 descriptions d'espèces de ce fossile. Nous avons créé autant de pages wiki que d'espèces. Chacune est alors décrite sur une page-wiki où l'on a rapproché la (ou les) planches de figures relatives à l'article. Chaque fossile ainsi décrit est souvent plusieurs fois cité dans le texte avec des liens hypertexte qui offrent lecteur la possibilité de parcours exploratoires.
Un autre exemple est donné par un répertoire archéologique de la Moselle. Il s'agit d'un « article » de 250 pages qui contient plusieurs centaines de description de communes réparties dans une cinquantaines de cantons eux mêmes répartis dans 8 arrondissements. Nous avons créé une page par arrondissement qui donne la liste des communes par canton. Il y a ensuite une page par canton avec des liens internes vers des communes. Certaines communes, qui contiennent plusieurs descriptions, disposent de leur propre page.
Un article d'un document peut donc devenir un hypertexte qui permet de naviguer dans des espaces partrimoniaux (les fossiles du Museum de Strasbourg ou les descriptions archéologiques des communes de Moselle.
Au niveau de la collection : L'histoire de la société et de ses membres
Il est également possible de construire des hypertexte sur l'ensemble de la collection. La vie de la société et de ses membres en donnent des exemples.
Régulièrement, quelques académiciens décrivent des aspects de la vie de la société. Voici un exemple avec un article d'un médecin, Gilbert Percebois, professeur de parasitologie et mycologie qui a écrit un article de synthèse sur « La biologie dans les publications de la Société Lorraine des Sciences (1828-1978) ». Il y cite notamment des sociétaires qui ont écrit des articles. Un traitement hypertexte permet d'accéder « un un clic » à des éléments.
En fait cet article est très précieux pour donner un ordre de priorité pour traiter les milliers d'articles et les centaines d'auteurs de l'académie.
Un point important à ce niveau est la désambiguïsation des patronymes. Cet exercice est parfois difficile car il n'était pas d'usage de mentionner les prénoms. Par exemple, pour le patronyme « Duvernoy », célèbre zoologiste, Wikipédia donne 10 entrées. Il est alors facile d'identifier Louis Georges Duvernoy, notre ancien président. Nous donnons alors comme identifiant celui de Wikipédia (et donc de WikiData). C'est nettement plus compliqué avec un patronyme tel que : Gross, Maire ou Nicolas. Pour des membres peu connus (et qui n'ont pas de pages sur Internet), cela demande une stratégie de recherche parfois infructueuse. Nous avons par exemple un « x Thouvenin ».
Il es donc possible de naviguer à partir d'articles de synthèses ou sur les listes d'auteurs. Chaque auteur possède sa fiche où il est possible de citer les laboratoires où il a exercé, sa ville de naissance etc.
La collection des publications de l'ALS permet donc de faire émerger un ensemble de faits porteurs du patrimoine que représente la vie de la société.
D'un point de vue technique les collections de l'ALS sont gérées dans un « portail wiki » qui va cohabiter, sur le même espace wiki avec d'autres sociétés du Grand Est. Au niveau du wiki, nous avons donc un réseau de connaissance sur l'histoire de la science en lorraine.
Valorisation d'un article dans un espace spécialisé
Comme le montre la figure suivante, le portail de l'ALS fait partie du réseau Wicri, un ensemble de wikis. Ces wikis sont souvent spécialisés par domaine scientifique (Animaux, végétaux, musique, santé etc). Un mecanisme nommé « lien interwiki » permet de réaliser des liens hypertextes entre les wikis.
Une des utilisations les plus simples de ce mécanisme consiste à expliquer une notion (dans le wiki des sociétés savantes) à la développer dans un autre wiki sans « encombrer » le wiki de départ. Par exemple, un article traite des mammifères et de l'ornithologie à Madagascar. L'auteur, Victor Sganzin, y cite une liste d'animaux très spécifiques comme le petit maki gris de Buffon. Le sujet peut être développé sur le wiki « animaux ». Plus précisément, le wiki « animaux » contient une réédition de l'histoire naturelle de Buffon en cours de réalisation. L'éditeur de l'article sur Sganzin a le droit de contribuer sur animaux. Il peut donc réaliser l'édition de l'article de l'encyclopédie de Buffon.