HIS (2025) Ducloy

Révélation numérique du patrimoine culturel et immatériel des sociétés savantes.

Un exemple dans la Région Grand Est

Cette page contient une version hypertexte d'une communication qui sera présentée à la conférence HIS'9 au Campus Condorcet à Aubervilliers les 19 et 20 novembre 2025.

présentation orale

présentation PDF

Article soumis

Résumé

Nous présentons une expérience (en cours) de valorisation de l'ensemble des collections de l'Académie Lorraine des Sciences dans la Région Grand Est. Cette société a été créée à Strasbourg avec un déménagement à Nancy en 1870. Ce fonds représente 200 ans de publications scientifiques pluridisciplinaires (et pluriculturelles). Il était dispersé sur plusieurs sites (une partie conséquente aux États-Unis) et sous forme de fichiers en format image.

Nous décrirons un premier niveau de valorisation « assez classique » où l'on donne accès aux articles proprement dits dans une vraie bibliothèque numérique. Mais surtout, nous montrerons qu'un traitement ultérieur dans un wiki sémantique permet de révéler, pour cette société, le patrimoine immatériel et sociologique porté par ces publications. De plus nous disposons d'un réseau de wikis sémantiques spécialisés (zoologie, botanique, informatique, etc) qui permet de révéler le patrimoine scientifique ou culturel porté par des ensembles d'articles sur un thème donné.

Nous discuterons des enseignements de cette action sur un plan individuel (par exemple, acquisition de connaissances scientifiques en réalisant leur modélisation sémantiques). Nous évoquerons également les retombées institutionnelles potentielles de cette action pour un grand projet numérique adapté aux algorithmes de l'intelligence artificielle.

Abstract

This paper describes an experiment (in progress) of valorization of the entire collections of the Lorraine Academy of Sciences in the French Grand Est region. This company was created in Strasbourg with a move to Nancy in 1970. This corpus represents 200 years of multidisciplinary (and multicultural) scientific publications. It was dispersed over several sites (a significant part in the United States) and in the form of image files. We will describe a first level of "fairly classic" valorization where we give access to the articles themselves in a real digital library. But above all, we will show that a subsequent treatment in a semantic wiki makes it possible to reveal, for this company, the intangible and sociological heritage carried by these publications. In addition, we have a network of specialized semantic wikis (zoology, botany, computer science, etc.) which makes it possible to reveal the scientific or cultural heritage carried by sets of articles on a given theme. We will discuss the lessons learned from this action on an individual level (for example, the acquisition of scientific knowledge by carrying out their semantic modeling). We will also discuss the potential institutional repercussions of this action for a large digital project adapted to artificial intelligence algorithms.

Article en cours de relecture et d'enrichissement hypertexte.

Introduction

Cet article présente l'intégration des publications d'une société savante dans un wiki sémantique qui est intégré dans un réseau de sites scientifiques ou culturels.

Cette société savante est l'Académie lorraine des sciences (ALS), actuellement basée à Nancy mais qui a été créée à Strasbourg en 1828. Elle a été déménagée à la suite de la guerre de 1870. Nous présenterons, dans un premier temps, le contexte culturel et historique de cette action au sein d'une région qui a subi de nombreuses mutations au cours du temps. Nous présenterons également cette société.

Les publications de l'ALS, pour la période nancéienne sont disponibles sous forme de fichiers PDF, copie des bulletins trimestriels. Au départ de cette action, nous avons repéré les mémoires de la période strasbourgeoise numérisés dans des institutions américaines. Nous avons alors entrepris de réunir ces collections patrimoniales dans une vraie bibliothèque numérique (avec un accès par sommaires aux articles).

Les articles les plus intéressants sont alors enrichis avec des relations hypertextes et sémantiques. Le lecteur peut alors explorer le corpus et se faire une idée du patrimoine ainsi révélé. Pour les articles les plus pertinents sur un plan scientifique nous appliquons ce mécanisme au sein d'espaces numériques spécialisés (Botanique, Histoire de la Lorraine, histoire naturelle des animaux).

Dans une dernière partie, nous parlerons des retombées de ces pratiques dans l'acquisition des connaissances et nous proposerons des réflexions d'un caractère institutionnel.

Les sociétés savantes du Grand Est

Le cadre général de nos actions est la valorisation du patrimoine historique ou culturel contenu dans les publications scientifiques de la Région Grand Est. Voici quelques repères historiques pour ce corpus potentiel :

1450, création de l'imprimerie européenne par Gutenberg : il est théoriquement possible de publier des articles scientifiques.
1572, création de l’Université de Pont-à-Mousson (ancêtre de l'université de Lorraine) ;
1665, création de la première revue scientifique, le journal des sçavants ;
1666, création de l'Académie des sciences ;
1750, création de la première société savante en lorraine l'Académie de Stanislas.

L'Académie Lorraine des sciences

Plus modestement, dans ce projet, nous voulons traiter les publications de l'Académie Lorraine des sciences. Son origine remonte à Strasbourg en 1828. Elle était portée par le Muséum d'histoire naturelle de Strasbourg (créé en 1804). Une grande partie des académiciens étaient professeurs à la Faculté de médecine de Strasbourg. Celle-ci a des racines très anciennes avec Jean Sturm en 1538. Strasbourg était alors une ville libre du Saint-Empire germanique, qui a fondé une première université en 1621. Celle-ci a été supprimée par la Convention en 1792. Napoléon Bonaparte a créé une des trois facultés de médecine (avec Paris et Montpellier) en 1808.

Cette académie s'est rapidement diversifiée pour intégrer la géologie, puis la chimie, etc.

En 1870, éclate la guerre entre l'Allemagne et la France. Strasbourg devient une ville allemande et un grand nombre de professeurs rejoignent Nancy. Les membres de la Société d'Histoire naturelle de Strasbourg modifient les statuts pour créer la Société des sciences de Nancy. Elle deviendra Académie lorraine des sciences en 1965 compte tenu de l'élargissement de ses activités.

D'un point de vue scientifique, l'ALS est maintenant organisée en 5 sections :

Section 1 : Mathématiques, Physique, Chimie, Electronique, Informatique, Génie des Procédés.
Section 2 : Biologie animale et végétale, Sciences de l’environnement.
Section 3 : Médecine, Médecine vétérinaire, Pharmacie.
Section 4 : Sciences du sol, de la terre et de l’univers.
Section 5 : Sciences humaines.

Notre objectif est de faire ressortir le gigantesque patrimoine porté par les contributions des chercheurs et praticiens du Grand Est, pour 200 ans d'une histoire qui, en fait, a commencé il y a 500 ans.

Constitution d'un corpus numérique manipulable

De façon prosaïque, la première étape a consisté à ressembler et homogénéiser les publications.

La partie la plus importante du corpus est constituée d'un ensemble de fichiers PDF, copies des bulletins produits par l'association depuis 1973 (à Nancy). Les ouvrages papiers ont été numérisés par l'INIST en 2005 pour créer un portail d'accès aux articles (par un service dénommé eRevues). Malheureusement l'INIST a démantelé ce service en 2014. Le portail a alors été supprimé et l'INIST a remis à l'ALS une simple copie des ouvrages papiers sous forme de fichiers PDF.

Cet ensemble est très hétérogène. Il est constitué de fichiers qui vont des quelques dizaines de pages à plusieurs centaines. La longueur des articles varie d'une simple page A4 (procès-verbaux de séance) à des mémoires de plus de 150 pages.

En démarrant cette action, nous avons découvert que les mémoires de la société strasbourgeoises n'étaient pas disponibles en France. En effet, ils avaient été perdus dans le déménagement ! Heureusement, dans le cadre d'échanges entre sociétés savantes, des exemplaires étaient rangées dans des bibliothèques américaines qui les ont numérisées. Elle sont disponibles sur le site Biodiversity Heritage Library (BHL), géré, à Washington par les « Smithsonian Libraries and Archive ». Compte-tenu des changements politiques aux États-Unis, il nous a paru urgent de rapatrier ce précieux patrimoine. Il est constitué de 6 volumes de 350 à 700 pages que l'on peut décharger, page par page, en format jpeg. Nous avons également trouvé quelques articles en PDF sur le portail numérique du Jardin botanique royal de Madrid.

Nous venons de rapatrier tous ces fichiers dans un site wiki (moteur Semantic MediaWiki). Nous avons commencé à créer un ensemble d'articles. Au départ chaque article est une « page MediaWiki » qui contient une en-tête bibliographique, suivie d'un ensemble de copies de pages PDG ou JPEG suivant le cas. Dans la description bibliographique les auteurs sont étiquetés avec un attribut « A pour auteur:: ». Ceci permet de générer par exemple des listes d'articles par auteur. De même, les articles peuvent être indexées par des catégories.

Cette opération est assez longue pour les PDF issus du site ALS. Dans une phase intermédiaire, nous constituons une liste des sommaires (à partir des tables des matières des fascicules PDF). Cette opération est souvent fastidieuse car les PDF ne sont pas toujours de qualité suffisante pour un simple copier/coller (ou pour une bonne reconnaissance OCR). Par chance, nous avons trouvé sur le site "Internet Archive" des copies du site de l'ALS dans les années 2000. Nous y avons trouvé les sommaires de qualité qui avaient été réalisés par l'INIST. Là encore, une partie de notre patrimoine numérique perdu a pu être rapatrié... à partir des États-Unis.

Nous disposons donc d'un premier niveau de bibliothèque qui permet d'accéder aux articles par sommaire, index auteur etc. Mais ces articles sont simplement juxtaposés en mode image. L'étape suivant consiste à les transcrire en OCR pour en faire des articles en format texte, puis hypertexte.

Cette opération a démarré. Nous pouvons déjà présenter trois types de valorisation hypertexte pour faire émerger le patrimoine porté par ces publications : au niveau des articles, puis de la collection et enfin de l'insertion dans un espace scientifique spécialisé.

Où un article devient déjà un hypertexte

Les articles sont, nous l'avons dit, de taille très variable. Un compte-rendu d'une ou deux pages, sans intérêt majeur, peut rester en mode image.

Pour une publication classique (5 à 15 pages), la conversion en wikitexte (pour reprendre la terminologie Wikipédia) donne déjà de bons résultats avec un balisage de base (italique, gras), éventuellement enrichi, par exemple, par des formules en LaTeX. Le repérage des titres permet de générer automatiquement une table des contenus en début d'article.

En revanche, un article de plus de 20 pages est déjà rébarbatif. Au delà de 50 pages, il devient pratiquement illisible. Il faut alors le distribuer, déjà en mode image, sur plusieurs « pages wiki », la première page wiki d'accueil donnant alors le sommaire. On peut réaliser des améliorations progressives avec par exemple : l'introduction transcrite, suivie du sommaire pointant les pages des chapitre, en enfin la conclusion.

Mais certains articles, de taille conséquente, contiennent parfois des petits dictionnaires. Ainsi, Philippe Voltz a écrit en 1830 un article qui décrit sur 72 pages (plus huit pages de planches) la collection des bélemnites du Muséum de Strasbourg. Il contient 17 descriptions d'espèces de ce fossile. Nous avons créé une page d'accueil. Elle oriente vers des chapitres (exemple, la partie I). Enfin nous avons autant de pages wiki que d'espèces. Chacune (comme par exemple Belemnites ferruginosus) est alors décrite sur une page-wiki où l'on a rapproché la (ou les) planches de figures relatives à l'article. Chaque fossile ainsi décrit est souvent plusieurs fois cité dans le texte avec des liens hypertexte. Le lecteur put alors « explorer la collection ».

Un autre exemple est donné par un répertoire archéologique de la Moselle. Il s'agit d'un « article » de 250 pages qui contient plusieurs centaines de description de communes réparties dans une cinquantaines de cantons, eux mêmes répartis dans 8 arrondissements. Nous avons créé une page par arrondissement (exemple Boulay). Elle donne la liste des communes par canton. Il y a ensuite une page par canton (exemple Bouezonville), avec des liens internes vers des communes. Certaines communes (exemple Creutzwald, qui contiennent plusieurs descriptions, disposent de leur propre page.

Un article d'un document peut donc devenir un hypertexte qui permet de naviguer dans des espaces patrimoniaux : les fossiles du Museum de Strasbourg ou les descriptions archéologiques des communes de Moselle.

Chaque cas, nous le voyons, nécessite en fait un traitement spécifique pour lequel la souplesse de Semantic Mediawiki s'avère particulièrement pertinente.

Navigation dans la collection, un exemple avec L'histoire de la société et de ses membres

Il est également possible de concevoir un hypertexte sur l'ensemble de la collection. Voici un exemple avec la vie de la société et de ses membres.

Les présidents rédigent parfois un article historique, comme par exemple Jean-François Pierre pour le cinquantenaire de l'Académie (version Lorraine) en 2011. Le travail rédactionnel a été très rigoureux et cite tous le académiciens depuis 1961 dans leurs sections respectives. Il donne également des références d'articles (intronisation, éloge mortuaire) qui permettent de découvrir leur biographie (voir par exemple : L'Astronome lorrain Gérard Florsch).

Parfois, quelques académiciens donnent un historique ciblé de la vie de la société. Par exemple, Gilbert Percebois, professeur de parasitologie et mycologie, a écrit un article de synthèse sur « La biologie dans les publications de la Société Lorraine des Sciences (1828-1978) ». Il y cite notamment des sociétaires et leurs articles les plus intéressants (et les sessions où ils ont été discutés). Un traitement hypertexte permet au lecteur d'accéder « un un clic » à ces éléments.

De tels articles sont également très précieux pour donner au rééditeur un ordre de priorité pour traiter les milliers d'articles et les centaines d'auteurs de l'académie.

Un point important à ce niveau est la désambiguïsation des patronymes. Cet exercice est parfois difficile car il n'était pas d'usage de mentionner les prénoms. Par exemple, pour le patronyme « Duvernoy », célèbre zoologiste, Wikipédia donne 10 entrées. Il est alors relativement facile d'identifier Louis Georges Duvernoy, notre ancien président. Nous donnons alors comme identifiant celui de Wikipédia (et donc de WikiData - pour faciliter des traitements liés au Web sémantique).

Pour les anciens membres des facultés de Nancy, nous disposons de diverses sources très pertinentes, comme par exemple :

Le site « www.professeurs-medecine-Nancy.fr » de Bernard Legras,
Le site « Histoire et mémoire de l'Université de Nancy (1854-1938) »
les Archives de la Faculté des Sciences de Nancy, par Jean-René Cussenot et Jean-François Pautex.

Bien entendu, tous les sites de publication peuvent être mis à contribution (Gallica, Persée, Google Scolar etc)

Le problème est nettement plus compliqué pour des membres extérieurs au système académique. Il devient très difficile pour des patronymes courants en homonymie avec des termes courants comme : Gross, Maire ou Nicolas. Pour des membres peu connus la stratégie de recherche est parfois infructueuse. Nous avons par exemple un « x Thouvenin ». Notons qu'il est très facile, avec MediaWiki, de corriger une identification imparfaite, en cas de découvertes permettant une désambiguïsation.

Il est donc possible de naviguer à partir d'articles de synthèses ou sur les listes d'auteurs. Chaque auteur possède sa fiche où il est possible de citer les laboratoires où il a exercé, sa ville de naissance etc.

La collection des publications de l'ALS permet donc de faire émerger un ensemble de faits porteurs du patrimoine que représente la vie de la société.

De plus, les collections de l'ALS sont gérées dans un « portail wiki » où elles vont cohabiter, sur le même espace wiki, avec d'autres sociétés du Grand Est. Au niveau du wiki, nous avons donc la possibilité de constituer un vaste réseau de connaissance sur l'histoire de la science en Lorraine (et dans la région Grand Est). De plus, Semantic Mediawiki autorise les requêtes sur la catégories (par exemple de repérer les personnes admises dans plusieurs sociétés savantes).

Enfin, les sociétés savantes, dès le XIX^e siècle entretenaient un réseaux de relations nationales ou internationales. Il est possible, dans ce but, de traiter les coopérations signalées par échanges de documents dans les comptes-rendus de session. Et surtout, le traitement des membres correspondants montre la richesse des coopérations de Grand Est au niveau international (un exemple avec Asa Gray à Boston).

Valorisation d'un article dans un espace spécialisé

Comme le montre la figure suivante, le portail de l'ALS fait partie du réseau Wicri, un ensemble de wikis. Ces wikis sont souvent spécialisés par domaine scientifique. Nous évoquerons plus loin mécanisme nommé « lien interwiki » qui permet de réaliser des liens hypertextes entre les wikis.

Nous avons par exemple, travaillé sur Wicri/Santé lors de la crise du COVID. Citons également la Chanson de Roland qui a donné lieu à une communication pour le symposium HIS précédent ; Humanités assistées par ordinateur, un exemple avec la Chanson de Roland⁽⁾.

Dans cet article nous utiliserons surtout le wiki Wicri/Animaux sur lequel nous avons réalisé une petite étude de faisabilité autour de quelques articles de l'Histoire naturelle de Buffon⁽⁾ (voir par exemple le Daim⁽⁾ ou le cheval⁽⁾).

Une des utilisations les plus simples de ce dispositif consiste à expliquer une notion citée dans le wiki des sociétés savantes par un développement dans un autre wiki (sans « encombrer » le wiki de départ).

Un exemple introductif

En continuité avec l'histoire de la société, voici un exemple avec André Veillet, personnalité nancéienne qui est né dans une commune du Nord de la France (sans rapport particulier avec la Région Grand Est). La page qui lui rend un hommage de l'Académie contient la phase suivante :

Le Professeur A. Veillet est né le 27 juillet 1911 à Haubourdin⁽⁾, dans le département du Nord...

Comme pour les exemples précédents, notez que le lien est enrichi d'une icône pour indiquer au lecteur qu'il s'agit d'un lien qui pointe vers un autre wiki (un lien interwiki) ici vers Wicri/France.

Exemples en zoologie

Au delà de son histoire, l'intérêt majeur du patrimoine de l'ALS est constituée par la multitude des ses articles scientifiques, avec un point fort en biologie. Ceci est particulièrement significatif au XIX^e siècle où les articles de références étaient souvent publiés dans les sociétés savantes régionales. C'est notamment le cas en zoologie.

Pour les articles les plus pertinents, nous procédons à une réédition de l'article dans le wiki cible (ici, Wicri/Animaux) avec des traitements hypertextes sensiblement différents.

Dans les cas les plus simples (articles de quelques pages sur un sujet bien ciblé), le texte de l'article est simplement recopié.

Par exemple, un article de Bruno Condé relate la découverte de quelques protoures en Lorraine. Ce sujet est très spécialisé et son développement ne rentre pas dans la ligne éditoriale du wiki des académies lorraines. La production de l'article sur Wicri/Animaux⁽⁾ permet un tel développement.

Voici deux exemples où, au delà de la valorisation, cette duplication enrichit l'espace cible.

Par exemple, un article de la société des sciences naturelles de Strasbourg traite des mammifères et de l'ornithologie à Madagascar.

L'auteur, Victor Sganzin, y cite une liste d'animaux très spécifiques comme « le petit maki gris de Buffon ». Ce sujet peut alors être développé sur le wiki « animaux » en liaison avec la réédition de l'histoire naturelle de Buffon. Le ré-éditeur de l'article sur Sganzin (qui a aussi le droit de contribuer sur Wicri/Animaux). peut réaliser la réédition numérique de l'article de l'encyclopédie de Buffon.

L'Histoire naturelle de Buffon est un monument éditorial d'une cinquantaine de tomes de quelques centaines de pages chacun. Le réseau de wiki associant des sites régionaux et d'autres plus spécialisés favorise les contributions collectives.

Un des mémoires strasbourgeois contient une monographie de 150 pages sur la girafe rédigée en 1858 par Nicolas Joly. Elle offre par exemple une liste de plus d'une cinquantaine d'auteurs qui ont écrit sur la girafe, depuis Moïse dans le Deutéronome, jusque Cuvier ou Greoffoy Saint-Hilaire, en passant par Aristote ou Marco-Polo. Il s'avère d'une très grande richesse pour structurer une éditions hypertexte de l'Histoire de l'Histoire naturelle. De façon surprenante, il nous a aidé à identifier les références bibliographiques données par Buffon. Par exemple quand Buffon écrit « Gefner, hist. quad. pag. 147 » Joly précise : « C. Gesner. Conradi Gesneri historia animalium. De quadrupedibus, p. 147-150. ».

Exemples en botanique

Un autre article, daté de 1912, de Pionnier, missionnaire mariste, donne la liste des lichens de Nouvelle Calédonie. Il sera naturellement très intéressant à exploiter du point de vue de la biodiversité. Il se pose alors un problème d'identification, la nomenclature de ces végétaux ayant évolué. Là encore, l'architecture d'un réseau de wiki sémantique permet de décrire cette évolution de façon incrémentale et collaborative.

Explication des concepts

Les articles d'une société savante sont souvent destiné aux spécialistes. Il est possible de les illustrer par des entrées de dictionnaires ou d'encyclopédies. Pour des concepts très spécifiques, il est possible de faire un lien interwiki dans un espace spécialisé. Pour des notions qui font partie de la ligne éditoriale du wiki, on peut alors les expliciter dans celui-ci.

Dans une encyclopédie

Par exemple, sur ce wiki, les bélemnites font l'objet d'une série d'articles. Il nous a donc paru pertinent d'intégrer des articles encyclopédiques contemporains de ces publications :

dans le Grand Dictionnaire universel du XIXe siècle (1866)
dans le Nouveau Larousse illustré (1897)
et avec un article un article encyclopédique d'introduction rédigé par les contributeurs du wiki.

Il est également possible d'intégrer des entrées liées à des membres de la société savante à titre d'indice de notoriété.

Voir par exemple Louis Georges Duvernoy dans le Larousse illustré.

Dans un dictionnaire

Le dictionnaire Trésor de la langue française (TLF) bénéficie d'un statut particulier dans ce projet. En effet, dans les années 1965, sous l'impulsion du recteur Imbs aidé ensuite par Jean Legras, la France est devenue un leader mondial de la lexicographie informatique en lançant la fabrication d'un gigantesque dictionnaire de 16 volumes avec des mécanismes utilisés actuellement en intelligence artificielle. Dans les années 85, Jacques Dendien a utilisé l'ingénierie SGML (avec notamment la TEI) pour produire une version numérique du TLF qui a connu un immense succès sur Internet en 2005. Malheureusement, la production du TLF a été arrêtée par le CNRS en 1994.

Depuis, la fondation Wikimédia a démontré avec Wiktionnaire qu'il était possible de réaliser un dictionnaire conséquent avec la technologie wiki. Nous proposons ici de distribuer le TLF dans le réseau de wikis avec de nouvelles propositions d'exemples.

Sur le wiki Wicri/Musique, nous avons reproduit l'article Musique du TLFi⁽⁾ (avec quelques petits développements dans Dilib pour faciliter la transcription). Cet article cite une séquence grégorienne pour laquelle nous avons créé l'article Victimæ paschali laudes⁽⁾. Vous noterez sur cet article divers exemples multimédia pour illustrer le patrimoine musical.

Sur ce même wiki, nous avons montré la possibilité de mettre en parallèle des entrées de différents dictionnaires sur un terme relativement simple comme le mot Andante⁽⁾. Vous pourrez constater que Jean-Jacques Rousseau se contredit entre son dictionnaire de musique et son article dans l'Encyclopédie.

Sur le wiki Wicri/Santé, l'article Claude Bernard⁽⁾ contient une liste de liens générés par les liens sémantiques. On y trouve des entrées du TLF comme par exemple le verbe Mithridatiser⁽⁾. Cette entrée contient deux exemples de Claude Bernard dans son ouvrage Principes de médecine expérimentale⁽⁾ que nous avons partiellement réédité pour montrer les exemples du TLF dans un contexte plus large.

Sur ce wiki, l'article Cyclopéen propose le syntagme « mur cyclopéen », avec une définition donnée par Beaupré en 1911 dans un article discuté par Maubeuge en 1968.

Articles encyclopédiques

La constitution d'un réseau éditorial hypertexte entraine une multiplication de pages wikis pour tout « objet sémantique », comme un nom de ville, un auteur, une institution, un animal etc...

Dans une première phase, il s'agit souvent d'une simple attribution d'un nom de page, généralement associée à un lien externe, avec résolution des homonymies.

Puis une fiche est créée avec une infobox et une commande d'édition sémantique. Par exemple les pages relatives à des personnalités ont une forme interne initiale du type :

{{Wicri avertissement création lien}}
{{Infobox sémantique personnalité
 |image=
 |lieu de naissance=    |date de naissance=
 |lieu de décès=         |date de décès=
}}
==Voir aussi==
{{Wicri voir aussi, personnalité}}

La commande du paragraphe « Voir aussi » va produire automatiquement un ensemble de liens vers des articles.

Sur cette base, on peut construire progressivement un article encyclopédique. Par rapport à une encyclopédie comme Wikipédia, ces articles peuvent être beaucoup plus courts et plus synthétiques. Ils peuvent par exemple renvoyer vers une notice nécrologique, comme pour Chrétien Géofroy Nestler.

La rédaction d'un article encyclopédique sera donc très souvent différente en relation avec la thématique des wikis.

Aspects bibliographiques

La prise en compte des grandes bases bibliographiques joue un rôle très important dans l'ensemble du projet Wicri. A la date de rédaction de cet article, les aspects bibliographiques ont été peu traités sur ce wiki dédié aux sociétés savantes. Nous donnerons des exemples sur d'autres wikis du réseau Wicri.

Bases bibliographiques

Dans les années 1970 jusqu'en 2000, les bases bibliographiques étaient l'élément fondamental de l'Information Scientifique et Technique. La France disposait alors d'une position internationale exceptionnelle avec les bases Pascal et Francis. Elles ont été créées dans les années 1970 à partir de la numérisation des bulletins signalétiques du CNRS (300.000 références par an). Vers 1975, les bases étaient accessibles sur le réseau Cyclades. Dans les années 1990, avec la création de l'INIST à Nancy par Nathalie Dusoulier et Goery Delacôte, l'information scientifique et technique française jouissait d'une très forte assise internationale.

En 2025, le rôle de ces bases bibliographiques doit être revisité avec la progression de l'accès ouvert à l'information scientifique, et de la montée en puissance de l'intelligence artificielle. Cela dit, la maitrise des corpus bibliographiques est encore d'actualité, par exemple pour les documents qui ne sont pas en libre accès. Sur le wiki Wicri/Santé dans le cadre des travaux sur le Covid nous avons notamment travaillé sur des outils pour transférer des notices de la base PubMed dans les wikis.

Voici un exemple avec un article sur un groupe de touristes victimes de la grippe en Alaska :

Épidémie estivale de grippe A en été chez les touristes en Alaska et dans le territoire du Yukon⁽⁾

Noter qu'il est possible d'atteindre la version originale en anglais, via l'onglet English en bas de colonne de gauche.

Noter également la traduction automatique (via un dictionnaire établi par l'INSERM) des entrées du MeSH en français.

Il serait donc tout à fait possible de traiter des bases bibliographiques dans un wiki sémantique.

Serveurs d'exploration

Dans une dynamique engagée dans les années 1990, nous avons développé à l'INIST puis au LORIA une boite à outils (Dilib) autour du standard XML pour mener des explorations statistiques de corpus bibliographiques. Au départ, cette boîte à outils générait notamment des serveurs dit d'explorations. Un tel serveur était un site web autonome généré sur une machine Unix, avec la technologie Common Gateway Interface qui lançait dynamiquement des programme en shell pour générer des pages web. Le procédé était intéressant dans les années 1995-2005, mais très lourd. Dans le cadre du programme ISTEX (projet LorExplor) les modules de navigation ont été réécrits en PHP, et surtout, avec des passerelles vers Semantic MediaWiki.

Ces passerelles concernent notamment le paramétrage des serveurs avec la possibilité de définir des règles de curation. Pour la navigation des pages wiki sont générées (avec par exemple des cartes actives).

La figure ci-dessous donne une idée du procédé.

Malheureusement nous avons rencontré, en début d'année, quelques problèmes techniques dus à l'abondance des requêtes venant de robots. Nous avons du mettre la plupart des serveurs « hors ligne ». Nous en avons gardé quelques-uns à titre de démonstration.

Par exemple, le Serveur d'exploration Cervidae⁽⁾ permet de naviguer dans 2200 références bibliographiques (ici extraites de PubMed). Le jour où nos difficultés seront résolues, il sera possible pour un thème donné (par exemple la girafe) de donner une vision sur l'état actuel de la recherche sur le sujet.

Bilan, retombées et perspectives

Notre réflexion s'inscrit notamment dans les objectifs affichés en 2013 par le segment 5 de la Bibliothèque scientifique numérique, intitulé « Numérisation du patrimoine scientifique national »^[1]. Où en sommes nous ?

Voici d'abord quelques données chiffrées (sachant que depuis quelques années je suis la seule personne à travailler sur le réseau Wicri).

Le wiki des académies du Grand Est était quasiment vide en 2024.

Fin octobre 2025, les statistiques donnent : 2.000 pages dites de contenu, 8.000 pages au total, près de 4000 fichiers, 28.000 modifications. (voir : les statistiques actuelles).

Le réseau Wicri dans son ensemble contient au 6 juin 2025 : 44.000 pages de contenu (voir sur le wiki d'accueil Wicri/Wicri)

Nous avons montré que de très nombreuses pratiques éditoriales, documentaire ou de veille peuvent cohabiter et surtout être en interaction sur un ensemble de wikis sémantiques dopés par une boite à outils XML.

Cela dit, dans son état actuel, le réseau Wicri est plutôt un cabinet de curiosité numériques. En effet, notre projet a subi de nombreux avatars. En effet, notre approche est un compromis entre entre la liberté de désinformer sur les réseaux anonymes d'une part, et une vision quasi taylorienne des services chargés de l'information scientifique d'autre part. Le fait de « préconiser une modération a posteriori face à une obligation de validation a priori ».

Cette difficulté s'est accentuée avec le départ en retraite (impossibilité de rebondir institutionnellement) du rédacteur de cet article.

J'ai donc mis la priorité sur le fait de traiter le maximum de cas possibles, de détecter le maximum de problèmes potentiels, en vue d'un passage très hypothétique à une véritable bibliothèque numérique collective.

Le réseau Wicri souffre donc d'un problème de complétude. L'expérimentation sur l'ALS vise à montrer que cela peut-être maitrisé sur un projet bien cerné.

Contexte historique de ce projet

Pour la crédibilité des options proposées en perspective et dans la conclusion, « pour qui se prend-il, - je cite - cet incontrôlable ITA retraité du CNRS... », je pense utile d'apporter ici quelques précisions sur le curriculum vitae de l'auteur de cet article.

J'ai présenté ici une expérimentation qui entre en fait dans une réflexion personnelle plus ancienne (sur près de 60 ans).

En effet, j'ai écrit, en 1967 à Nancy, mon premier programme algol en analyse numérique sur l'ordinateur CAE 510 de l'IUCA, centre de calcul de Nancy, dont je suis devenu codirecteur technique (avec Jacques Dendien) en 1974. En 1980, j'ai créé, avec notamment le CNRS et l'Agence de l'informatique, un groupement scientifique sur la valorisation des logiciels issus de la recherche française, notamment dans le cadre du projet SM 90 pour la création d'une gamme française de machines unix.. En 1990, j'ai été directeur informatique à la création de l'INIST, puis d'un département de R&D, et enfin directeur des produits et services en 2000. Dans la même époque j'ai été responsable d'une action « Autoroutes de l'information » au LORIA, avec une implication internationale au nom de l'INRIA dans le volet Digital Libraries du consortium ERCIM. Cela m'a permis d'être un représentant français au sein du DCMI.

Enfin, il y a bientôt 20 an, chargé de mission à la DRRT Lorraine, j'ai créé le réseau Wicri, au départ pour valoriser les projets du CPER (contrat de plan état région) pour la Lorraine. Puis, dans le contexte ISTEX, j'ai mené le projet LorExplor évoqué plus haut.

C'est pourquoi, j'ai la conviction que notre expérience peut être utile pour la construction d'un grand projet numérique qui pourrait être dynamisé par une coopération entre l'INIST et l'Université de Lorraine.

Retombées

Les principales retombées de notre expérience sont majoritairement des enseignements en vue d'applications réellement opérationnelles.

Nous disposons de plusieurs centaines (milliers de petits) exemples dans une très grande variétés de situations éditoriales et de thématiques scientifiques.

Nous avons des exemples d’applications pérennes basées sur notre approche comme les Mots de l'Agronomie.

En dépit de moyens modestes, nous avons pu encadrer de nombreux stagiaires dans des situations très différentes (depuis des stages écolier sur une semaine, jusque des opérations liées au démarrage d'une thèse par exemple). Ces expériences sont précieuses pour évaluer le temps et la façon d'organiser des plans de formations.

Nous avons expérimenté « l'édition scientifique hypertexte » et aussi la rédaction de tels articles. Le texte que vous lisez est un passage d'un document conçu en hypertexte. Le corpus ALS contient de nombreux exemples de passages incompréhensibles pour un non-spécialiste. Nous avons expérimenté la richesse du travail nécessaire à la création d'un réseau de connaissances compréhensibles par des personnes ayant environ un niveau de fin de lycée.

De façon un peu imprévue, l'expérience ALS m'a beaucoup appris sur l'acquisition de connaissances nouvelles. Depuis le début de l'aventure Wicri, j'ai souvent traité des sujets en fonction de mes préférences ou de mes connaissance. Ici avec un corpus totalement interdisciplinaire, j'ai été amené à aborder un grand nombre de terrains qui m'étaient inconnus. J'avoue avoir été parfois surpris par la rapidité avec laquelle j'ai pu acquérir une première expertise sur un domaine donné. Ce type d'exercice me parait donc très intéressant à exploiter dans une stratégie d'enseignement.

Détection de problèmes ou difficultés

L'expérience Wicri est riche d'enseignements sur les difficultés (maitrisables) de notre approche.

Il est très facile de corriger une faute élémentaire dans document sous MediaWiki. Il parait donc très facile d'écrire. La réalité est plus complexe. Il faut déjà maîtriser les mécanismes de balisage (italiques...) et de création de liens. La création de pages nouvelles demande une bonne appréhension de la nomenclature dans une structure arborescente. Il faut ensuite apprendre à utiliser puis créer des modèles. Il faut maitriser les contraintes locales comme par exemple la gestion de l'affichage des pages PDF sur ce wiki. Certains domaines spécialisés demandent l'apprentissage de langages spécifiques comme LaTeX en mathématiques ou LilyPond en musique. Une solide formation et, si possible un dispositif d'assistance est fondamental pour mener un projet éditorial, même limité.

Le passage à un niveau collectif de rédaction pose des problèmes que nous n'avons malheureusement pas pu traiter en grandeur réelle sur MediaWiki (des centaines voire des milliers de contributeurs). Les applications traditionnelles (dictionnaire papier puis numérisé, bases de données, archives, collectes de données de la recherche) sont basées sur des chaines de production (avec validation a priori). L'expérience Wikipédia montre que l'on peut arriver à un résultat global à peu près satisfaisant mais avec parfois de grandes faiblesses. Nous pensons que l'implication des sociétés savantes peut jouer un rôle important. La structure en réseau de Wicri est un moyen de mieux les impliquer.

Le réseau Wicri (et sa dimension informatique avec Dilib) a été victime de l'incohérence de la politique lorraine autour de l'information scientifique et de multiples attaques auxquelles il a du faire face. De plus, nous rappelons que nous assumons une politique dans laquelle nous avons mis la priorité sur des expérimentations dans un ensemble extrêmement varié de situations pour entrevoir ce que pourrait être un nouvel « Institut National de l'Information Scientifique et Technique ». Cela se traduit notamment par un océan de lacunes et par des incohérences sur les aspects évolutifs.

Concernant la complétude, nous avons des références qui montrent que l'implication de quelques permanents peut réguler l'hétérogénéité des contributions basées sur le volontariat (ou la recherche d'une expertise qui dépasse un domaine d'application).

Les incohérences évolutives sont de plusieurs types. Les espaces d'actualité sont par exemple très dépendants des mutations administratives. Par exemple, dans les années 2005, nous avions créé deux wikis pour les régions administratives Alsace et Lorraine. En 2016 la création de la région Grand Est est venue bouleverser notre organisation initiale. Il est est de même pour les évolutions des universités de la Lorraine.

Un autre type d'incohérence vient de la mutation des modèles qui structurent la rédaction des pages wiki (ou l'évolution des catégories d'indexation). Les robots peuvent être d'un grand secours pour détecter, voire corriger les incohérences. Leur programmation demande une bonne expertise algorithmique en rapport avec les api de MediaWiki. Nous en avons une expérience avec par exemple les consolidation des statistiques dans le réseau Wicri.

Nous avons rencontré des problèmes liés à la sécurité informatique, à la gestion des contributions externes ou la saturation par les robots. Déjà en 2005, sur un site SPIP qui commençait à avoir de la notoriété nous avons du interdire les interaction de type commentaires publics, en raison de saturation de messages à des fins commerciales (avec par exemple des liens sur des sites pornographiques).

Nous avons déjà mentionné la saturation du site par les robots qui demande l'installation de procédés de vérification type CAPTCHA.

Nous avons également rencontré des utilisations spécialisées pour lesquelles MediaWiki n'était pas optimales (un marteau-pilon pour écraser une mouche). Un dispositif d'assistance permettant d'orienter vers les solutions optimales (Oméka, OpenEdion...) nous semble fondamental.

Perspectives

Avec une simple garantie institutionnelle, nous pouvons déjà espérer une bibliothèque numérique significative des collections de l'ALS dans les années à venir (tout en continuant nos expérimentations). Nous avons eu à plusieurs reprises l'occasion de mener de façons satisfaisante des travaux collectifs avec des petits groupes. Une réflexion est en cours pour monter des ateliers au sein de l'ALS avec un nombre significatif de participants.

Avec une vision à long terme, dans les années 70 avec le Trésor de la langue française, puis jusqu'en 2000 avec les bases Pascal et Francis, la France jouissait d'une forte présence dans l'espace numérique international de la connaissance. Est-il possible, d'un point de vue institutionnel d'arriver à un résultat de même visibilité avec l'approche que nous proposons ?

Le projet Wicri, et cette expérience avec l'ALS, permettent de donner des éléments de chiffrage pour notre patrimoine numérique plus global. J'ai mené seul les travaux sur l'ALS depuis le début de cette année. J'ai créé environ 2000 « pages wiki » en 9 mois, soit environ 1/1000 de Wikipédia depuis 20 ans. Autrement dit, avec les technologies « wiki sémantique » un réseau d'un ordre de grandeur de quelques (2 ou 3) centaines de personnes à temps plein, dans un contexte de coopérations internationales, pourrait donc probablement rivaliser avec la galaxie Wikipédia.

Une remarque à ce niveau. Nous avons montré que les activités de réédition hypertexte avec une volonté explicative formaient un cadre d'apprentissage des techniques numériques, et également du domaine de l'article traité. Nous avons également montré que, sur des sujets contemporains, notre approche permet de donner une grande visibilité à nos activités et résultats de recherche. Le ministère de la recherche affiche 91.000 enseignants chercheurs et 14.000 doctorants par an. Nous disposons donc d'un immense réservoir potentiel de contributions potentielles. Elles pourraient être dopées par des mesures incitatives. Par exemple, de même que l'on encourage un dépôt sur HAL, il serait possible de demander à un thésard de décrire son sujet de recherche avec un ensemble de références bibliographiques. De même les retraités pourraient être mobilisés avec des dispositifs tels que « vous pouvez bénéficier de la messagerie de votre université ou de votre EPST à condition de faire un nombre raisonnable de contributions sur les wikis de la recherche ».

Bien entendu, cette approche peut s'intégrer dans un ensemble de coopérations francophones ou européennes (nous l'avons montré avec la Grande Région ou avec le Maroc).

Nous disposons également d'une boîte à outils XML dont l'interopérabilité permet d'intégrer des mécanismes d'apprentissage. Un projet de type intelligence artificielle est donc possible sous deux aspects. En amont, il serait possible de créer des serveurs d'exploration sur un ensemble éditorial fiabilisé qui fonctionneraient comme un générateur d'hypothèses (à vérifier bien entendu). Du côté des stratégies d'exploration ou de recherche sur les wikis; il serait intéressant de mettre en place des outils d'assistance pour élargir le public potentiel.

Enfin, avec l'implication de l'Académie lorraine des sciences, nous pouvons étudier et expérimenter les mutations nécessaires de sociétés savante pour qu'elles puissent remplir de nouvelles missions dans un monde de la connaissance scientifique (et culturelle) confronté aux changements de paradigmes introduits par l'explosion de l'intelligence artificielle.

Dans une vision à moyen terme, avec un soutien institutionnel du type que les expérimentations sur les usages d'ISTEX (financement et/ou détachement de 5 à 10 personnes), le réseau Wicri peut donc déjà soutenir de solides projets de valorisation hypertexte de notre patrimoine dans les multiples domaines scientifiques offerts par le réseau actuel.

Conclusion

Un vaste projet numérique vertueux nous semble donc possible et souhaitable pour préserver, diffuser et expliquer notre patrimoine scientifique dans une approche humaniste confrontée à la montée de l’intelligence artificielle.

Déjà, 450 ans avant Jésus-Christ, Platon a rapporté, par écrit, ses débats avec Socrate sur les avantages et inconvénients de l'écriture par rapport à la tradition orale.

Après l'invention de l'imprimerie, il a fallu deux siècles pour que les savants français intègrent ce changement de paradigme en éditant la première revue scientifique. Combien de temps faudra-t-il pour qu'ils intègrent l'écriture scientifique hypertexte et collective ? Ou plutôt, combien de temps faudra-t-il pour que les universitaires aient une connaissance comparable sur l'oralité, l'écriture, l'imprimerie, l'hypertexte et l'intelligence artificielle pour remplir leur mission de transmission de connaissances ?

Notre projet peut déjà être très utile pour cette appropriation de la révolution du numérique pour la connaissance.

Mais surtout, notre histoire montre notre capacité à lancer des grands projets pour la diffusion de notre patrimoine dans une tradition humaniste comme l'Encyclopédie de Diderot D'Alembert, l'Histoire naturelle de Buffon, ou dans le monde francophone l'Institut International de Bibliographie de Paul Otlet en Belgique. Plus près de nous, nous avons évoqué le dictionnaire TLF ou les bases Pascal et Francis.

Nous avons également évoqué les bons résultats obtenus par des coopérations entre les acteurs de la recherche (sociétés savantes, Universités, EPST) dans un réseau complémentaire de coopérations francophones ou européennes

Nous pouvons donc, depuis la France, construire un ensemble éditorial vertueux de la connaissance scientifique qui peut s'appuyer sur les acquis du numérique au XXI^e siècle : l'édition hypertexte sémantique et collective valorisé par l'intelligence artificielle.

Et, en plus, ce travail est absolument passionnant.

Alors, allons-y...

Notes

↑ Frédéric Blin, « BSN 5 : numérisation du patrimoine scientifique national », Arabesques [En ligne], 69 | 2013, mis en ligne le 29 août 2019, consulté le 03 novembre 2025. URL : https://publications-prairial.fr/arabesques/index.php?id=1134

Voir aussi

Sur ce wiki

Catégorie:HIS (2025) Ducloy

Cette publucation est signalée sur Wicri/Wicri.

[1] Frédéric Blin, « BSN 5 : numérisation du patrimoine scientifique national », Arabesques [En ligne], 69 | 2013, mis en ligne le 29 août 2019, consulté le 03 novembre 2025. URL : https://publications-prairial.fr/arabesques/index.php?id=1134

[1]