HIS (2025) Ducloy : Différence entre versions

De Wicri Académies Grand Est
(L'INIST, XML pour l'analyse de corpus numériques)
(L'INIST, XML pour l'analyse de corpus numériques)
Ligne 225 : Ligne 225 :
 
===L'INIST, XML pour l'analyse de corpus numériques===
 
===L'INIST, XML pour l'analyse de corpus numériques===
  
J'ai donc cherché à établir une coopération entre l'ANL et l'INIST. J'ai donc rencontré les porteurs du projet : Pierre Creyssel, Goéry Delacôte et Nathalie Dusoulier. Ils m'ont alors demandé de rejoindre l'INIST :
+
J'ai donc cherché à établir une coopération entre l'ANL et l'INIST. J'ai donc rencontré les porteurs du projet : Pierre Creyssel<ref>Directeur administratif du CNRS</ref>, Goéry Delacôte<ref>Directeur de l'Information scientifique et technique (DIST)</ref> et Nathalie Dusoulier<ref>Directeur général de l'INIST sous l'autorité de la DIST</ref>. Ils m'ont alors proposé de rejoindre l'INIST :
 
* d'abord comme directeur informatique pour créer le service, informatiser la bibliothèque, développer la fourniture numérique de documents  
 
* d'abord comme directeur informatique pour créer le service, informatiser la bibliothèque, développer la fourniture numérique de documents  
 
* puis comme directeur d'un département de recherche et développement pour la production et l'exploitation des bases Pascal et Francis (en m'appuyant notamment sur l'expérience éditoriale de l'ANL).
 
* puis comme directeur d'un département de recherche et développement pour la production et l'exploitation des bases Pascal et Francis (en m'appuyant notamment sur l'expérience éditoriale de l'ANL).

Version du 26 octobre 2025 à 22:24

Révélation numérique du patrimoine culturel et immatériel des sociétés savantes.

Un exemple dans la Région Grand Est


 
 

logo travaux Article en cours de relecture et d'enrichissement hypertexte (et de réécriture pour les derniers paragraphes)

Cette page contient une version hypertexte d'une communication qui sera présentée à la conférence HIS'9 au Campus Condorcet à Aubervilliers les 19 et 20 novembre 2025.

Vous trouverez ci dessous un résumé en PDF transmis pour évaluation, Il a été accepté pour une présentation orale.

Nous voulons maintenant produire ici une version hypertexte.

Article soumis

Résumé

Nous présentons une expérience (en cours) de valorisation de l'ensemble des collections de l'Académie Lorraine des Sciences dans la Région Grand Est. Cette société a été créée à Strasbourg avec un déménagement à Nancy en 1970. Ce fonds représente 200 ans de publications scientifiques pluridisciplinaires (et pluriculturelles). Il était dispersé sur plusieurs sites (une partie conséquente aux États-Unis) et sous forme de fichiers en format image.

Nous décrirons un premier niveau de valorisation « assez classique » où l'on donne accès aux articles proprement dits dans une vraie bibliothèque numérique. Mais surtout, nous montrerons qu'un traitement ultérieur dans un wiki sémantique permet de révéler, pour cette société, le patrimoine immatériel et sociologique porté par ces publications. De plus nous disposons d'un réseau de wikis sémantiques spécialisés (zoologie, botanique, informatique, etc) qui permet de révéler le patrimoine scientifique ou culturel porté par des ensembles d'articles sur un thème donné.

Nous discuterons des enseignements de cette action sur un plan individuel (par exemple, acquisition de connaissances scientifiques en réalisant leur modélisation sémantiques). Nous évoquerons également les retombées institutionnelles potentielles de cette action pour un grand projet numérique adapté aux algorithmes de l'intelligence artificielle.


Introduction

Cet article présente l'intégration des publications d'une société savante dans un wiki sémantique qui est intégré dans un réseau de sites scientifiques ou culturels.

Cette société savante est l'Académie lorraine des sciences (ALS), actuellement basée à Nancy mais qui a été créée à Strasbourg en 1828. Elle a été déménagée à la suite de la guerre de 1870. Nous présenterons, dans un premier temps, le contexte culturel et historique de cette action au sein d'une région qui a subi de nombreuses mutations au cours du temps. Nous présenterons également cette société.

Les publications de l'ALS, pour la période nancéienne sont disponibles sous forme de fichiers PDF, copie des bulletins trimestriels. Au départ de cette action, nous avons repéré les mémoires de la période strasbourgeoise numérisés dans des institutions américaines. Nous avons alors entrepris de réunir ces collections patrimoniales dans une vraie bibliothèque numérique (avec un accès par sommaires aux articles).

Les articles les plus intéressants sont alors enrichis avec des relations hypertextes et sémantiques. Le lecteur peut alors explorer le corpus et se faire une idée du patrimoine ainsi révélé. Pour les articles les plus pertinents sur un plan scientifique nous appliquons ce mécanisme au sein d'espaces numériques spécialisés (Botanique, Histoire de la Lorraine, histoire naturelle des animaux).

Dans une dernière partie, nous parlerons des retombées de ces pratiques dans l'acquisition des connaissances et nous proposerons des réflexions d'un caractère institutionnel.

Les sociétés savantes du Grand Est

Le cadre général de nos actions est la valorisation du patrimoine historique ou culturel contenu dans les publications scientifiques de la Région Grand Est. Voici quelques repères historiques pour ce corpus potentiel :

Plus modestement, dans ce projet, nous voulons traiter les publications de l'Académie Lorraine des sciences. Son origine remonte à Strasbourg en 1828. Elle était portée par le Muséum d'histoire naturelle de Strasbourg (créé en 1804). Une grande partie des académiciens étaient professeurs à la Faculté de médecine de Strasbourg. Celle-ci a des racines très anciennes avec Jean Sturm en 1538. Strasbourg était alors une ville libre du Saint-Empire germanique, qui a fondé une première université en 1621. Celle-ci a été supprimée par la Convention en 1792. Napoléon Bonaparte a créé une des trois facultés de médecine (avec Paris et Montpellier) en 1808.

Cette académie s'est rapidement diversifiée pour intégrer la géologie, puis la chimie, etc.

En 1870, éclate la guerre entre l'Allemagne et la France. Strasbourg devient une ville allemande et un grand nombre de professeurs rejoignent Nancy. Les membres de la Société d'Histoire naturelle de Strasbourg modifient les statuts pour créer la Société des sciences de Nancy. Elle deviendra Académie lorraine des sciences en 1965 compte tenu de l'élargissement de ses activités.

D'un point de vue scientifique, l'ALS est maintenant organisée en 5 sections :

  • Section 1 : Mathématiques, Physique, Chimie, Electronique, Informatique, Génie des Procédés.
  • Section 2 : Biologie animale et végétale, Sciences de l’environnement.
  • Section 3 : Médecine, Médecine vétérinaire, Pharmacie.
  • Section 4 : Sciences du sol, de la terre et de l’univers.
  • Section 5 : Sciences humaines.

Notre objectif est de faire ressortir le gigantesque patrimoine porté par les contributions des chercheurs et praticiens du Grand Est, pour 200 ans d'une histoire qui, en fait, a commencé il y a 500 ans.

Constitution d'un corpus numérique manipulable

De façon prosaïque, la première étape a consisté à ressembler et homogénéiser les publications.

La partie la plus importante du corpus est constituée d'un ensemble de fichiers PDF, copies des bulletins produits par l'association depuis 1973 (à Nancy). Les ouvrages papiers ont été numérisés par l'INIST en 2005 pour créer un portail d'accès aux articles (par un service dénommé eRevues). Malheureusement l'INIST a démantelé ce service en 2014. Le portail a alors été supprimé et l'INIST a remis à l'ALS une simple copie des ouvrages papiers sous forme de fichiers PDF.

Cet ensemble est très hétérogène. Il est constitué de fichiers qui vont des quelques dizaines de pages à plusieurs centaines. La longueur des articles varie d'une simple page A4 (procès-verbaux de séance) à des mémoires de plus de 150 pages.

En démarrant cette action, nous avons découvert que les mémoires de la société strasbourgeoises n'étaient pas disponibles en France. En effet, ils avaient été perdus dans le déménagement ! Heureusement, dans le cadre d'échanges entre sociétés savantes, des exemplaires étaient rangées dans des bibliothèques américaines qui les ont numérisées. Elle sont disponibles sur le site Biodiversity Heritage Library (BHL), géré, à Washington par les « Smithsonian Libraries and Archive ». Compte-tenu des changements politiques aux États-Unis, il nous a paru urgent de rapatrier ce précieux patrimoine. Il est constitué de 6 volumes de 350 à 700 pages que l'on peut décharger, page par page, en format jpeg. Nous avons également trouvé quelques articles en PDF sur le portail numérique du Jardin botanique royal de Madrid.

Nous venons de rapatrier tous ces fichiers dans un site wiki (moteur Semantic MediaWiki). Nous avons commencé à créer un ensemble d'articles. Au départ chaque article est une « page MediaWiki » qui contient une en-tête bibliographique, suivie d'un ensemble de copies de pages PDG ou JPEG suivant le cas. Dans la description bibliographique les auteurs sont étiquetés avec un attribut « A pour auteur:: ». Ceci permet de générer par exemple des listes d'articles par auteur. De même, les articles peuvent être indexées par des catégories.

Cette opération est assez longue pour les PDF issus du site ALS. Dans une phase intermédiaire, nous constituons une liste des sommaires (à partir des tables des matières des fascicules PDF). Cette opération est souvent fastidieuse car les PDF ne sont pas toujours de qualité suffisante pour un simple copier/coller (ou pour une bonne reconnaissance OCR). Par chance, nous avons trouvé sur le site "Internet Archive" des copies du site de l'ALS dans les années 2000. Nous y avons trouvé les sommaires de qualité qui avaient été réalisés par l'INIST. Là encore, une partie de notre patrimoine numérique perdu a pu être rapatrié... à partir des États-Unis.

Nous disposons donc d'un premier niveau de bibliothèque qui permet d'accéder aux articles par sommaire, index auteur etc. Mais ces articles sont simplement juxtaposés en mode image. L'étape suivant consiste à les transcrire en OCR pour en faire des articles en format texte, puis hypertexte.

Cette opération a démarré. Nous pouvons déjà présenter trois types de valorisation hypertexte pour faire émerger le patrimoine porté par ces publications : au niveau des articles, puis de la collection et enfin de l'insertion dans un espace scientifique spécialisé.

Où un article devient déjà un hypertexte

Les articles sont, nous l'avons dit, de taille très variable. Un compte-rendu d'une ou deux pages, sans intérêt majeur, peut rester en mode image.

Pour une publication classique (5 à 15 pages), la conversion en wikitexte (pour reprendre la terminologie Wikipédia) donne déjà de bons résultats avec un balisage de base (italique, gras), éventuellement enrichi, par exemple, par des formules en LaTeX. Le repérage des titres permet de générer automatiquement une table des contenus en début d'article.

En revanche, un article de plus de 20 pages est déjà rébarbatif. Au delà de 50 pages, il devient pratiquement illisible. Il faut alors le distribuer, déjà en mode image, sur plusieurs « pages wiki », la première page wiki d'accueil donnant alors le sommaire. On peut réaliser des améliorations progressives avec par exemple : l'introduction transcrite, suivie du sommaire pointant les pages des chapitre, en enfin la conclusion.

Mais certains articles, de taille conséquente, contiennent parfois des petits dictionnaires. Ainsi, Philippe Voltz a écrit en 1830 un article qui décrit sur 72 pages (plus huit pages de planches) la collection des bélemnites du Muséum de Strasbourg. Il contient 17 descriptions d'espèces de ce fossile. Nous avons créé une page d'accueil. Elle oriente vers des chapitres (exemple, la partie I). Enfin nous avons autant de pages wiki que d'espèces. Chacune (comme par exemple Belemnites ferruginosus)est alors décrite sur une page-wiki où l'on a rapproché la (ou les) planches de figures relatives à l'article. Chaque fossile ainsi décrit est souvent plusieurs fois cité dans le texte avec des liens hypertexte. Le lecteur put alors « explorer la collection ».

Un autre exemple est donné par un répertoire archéologique de la Moselle. Il s'agit d'un « article » de 250 pages qui contient plusieurs centaines de description de communes réparties dans une cinquantaines de cantons, eux mêmes répartis dans 8 arrondissements. Nous avons créé une page par arrondissement (exemple Boulay). Elle donne la liste des communes par canton. Il y a ensuite une page par canton (exemple Bouezonville),avec des liens internes vers des communes. Certaines communes(exemple Creutzwald, qui contiennent plusieurs descriptions, disposent de leur propre page.

Un article d'un document peut donc devenir un hypertexte qui permet de naviguer dans des espaces patrimoniaux (les fossiles du Museum de Strasbourg ou les descriptions archéologiques des communes de Moselle.

Chaque cas, nous le voyons, nécessite en fait un traitement spécifique pour lequel la souplesse de Semantic Mediawiki s'avère particulièrement pertinente.

Navigation dans la collection, un exemple avec L'histoire de la société et de ses membres

Il est également possible de concevoir un hypertexte sur l'ensemble de la collection. Voici un exemple avec la vie de la société et de ses membres.

Les présidents rédigent parfois un article historique, comme par exemple Jean-François Pierre pour le cinquantenaire de l'Académie (version Lorraine) en 2011. Le travail rédactionnel a été très rigoureux et cite tous le académiciens depuis 1961 dans leurs sections respectives. Il donne également des références d'articles (intronisation, éloge mortuaire) qui permettent de découvrir leur biographie (voir par exemple : L'Astronome lorrain Gérard Florsch).

Parfois, quelques académiciens donnent un historique ciblé de la vie de la société. Par exemple, Gilbert Percebois, professeur de parasitologie et mycologie, a écrit un article de synthèse sur « La biologie dans les publications de la Société Lorraine des Sciences (1828-1978) ». Il y cite notamment des sociétaires et leurs articles les plus intéressants (et les sessions où ils ont été discutés). Un traitement hypertexte permet au lecteur d'accéder « un un clic » à ces éléments.

De tels articles sont également très précieux pour donner au rééditeur un ordre de priorité pour traiter les milliers d'articles et les centaines d'auteurs de l'académie.

Un point important à ce niveau est la désambiguïsation des patronymes. Cet exercice est parfois difficile car il n'était pas d'usage de mentionner les prénoms. Par exemple, pour le patronyme « Duvernoy », célèbre zoologiste, Wikipédia donne 10 entrées. Il est alors relativement facile d'identifier Louis Georges Duvernoy, notre ancien président. Nous donnons alors comme identifiant celui de Wikipédia (et donc de WikiData - pour faciliter des traitements liés au Web sémantique).

Pour les anciens membres des facultés de Nancy, nous disposons de diverses sources très pertinentes, comme par exemple :

Bien entendu, tous les sites de publication peuvent être mis à contribution (Gallica, Persée, Google Scolar etc)

Le problème est nettement plus compliqué pour des membres extérieurs au système académique. Il devient très difficile pour des patronymes courants en homonymie avec des termes courants comme : Gross, Maire ou Nicolas. Pour des membres peu connus la stratégie de recherche est parfois infructueuse. Nous avons par exemple un « x Thouvenin ». Notons qu'il est très facile, avec MediaWiki, de corriger une identification imparfaite, en cas de découvertes permettant une désambiguïsation.

Il est donc possible de naviguer à partir d'articles de synthèses ou sur les listes d'auteurs. Chaque auteur possède sa fiche où il est possible de citer les laboratoires où il a exercé, sa ville de naissance etc.

La collection des publications de l'ALS permet donc de faire émerger un ensemble de faits porteurs du patrimoine que représente la vie de la société.

De plus, les collections de l'ALS sont gérées dans un « portail wiki » où elles vont cohabiter, sur le même espace wiki, avec d'autres sociétés du Grand Est. Au niveau du wiki, nous avons donc la possibilité de constituer un vaste réseau de connaissance sur l'histoire de la science en Lorraine (et dans la région Grand Est). De plus, Semantic Mediawiki autorise les requêtes sur la catégories. Il est possible par exemple de repérer les personnes admises dans plusieurs sociétés savantes.

Enfin, il est possible de traiter les coopérations signalées par échanges de documents dans les comptes-rendus de session. Bien entendu le traitement des membres correspondants montre la richesse des coopérations de Grand Est au niveau international.

Valorisation d'un article dans un espace spécialisé

Comme le montre la figure suivante, le portail de l'ALS fait partie du réseau Wicri, un ensemble de wikis. Ces wikis sont souvent spécialisés par domaine scientifique (Animaux, végétaux, musique, santé etc). Dans cet article nous utiliserons surtour le wiki Wicri/Animaux sur lequel nous avons réalisé une petite étude de faisabilité autour de quelques articles de l'Histoire naturelle de Buffon (voir par exemple le Daim ou le cheval).

Un mécanisme nommé « lien interwiki » permet de réaliser des liens hypertextes entre les wikis.

Wicri HIS.jpg

Une des utilisations les plus simples de ce dispositif consiste à expliquer une notion citée dans le wiki des sociétés savantes par un développement dans un autre wiki (sans « encombrer » le wiki de départ).

Un exemple introductif

En continuité avec l'histoire de la société, voici un exemple avec André Veillet, personnalité nancéienne qui est né dans une commune du Nord de la France (sans rapport particulier avec la Région Grand Est). La page qui lui rend un hommage de l'Académie contient la phase suivante :

  • Le Professeur A. Veillet est né le 27 juillet 1911 à Haubourdin (Flag of France.svg), dans le département du Nord...

Notez que le lien est enrichi d'une icône pour indiquer au lecteur qu'il s'agit d'un lien qui pointe vers un autre wiki (un lien interwiki) ici vers Wicri/France.

Exemples en zoologie

Au delà de son histoire, l'intérêt majeur du patrimoine de l'ALS est constituée par la multitude des ses articles scientifiques, avec un point fort en biologie. Ceci est particulièrement significatif au XIXe siècle où les articles de références étaient souvent publiés dans les sociétés savantes régionales. C'est notamment le cas en zoologie.

Pour les articles les plus pertinents, nous procédons à une réédition de l'article dans le wiki cible (ici, Wicri/Animaux) avec des traitements hypertextes sensiblement différents.

Dans les cas les plus simples (articles de quelques pages sur un sujet bien ciblé), le texte de l'article est simplement recopié.

Par exemple, un article de Bruno Condé relate la découverte de quelques protoures en Lorraine. Ce sujet est très spécialisé et son développement ne rentre pas dans la ligne éditoriale du wiki des académies lorraines. La production de l'article sur Wicri/Animaux (ZOO Bojnice - Lev.jpg) permet un tel développement.


Voici deux exemples où, au delà de la valorisation, cette duplication enrichit l'espace cible.

Par exemple, un article de la société des sciences naturelles de Strasbourg traite des mammifères et de l'ornithologie à Madagascar.

logo travaux texte en cours de ré-écriture forte à partir de ce point

L'auteur, Victor Sganzin, y cite une liste d'animaux très spécifiques comme « le petit maki gris de Buffon ». Ce sujet peut alors être développé sur le wiki « animaux » en liaison avec la réédition de l'histoire naturelle de Buffon. Le ré-éditeur de l'article sur Sganzin (qui a aussi le droit de contribuer sur Wicri/Animaux). peut réaliser la réédition numérique de l'article de l'encyclopédie de Buffon.

L'Histoire naturelle de Buffon est un monument éditorial d'une cinquantaine de tomes de quelques centaines de pages chacun. Le réseau de wiki associant des sites régionaux et d'autres plus spécialisés favorise les contributions collectives.

Un des mémoires strasbourgeois contient une monographie de 150 pages sur la girafe rédigée en 1858 par Nicolas Joly. Elle offre par exemple une liste de plus d'une cinquantaine d'auteurs qui ont écrit sur la girafe, depuis Moïse dans le Deutéronome, jusque Cuvier ou Greoffoy Saint-Hilaire, en passant par Aristote ou Marco-Polo. Il s'avère d'une très grande richesse pour structurer une éditions hypertexte de l'Histoire de l'Histoire naturelle. De façon surprenante, il nous a aidé à identifier les références bibliographiques données par Buffon. Par exemple quand Buffon écrit « Gefner, hist. quad. pag. 147 » Joly précise : « C. Gesner. Conradi Gesneri historia animalium. De quadrupedibus, p. 147-150. ».

Exemples en botanique

Un autre article, daté de 1912, de Pionnier, missionnaire mariste, donne la liste des lichens de Nouvelle Calédonie. Il est naturellement très intéressant à exploiter du point de vue de la biodiversité. Il se pose alors un problème d'identification, la nomenclature de ces végétaux ayant évolué. Là encore, l'architecture d'un réseau de wiki sémantique permet de décrire cette évolution de façon incrémentale et collaborative.

Contexte général et historique de ce projet

Nous venons de présenter une expérimentation qui entre en fait dans une réflexion beaucoup plus ambitieuse sur la numérisation hypertexte du patrimoine scientifique national dans un contexte international.

Avant-propos concernant cette section

La réflexion du porteur de ce projet s'inscrit dans un parcours de plus de 55 ans dans les grands projets numériques de l'information scientifique que nous évoquons maintenant. Le rédacteur de cet article, souvent en situation de responsabilité, a du faire des choix souvent très personnels. Dans ce cas, le pronom «je», inhabituel dans une publication scientifique, est ici assumé.

Au CNRS, le TLF et les bases Pascal et Francis

Dans les années 1960-1970, avec le Plan Calcul dans le paysage, le CNRS a démontré sa capacité à positionner la France dans une très grande visibilité internationale avec, notamment le dictionnaire Trésor de la langue française (TLF) et la création des bases bibliographiques Pascal et Francis.

Le dictionnaire TLF a été lancé dans les années 60 avec des traitements relevant déjà de l'intelligence artificielle. En 1970, un corpus de 1000 textes, dans lesquels chaque mot était étiqueté par sa catégorie grammaticale, a été constitué. Un algorithme de classification (les Groupes binaires) donnait aux rédacteurs, pour chaque terme, un ensemble significatif (et classé) de références. Ce dictionnaire a été numérisé dans les années 1980, au départ sur CDROM puis sur Internet (TLFi) dans les années 2000.

Les bases bibliographiques Pascal et Francis ont été crées, dans les années 1970, à partir des bulletins signalétiques du CNRS. Dans les années 1975, le CDST (Centre de documentation scientifique et technique(H Ist) du CNRS) avait pu mettre en ligne, sur le réseau Cyclades, une production des 300.000 notices analytiques (avec une normalisation conforme à la norme IS0 2709). Ce socle initial a été renforcé en 1990 avec la création de l'INIST, avec notamment, au niveau international, un des premiers services de fourniture de documents numériques, avec notamment des projets d'indexation assistée ou d'intelligence scientifique et économique.

Ces deux applications ont été arrêtées (en 1994 pour l'une, en 2015 pour l'autre).

J'ai été personnellement impliqué dans ces 2 projets. Avec le projet Wicri, mon premier objectif est de montrer la faisabilité pour un ensemble de coopérations animées par le CNRS de redonner à la France la visibilité numérique qu'elle avait... au siècle dernier.

Nous évoquerons également deux éléments : le progiciel Mistral et le groupement ANL (Association nationale du logiciel) qui ont joué un rôle important pour les options techniques de ce projet.

Éléments techniques concernant le TLF

En 1974, j'étais codirecteur technique du centre de calcul de Nancy qui hébergeait les applications du TLF.

Le projet TLF a mobilisé près de cent personnes pendant une vingtaine d'années. En 1890, la technologie SGML émergente pouvait laisser espérer une charge informatique moins lourde mais l'offre de solutions numériques collaboratives étaient encore très pauvre. Ceci explique en partie la décision du CNRS.

Mais depuis 2004, la fondation Wikimédia a démontré avec Wiktionnaire qu'il était possible de réaliser un dictionnaire conséquent avec la technologie wiki. Voici quelques exemples de faisabilité.

Sur le wiki Wicri/Musique, nous avons reproduit l'article Musique du TLFi (GClef.svg) (avec quelques petits développements dans Dilib pour faciliter la transcription). Cet article cite une séquence grégorienne pour laquelle nous avons créé l'article Victimæ paschali laudes (GClef.svg). Vous noterez sur cet article divers exemples multimédia pour illustrer le patrimoine musical.

Sur ce même wiki, nous avons montré la possibilité de mettre en parallèle des entrées de différents dictionnaires sur un terme relativement simple comme le mot Andante (GClef.svg). Vous pourrez constater que Jean-Jacques Rousseau se contredit entre son dictionnaire de musique et son article dans l'Encyclopédie.

Sur le wiki Wicri/Santé, l'article Claude Bernard(Star of life2.svg) contient une liste de liens générés par les liens sémantiques. On y trouve des entrées du TLF comme par exemple le verbe Mithridatiser(Star of life2.svg). Cette entrée contient deux exemples de Claude Bernard dans son ouvrage Principes de médecine expérimentale(Star of life2.svg) que nous avons partiellement réédité pour montrer les exemples du TLF dans un contexte plus large.

Sur ce wiki, l'article Cyclopéen propose le syntagme « mur cyclopéen », avec une définition donnée par Beaupré en 1911 dans un article discuté par Maubeuge en 1968.

Il est donc techniquement possible de produire une version actualisée du TLF dans un paysage numérique nettement enrichi. Elle peut également être rendue beaucoup plus lisible avec par exemple la résolutions des multiples abréviations liées aux contraintes du volume de papier.

Mistral un système de recherche à notoriété mondiale

Dans les années 70, les relations entre le constructeur national (Cii) et les établissements universitaires ou de recherche (CNRS, CNET...) étaient très fortes, notamment autour de la gamme Iris 80.

La Cii avait donc développé un système de recherche nommé Mistral, avec notamment comme ambition de mettre en ligne la base Pascal. A titre personnel, j'étais impliqué dans le « groupe des utilisateurs Mistral » avec notamment deux applications, le BALF (Bulletin analytique de linguistique française) pour le TLF et des travaux pratiques pour l'IUT Carrières de l'information à Nancy.

L'équipe « Mistral Cii » avait conçu un progiciel remarquable : une volumétrie significative (exemple les 300.000 références annuelles de Pascal), une recherche par mots clés, sur plein texte (avec des mot-vides) et un thésaurus sur les mots-clés.

Les premières versions utilisaient encore des cartes perforées. Mais nous avions réussi, sur le thématique des bandes dessinées, à faire monter une base par groupes d'étudiants, avec paramétrage de la base, introduction de notices, création d'un thésaurus et éditions de résultats de recherches sur imprimante. Puis assez rapidement nous avons bénéficié d'une version en temps partagé, encore acrobatique (il fallait saisir les notices avec un éditeur encore rudimentaire). Les étudiants ont été les cobayes qui nous ont permis de tester le progiciel pour lancer ensuite une action en vraie grandeur pour le BALF.

De son côté, le CDST du CNRS avait lancé un grand projet avec notamment l'imprimeur Jouve SA sous la direction de Nathalie Dusoulier. Les ingénieurs rédigeant leurs analyses sur des bordereaux avec lesquels on produisait d'une part les bulletins signalétiques et d'autre part des notices dans un format international (norme ISO 2709). Il était alors possible de faire des reformatages pour alimenter des moteurs de recherche, et notamment Mistral.

Dans les années 75, la base Pascal était consultable sur le réseau Cyclades (qui préfigurait Internet).

Malheureusement, avec l'arrêt du plan calcul, puis de la gamme IRIS 80, le programme Mistral a été abandonné. Une partie de l'équipe a rejoint la société Télésystèmes (actuellement Questel) pour y développer un serveur. Le CDST, comme de multiples acteurs de l'IST sont devenus totalement dépendants de ce type d'opérateurs. Ce problème est maintenant totalement résolu avec MediaWiki[1]

L'Agence de l'informatique, ingénierie documentaire et éditoriale Unix,

Dans les années 1975, l'Iria, ancêtre de l'Inria, s'appuyait sur deux structures : le Laboria (qui deviendra l'Inria en 1979) et le Sesori (Service de synthèse et d'orientation de la recherche en informatique). Le Sesori était notamment chargé de gérer des projets pilotes au niveau national. En 1979, le Sesori a rejoint l'Agence de l'informatique (ADI), et notamment son département soutien à la recherche.

J'ai été impliqué dans le groupe de travail ANL (Atelier national du logiciel) créé pour valoriser les logiciels issus de la recherche publique en génie logiciel et intelligence artificielle afin de favoriser leur transfert vers l'industrie. Le groupe de travail ANL avait pour mission initiale de constituer, sur une année, un inventaire des logiciels transférables par des visites approfondies dans les laboratoires. En 1980, l'ADI a organisé une manifestation « recherche - industrie » de 2 jours où les logiciels qui paraissaient les plus avancés ont fait l'objet de démonstrations. Suite au succès de cette opération (et en s'inspirant d'initiatives américaines) il a été décidé de pérenniser ce type d'actions dans un groupement scientifique (avec le CNRS, l'INRIA, l'ADI, le Ministère de la Recherche et le CNET) renommé Association nationale du logiciel dont j'ai pris la direction. Nous organisions une dizaine d'expositions (associées à des colloques) par an, en France et à l'étranger), avec un catalogue imprimé spécifique pour chaque exposition.

Nous avons rapidement été associé au projet SM 90 qui visait à créer une filière française de stations et machines Unix. Nous avons construit un ensemble éditorial à partir de nos inventaires. Il était basé sur une arborescence Unix avec des logiciels utilisés en compilation (analyseurs lexicaux). Nous gérions également un serveur Minitel. Nous avons monté un ensemble de démonstrations, souvent basés sur nos collections, pour les logiciels qui devaient alimenter la SM 90. Nous avons également commencé à diversifier nos services avec par exemple un catalogue pour les logiciels de chimie, sur les systèmes experts ou les applications documentaires.

Et puis en 1986, Alain Madelin, nommé Ministre de l'Industrie, des Postes et télécommunications et du Tourisme, décide de faire un exemple en supprimant brutalement l'Agence de l'informatique (et, par le fait, les actions engagées).

Le CNRS m'a alors conseillé de me rapprocher de l'INIST en cours de constitution.

L'INIST, XML pour l'analyse de corpus numériques

J'ai donc cherché à établir une coopération entre l'ANL et l'INIST. J'ai donc rencontré les porteurs du projet : Pierre Creyssel[2], Goéry Delacôte[3] et Nathalie Dusoulier[4]. Ils m'ont alors proposé de rejoindre l'INIST :

  • d'abord comme directeur informatique pour créer le service, informatiser la bibliothèque, développer la fourniture numérique de documents
  • puis comme directeur d'un département de recherche et développement pour la production et l'exploitation des bases Pascal et Francis (en m'appuyant notamment sur l'expérience éditoriale de l'ANL).

Les bases Pascal et Francis étaient alimentées par des ingénieurs du CNRS, des analyses payés sur prestation et un vaste réseau de coopérations avec des organismes qui avaient des préoccupations voisines de celles de l'INIST mais pas forcément identiques et dans une grande variété de domaines scientifiques. Nous devions donc créer un réseau de machines unix avec des mécanismes d'indexation assistée. Grâce au « réseau ANL » nous avons « découvert » la norme SGML qui apportait le très haut niveau interopérabilité dont nous avions besoin.

Nous avons donc commencé à construire iLib, une boîte à outils SGML, au départ pour la construction de systèmes de recherche et d'analyse de corpus bibliographiques.

Et en 1992, nouveau coup de tonnerre ! Goéry Delacôte quitte le CNRS pour rejoindre l'Exploratorium de San Francisco. Malheureusement le marché de la fourniture de documents n'était pas au rendez-vous. Le CDST, avec une chaine manuelle fournissait 300.000 commandes par an. L'application pouvait gérer techniquement deux millions de commandes par an mais le marché de 1992 était de 700.000 au lieu du 1.500.000 attendu... La direction du CNRS a alors engagé un plan de restructuration en visant un groupe industriel. Les cadres, issus du service public ont été destitué au profit de cadres venus de l'industrie.

Le département que je dirigeais a été supprimé à la demande du nouveau directeur informatique. J'ai alors rejoint le Loria. L'INIST m'a alors « interdit d'utiliser Ilib ». Paradoxalement cela a été une très bonne chose ! En effet, iLib était une première maquette basée sur l'analyse lexicale de flux de documents ISO 2709 codés en SGML. J'ai alors décidé un construire ex nihilo une nouvelle version avec une philosophie très proche de la future spécification DOM du futur modèle XML.

Enfin, j'ai été rappelé en 2000 par Alain Chanudet comme directeur des produits et services de l'INIST (dont la production des bases Pascal et Francis).

Bilan retombées et perspectives

Cet exercice présente deux types de retombées, au niveau intellectuel au niveau individuel d'une part et collectif d'autre part.

Au niveau individuel

Rédacteur de cet article, je suis le ré-éditeur des collections de l'ALS. Deux points me semblent intéressants à mettre en évidence.

Depuis le début de l'aventure Wicri, j'ai souvent traité des sujets en fonction de mes préférences ou de mes connaissance. Ici avec un corpus totalement interdisciplinaire, j'ai été amené à aborder un grand nombre de terrains qui m'étaient inconnus. J'avoue avoir été parfois surpris par la rapidité avec laquelle on peut acquérir une première expertise sur un domaine donné. Ce type d'exercice me parait donc très intéressant à exploiter dans une stratégie d'enseignement.

Mais plus encore, j'ai trouvé cet exercice absolument passionnant !

Au niveau collectif

Wikipédia est alimenté par des volontaires, rappelons-le.

Dans les années 70 avec le Trésor de la langue française, puis jusqu'en 2000 avec les bases Pascal et Francis, la France jouissait d'une forte présence dans l'espace numérique de la connaissance.

Aujourd'hui, notre plus grand dictionnaire, notre plus grande encyclopédie, notre plus grande bibliothèque d'ouvrage en format texte sont gérées et administrées à San Francisco, par la WikiMedia Foundation. L'anonymat des contributions avec des mécanismes d'IA générative est une menace très importante pour l'intégrité de... notre patrimoine numérique.

Le projet Wicri et cette expérience de valorisation permettent de donner des éléments de chiffrage pour notre indépendance relatif à notre patrimoine numérique. Pour des raisons diverses, j'ai mené seul les travaux dur l'ALS depuis le début de cette année. J'ai créé environ 2000 « pages wiki » en 9 mois, soit environ 1/1000 de Wikipédia depuis 20 ans. Autrement dit, avec les technologies « wiki sémantique » un ordre de grandeur de quelques (2 ou 3) centaines de personnes à temps plein peuvent rivaliser avec la galaxie Wikipédia.

Le ministère de la recherche affiche 91.000 enseignants chercheurs et 14.000 doctorants par an. Nous disposons donc d'un immense réservoir potentiel de contributions volontaires.

Bien entendu, cette approche peut s'intégrer dans un ensemble de coopérations francophones ou européennes.

Un vaste numérique vertueux est dons possible pour préserver et diffuser notre patrimoine humaniste.

Conclusion

Bibliographie

Frédéric Blin, « BSN 5 : numérisation du patrimoine scientifique national », Arabesques [En ligne], 69 | 2013, mis en ligne le 29 août 2019, consulté le 24 octobre 2025. URL : https://publications-prairial.fr/arabesques/index.php?id=1134



  1. Citons également, pour des actions spécialisées des solutions comme Omeka ou Elasric Search.
  2. Directeur administratif du CNRS
  3. Directeur de l'Information scientifique et technique (DIST)
  4. Directeur général de l'INIST sous l'autorité de la DIST