HIS (2025) Ducloy/Annexe 1

De Wicri Académies Grand Est
< HIS (2025) Ducloy
Révision datée du 27 octobre 2025 à 18:08 par Jacques Ducloy (discussion | contributions) (Page créée avec « {{Wicri travaux|texte=partie en cours de rédaction initiale}} En effet, par son aspect multidisciplinaire, est en fait une maquette de grand système d'information scient... »)
(diff) ← Version précédente | Voir la version actuelle (diff) | Version suivante → (diff)
logo travaux partie en cours de rédaction initiale

En effet, par son aspect multidisciplinaire, est en fait une maquette de grand système d'information scientifique et technique.

Avant-propos concernant cette section

La réflexion du porteur de ce projet s'inscrit dans un parcours de plus de 55 ans dans les grands projets numériques de l'information scientifique que nous évoquons maintenant. Souvent en situation de responsabilité, j'ai du faire des choix souvent très personnels. Dans ce cas, le pronom «je», inhabituel dans une publication scientifique, est ici assumé.

Au CNRS, le TLF et les bases Pascal et Francis

Dans les années 1960-1970, avec le Plan Calcul dans le paysage, le CNRS a démontré sa capacité à positionner la France dans une très grande visibilité internationale avec notamment : le dictionnaire Trésor de la langue française (TLF) et les bases bibliographiques Pascal et Francis.

Le dictionnaire TLF a été lancé dans les années 60 avec des traitements relevant déjà de l'intelligence artificielle. En 1970, un corpus de 1000 textes, dans lesquels chaque mot était étiqueté par sa catégorie grammaticale, a été constitué. Un algorithme de classification (les Groupes binaires) donnait aux rédacteurs, pour chaque terme, un ensemble significatif (et classé) de références. Ce dictionnaire a été numérisé dans les années 1980, au départ sur CDROM puis sur Internet (TLFi) dans les années 2000.

Les bases bibliographiques Pascal et Francis ont été crées, dans les années 1970, à partir des bulletins signalétiques du CNRS. Dans les années 1975, le CDST (Centre de documentation scientifique et technique(H Ist) du CNRS) avait pu mettre en ligne, sur le réseau Cyclades, une production des 300.000 notices analytiques (avec une normalisation conforme à la norme IS0 2709). Ce socle initial a été renforcé en 1990 avec la création de l'INIST, avec un des premiers services de fourniture de documents numériques et des projets d'indexation assistée ou d'intelligence scientifique et économique.

Ces deux applications ont été arrêtées (en 1994 pour l'une, en 2015 pour l'autre).

J'ai été personnellement impliqué dans ces 2 projets. Avec le projet Wicri, mon premier objectif est de montrer la faisabilité pour un ensemble de coopérations animées par le CNRS de redonner à la France la visibilité numérique qu'elle avait... au siècle dernier.

Nous évoquerons également deux éléments : le progiciel Mistral et le groupement ANL (Association nationale du logiciel) qui ont joué un rôle important pour les options techniques de ce projet.

Éléments techniques concernant le TLF

En 1974, j'étais codirecteur technique du centre de calcul de Nancy qui hébergeait les applications du TLF.

Le projet TLF a mobilisé près de cent personnes pendant une vingtaine d'années. En 1890, la technologie SGML émergente pouvait laisser espérer une charge informatique moins lourde mais l'offre de solutions numériques collaboratives étaient encore très pauvre. Ceci explique en partie la décision du CNRS.

Mais depuis 2004, la fondation Wikimédia a démontré avec Wiktionnaire qu'il était possible de réaliser un dictionnaire conséquent avec la technologie wiki. Voici quelques exemples de faisabilité.


Il est donc techniquement possible de produire une version actualisée du TLF dans un paysage numérique nettement enrichi. Elle peut également être rendue beaucoup plus lisible avec par exemple la résolutions des multiples abréviations liées aux contraintes du volume de papier.

Mistral un système de recherche à notoriété mondiale

Dans les années 70, les relations entre le constructeur national (Cii) et les établissements universitaires ou de recherche (CNRS, CNET...) étaient très fortes, notamment autour de la gamme Iris 80.

La Cii avait donc développé un système de recherche nommé Mistral, avec notamment comme ambition de mettre en ligne la base Pascal. A titre personnel, j'étais impliqué dans le « groupe des utilisateurs Mistral » avec notamment deux applications, le BALF (Bulletin analytique de linguistique française) pour le TLF et des travaux pratiques pour l'IUT Carrières de l'information à Nancy.

L'équipe « Mistral Cii » avait conçu un progiciel remarquable : une volumétrie significative (exemple les 300.000 références annuelles de Pascal), une recherche par mots clés, sur plein texte (avec des mot-vides) et un thésaurus sur les mots-clés.

Les premières versions utilisaient encore des cartes perforées. Mais nous avions réussi, sur le thématique des bandes dessinées, à faire monter une base par groupes d'étudiants, avec paramétrage de la base, introduction de notices, création d'un thésaurus et éditions de résultats de recherches sur imprimante. Puis assez rapidement nous avons bénéficié d'une version en temps partagé, encore acrobatique (il fallait saisir les notices avec un éditeur encore rudimentaire). Les étudiants ont été les cobayes qui nous ont permis de tester le progiciel pour lancer ensuite une action en vraie grandeur pour le BALF.

De son côté, le CDST du CNRS avait lancé un grand projet avec notamment l'imprimeur Jouve SA sous la direction de Nathalie Dusoulier. Les ingénieurs rédigeant leurs analyses sur des bordereaux avec lesquels on produisait d'une part les bulletins signalétiques et d'autre part des notices dans un format international (norme ISO 2709). Il était alors possible de faire des reformatages pour alimenter des moteurs de recherche, et notamment Mistral.

Dans les années 75, la base Pascal était consultable sur le réseau Cyclades (qui préfigurait Internet).

Malheureusement, avec l'arrêt du plan calcul, puis de la gamme IRIS 80, le programme Mistral a été abandonné. Une partie de l'équipe a rejoint la société Télésystèmes (actuellement Questel) pour y développer un serveur. Le CDST, comme de multiples acteurs de l'IST sont devenus totalement dépendants de ce type d'opérateurs. Ce problème est maintenant totalement résolu avec une solution telle que MediaWiki[1]

Avec l'Agence de l'informatique, une ingénierie documentaire et éditoriale sous Unix,

Dans les années 1975, l'Iria, ancêtre de l'Inria, s'appuyait sur deux structures : le Laboria (qui deviendra l'Inria en 1979) et le Sesori (Service de synthèse et d'orientation de la recherche en informatique). Le Sesori était notamment chargé de gérer des projets pilotes au niveau national. En 1979, le Sesori a rejoint l'Agence de l'informatique (ADI) en cours de création, et notamment son département de soutien à la recherche.

J'ai été impliqué dans le groupe de travail ANL (Atelier national du logiciel) créé pour valoriser les logiciels issus de la recherche publique en génie logiciel et intelligence artificielle afin de favoriser leur transfert vers l'industrie. Le groupe de travail ANL avait pour mission initiale de constituer, sur une année, un inventaire des logiciels transférables par des visites approfondies dans les laboratoires. En 1980, l'ADI a organisé une manifestation « recherche - industrie » de 2 jours où les logiciels qui paraissaient les plus avancés ont fait l'objet de démonstrations. Suite au succès de cette opération (et en s'inspirant d'initiatives américaines) il a été décidé de pérenniser ce type d'actions dans un groupement scientifique [2] renommé Association nationale du logiciel dont j'ai pris la direction. Nous organisions une dizaine d'expositions (associées à des colloques) par an, en France et à l'étranger), avec un catalogue imprimé spécifique pour chaque exposition.

Nous avons rapidement été associé au projet SM 90 qui visait à créer une filière française de stations et machines Unix. Nous avons construit un ensemble éditorial à partir de nos inventaires. Il était basé sur une arborescence Unix avec des logiciels utilisés en compilation (analyseurs lexicaux). Nous gérions également un serveur Minitel. Nous avons monté un ensemble de démonstrations, souvent basés sur nos collections, pour les logiciels qui devaient alimenter la SM 90. Nous avons également commencé à diversifier nos services avec par exemple un catalogue pour les logiciels de chimie, sur les systèmes experts ou les applications documentaires.

Et puis en 1986, Alain Madelin, nommé Ministre de l'Industrie, des Postes et télécommunications et du Tourisme, décide de faire un exemple en supprimant brutalement l'Agence de l'informatique (et, par le fait, les actions engagées).

Le CNRS m'a alors conseillé de me rapprocher de l'INIST en cours de constitution.

L'INIST, XML pour l'analyse de corpus numériques

J'ai donc cherché à établir une coopération entre l'ANL et l'INIST. J'ai donc rencontré les porteurs du projet : Pierre Creyssel[3], Goéry Delacôte[4] et Nathalie Dusoulier[5]. Ils m'ont alors proposé de rejoindre l'INIST :

  • d'abord comme directeur informatique pour créer le service, informatiser la bibliothèque, développer la fourniture numérique de documents
  • puis comme directeur d'un département de recherche et développement pour la production et l'exploitation des bases Pascal et Francis (en m'appuyant notamment sur l'expérience éditoriale de l'ANL).

Aspects techniques (et institutionnels) pour Pascal

J'ai également été nommé directeur informatique du CDST (pour assurer sa migration). J'ai découvert une situation totalement bloquée :

  • En amont, le traitement des analyses sur bordereaux papiers était totalement sous-traité à la Société Jouve SA qui imprimait les bulletins signalétiques et fournissait à l'INIST des notices en format ISO 2709.
  • En aval, nous avons signalé plus haut la totale dépendance avec la société Questel.
  • Le service Informatique assurait simplement l'exploitation d'une chaine de reformatage élaborée dans les années 1970, et quelques prestations internes avec des programmes ayant été écrits à la même époque.

Concernant l'INIST, un schéma directeur avait été élaboré (avant la nomination de Nathalie Dusoulier) par des acteurs compétents pour des organisations telles que la direction administrative du CNRS mais visiblement, de mon point de vue, peu expérimentés en bibliothéconomie. Ce schéma préconisait un système intégré sur un SGBD relationnel[6] avec une construction en deux temps :

  1. informatisation de la bibliothèque (17.000 abonnements) et fourniture de photocopies (FDP) et si possible extraction d'un serveur d'archivage numérique.
  2. création et exploitation des bases Pascal et Francis.

Ce choix était pertinent pour la FDP qui présentait des aspects transactionnels (gestion des factures).

Il n'était par adapté à la bibliothèque compte tenu de la complexité des descriptions bibliographiques provenant de multiples sources et un système spécifique a été acquis.

Il était encore moins adapté aux bases Pascal et Francis en raison de la multidisciplinarité des domaines scientifiques et de l'existence d'un vaste réseau de coopérations. Les organismes coopérants avaient des préoccupations voisines de celles de l'INIST mais pas forcément identiques. Il n'était pas possible non plus d'implanter des algorithmes de type classification statistique.

Nous avons donc décidé de conserver provisoirement les chaines du CDST pour travailler à moyen terme sur un réseau de machines unix avec des mécanismes d'indexation assistée.

Les boites à outils XML pour l'analyse de corpus bibliographiques

Grâce au « réseau ANL » nous avons « découvert » la norme SGML qui apportait le très haut niveau interopérabilité dont nous avions besoin. Nous avons donc commencé à construire iLib (information Library), une boîte à outils SGML pour la construction de systèmes de recherche et d'analyse de corpus bibliographiques. Nous avons eu rapidement des résultats significatifs dans l'exploitation statistique de corpus Pascal ou Francis.

Et en 1992, nouveau coup de tonnerre ! Goéry Delacôte quitte le CNRS pour rejoindre l'Exploratorium de San Francisco. Et malheureusement le marché de la fourniture de documents n'était pas au rendez-vous pour assurer l'équilibre financier de l'INIST. [7] La direction du CNRS a alors engagé un plan de restructuration en visant un groupe industriel. Les cadres, issus du service public ont été destitué au profit de cadres venus de l'industrie.

Le département que je dirigeais a été supprimé[8]. J'ai alors rejoint le Loria. L'INIST m'a alors « interdit d'utiliser Ilib ». Paradoxalement cela a été une très bonne chose ! En effet, iLib était une première maquette basée sur l'analyse lexicale de flux de documents ISO 2709 codés en SGML. J'ai alors décidé un construire ex nihilo une nouvelle version avec une philosophie très proche de la future spécification DOM du futur modèle XML.

Sur ce premier résultat j'ai dirigé, pour le Loria, une action « Autoroutes de l'information » et j'ai été impliqué dans des projets européens pour le consortium ERCIM sur les Digital Libraries. Puis nous avons été impliqués dans la normalisation Dublin Core.

Nous avons notamment monté un programme nommé MedExplore pour l'analyse des aspects psycho-cognitifs mis en oeuvre pour l'analyse de grandes masses de données bibliographiques.

Enfin, j'ai été rappelé en 2000 par Alain Chanudet comme directeur des produits et services de l'INIST (dont la production des bases Pascal et Francis).

Lancement du projet Wicri, dopé par ISTEX

  1. Citons également, pour des actions spécialisées des solutions comme Omeka ou Elastic Search.
  2. (avec le CNRS, l'INRIA, l'ADI, le Ministère de la Recherche et le CNET)
  3. Directeur administratif du CNRS
  4. Directeur de l'Information scientifique et technique (DIST)
  5. Directeur général de l'INIST sous l'autorité de la DIST
  6. Et si possible sur un mainframe IBM par continuité avec le centre de calcul du CNRS
  7. Le CDST, avec une chaine manuelle fournissait 300.000 commandes par an. L'application pouvait gérer techniquement deux millions de commandes par an mais le marché de 1992 était de 700.000 au lieu du 1.500.000 attendu...
  8. à la demande du nouveau directeur informatique