HIS (2025) Ducloy/Artist
Appropriation par la Recherche des Technologies de l'Information Scientifique et Technique
Révélation numérique du patrimoine culturel et immatériel des sociétés savantes.
La vie d'ARTIST n'a pas été un long fleuve tranquille
Mais elle a été très riche.
L'expérience sur l'ALS est une étape dans un parcours de 50 ans d'engagement sur le numérique au service des acteurs de la recherche et de l’innovation.
Cette annexe est un témoignage sur ce parcours pour permettre au lecteur de comprendre les choix et les objectifs de cette démarche.
Sommaire
- 1 Introduction
- 2 Les précurseurs
- 3 Le temps des pionniers en informatique
- 4 Au temps du Plan Calcul, un remarquable départ
- 5 Avec l'Agence de l'informatique, une ingénierie documentaire et éditoriale sous Unix,
- 6 L'INIST, XML pour l'analyse de corpus numériques
- 7 La direction des produits et services de l'INIST
- 8 Artist, Ametist, Wikipédia
- 9 Le projet Wicri, dopé par ISTEX
- 10 Notes
Introduction
ARTIST
Appropriation par la Recherche des Technologies de l'Information Scientifique et Technique
Le sigle ARTIST fait allusion à une action fondatrice engagée en 2005.
Les précurseurs
Pascal...
Le temps des pionniers en informatique
En 1945, (un an avant ma naissance), John von Neumann élabore la première description d’un ordinateur dont le programme est stocké dans sa mémoire.
En 1951, à Grenoble, Jean Kuntzmann crée un « Laboratoire de Calcul ».
En 1954, John Backus, crée le « Programming Research Group » qui conduira à la définition du langage FORTRAN, avec une version opérationnelle en 1957 sur les ordinateurs IBM 704.
En 1957, à Toulouse, Émile Durand, crée un Institut de Calcul Numérique avec un ordinateur IBM 650.
En octobre 1959, à Nancy, Jean Legras crée un centre de calcul autour d'un ordinateur IBM 650.
En 1960, à Nancy, Paul Imbs crée le Centre de recherche pour un Trésor de la langue française.
En 1965, Jacques-Émile Dubois met au point le système DARC (acronyme de « Description, acquisition, restitution, corrélation »)[1]
Au temps du Plan Calcul, un remarquable départ
En 1966, le Général de Gaulle annonce le lancement du Plan Calcul, avec notamment la création de le Cii et de l'IRIA. le CNRS démontre sa capacité à positionner la France dans une très grande visibilité internationale avec notamment : le dictionnaire Trésor de la langue française (TLF) et les bases bibliographiques Pascal et Francis.
Ces deux applications ont été arrêtées (en 1994 pour l'une, en 2015 pour l'autre). J'ai été personnellement impliqué dans ces 2 projets. Avec le projet Wicri, mon premier objectif est de montrer la faisabilité pour un ensemble de coopérations animées par le CNRS de redonner à la France la visibilité numérique qu'elle avait... au siècle dernier.
Le réseau des centres de calcul universitaires
Un des axes forts de la Cii a été la fabrication d'une gamme d'ordinateurs adaptés aux centres de calcul régionaux.
Cii 10070, Iris 80 ... Cyclades
En 1974, j'étais codirecteur technique du centre de calcul de Nancy qui hébergeait les applications du TLF.
Un précurseur, le trésor de la langue française
Le dictionnaire TLF a été lancé dans les années 60 avec des traitements relevant déjà de l'intelligence artificielle. En 1970, un corpus de 1000 textes, dans lesquels chaque mot était étiqueté par sa catégorie grammaticale, a été constitué. Un algorithme de classification (les Groupes binaires) donnait aux rédacteurs, pour chaque terme, un ensemble significatif (et classé) de références. Ce dictionnaire a été numérisé dans les années 1980, au départ sur CDROM puis sur Internet (TLFi) dans les années 2000.
Le projet TLF a mobilisé près de cent personnes pendant une vingtaine d'années. En 1890, la technologie SGML émergente pouvait laisser espérer une charge informatique moins lourde mais l'offre de solutions numériques collaboratives étaient encore très pauvre. Ceci explique en partie la décision du CNRS.
Mais depuis 2004, la fondation Wikimédia a démontré avec Wiktionnaire qu'il était possible de réaliser un dictionnaire conséquent avec la technologie wiki. Voici quelques exemples de faisabilité.
Il est donc techniquement possible de produire une version actualisée du TLF dans un paysage numérique nettement enrichi. Elle peut également être rendue beaucoup plus lisible avec par exemple la résolutions des multiples abréviations liées aux contraintes du volume de papier.
Les bases Pascal et Francis
Les bases bibliographiques Pascal et Francis ont été crées, dans les années 1970, à partir des bulletins signalétiques du CNRS. Dans les années 1975, le CDST (Centre de documentation scientifique et technique(H Ist) du CNRS) avait pu mettre en ligne, sur le réseau Cyclades, une production des 300.000 notices analytiques (avec une normalisation conforme à la norme IS0 2709). Ce socle initial a été renforcé en 1990 avec la création de l'INIST, avec un des premiers services de fourniture de documents numériques et des projets d'indexation assistée ou d'intelligence scientifique et économique.
Nous évoquerons également deux éléments : le progiciel Mistral et le groupement ANL (Association nationale du logiciel) qui ont joué un rôle important pour les options techniques de ce projet.
Mistral un système de recherche à notoriété mondiale
Dans les années 70, les relations entre le constructeur national (Cii) et les établissements universitaires ou de recherche (CNRS, CNET...) étaient très fortes, notamment autour de la gamme Iris 80.
La Cii avait donc développé un système de recherche nommé Mistral, avec notamment comme ambition de mettre en ligne la base Pascal. A titre personnel, j'étais impliqué dans le « groupe des utilisateurs Mistral » avec notamment deux applications, le BALF (Bulletin analytique de linguistique française) pour le TLF et des travaux pratiques pour l'IUT Carrières de l'information à Nancy.
L'équipe « Mistral Cii » avait conçu un progiciel remarquable : une volumétrie significative (exemple les 300.000 références annuelles de Pascal), une recherche par mots clés, sur plein texte (avec des mot-vides) et un thésaurus sur les mots-clés.
Les premières versions utilisaient encore des cartes perforées. Mais nous avions réussi, sur le thématique des bandes dessinées, à faire monter une base par groupes d'étudiants, avec paramétrage de la base, introduction de notices, création d'un thésaurus et éditions de résultats de recherches sur imprimante. Puis assez rapidement nous avons bénéficié d'une version en temps partagé, encore acrobatique (il fallait saisir les notices avec un éditeur encore rudimentaire). Les étudiants ont été les cobayes qui nous ont permis de tester le progiciel pour lancer ensuite une action en vraie grandeur pour le BALF.
De son côté, le CDST du CNRS avait lancé un grand projet avec notamment l'imprimeur Jouve SA sous la direction de Nathalie Dusoulier. Les ingénieurs rédigeant leurs analyses sur des bordereaux avec lesquels on produisait d'une part les bulletins signalétiques et d'autre part des notices dans un format international (norme ISO 2709). Il était alors possible de faire des reformatages pour alimenter des moteurs de recherche, et notamment Mistral.
Dans les années 75, la base Pascal était consultable sur le réseau Cyclades (qui préfigurait Internet).
Malheureusement, avec l'arrêt du plan calcul, puis de la gamme IRIS 80, le programme Mistral a été abandonné. Une partie de l'équipe a rejoint la société Télésystèmes (actuellement Questel) pour y développer un serveur. Le CDST, comme de multiples acteurs de l'IST sont devenus totalement dépendants de ce type d'opérateurs. Ce problème est maintenant totalement résolu avec une solution telle que MediaWiki[2]
Avec l'Agence de l'informatique, une ingénierie documentaire et éditoriale sous Unix,
Dans les années 1975, l'Iria, ancêtre de l'Inria, s'appuyait sur deux structures : le Laboria (qui deviendra l'Inria en 1979) et le Sesori (Service de synthèse et d'orientation de la recherche en informatique). Le Sesori était notamment chargé de gérer des projets pilotes au niveau national. En 1979, le Sesori a rejoint l'Agence de l'informatique (ADI) en cours de création, et notamment son département de soutien à la recherche.
J'ai été impliqué dans le groupe de travail ANL (Atelier national du logiciel) créé pour valoriser les logiciels issus de la recherche publique en génie logiciel et intelligence artificielle afin de favoriser leur transfert vers l'industrie. Le groupe de travail ANL avait pour mission initiale de constituer, sur une année, un inventaire des logiciels transférables par des visites approfondies dans les laboratoires. En 1980, l'ADI a organisé une manifestation « recherche - industrie » de 2 jours où les logiciels qui paraissaient les plus avancés ont fait l'objet de démonstrations. Suite au succès de cette opération (et en s'inspirant d'initiatives américaines) il a été décidé de pérenniser ce type d'actions dans un groupement scientifique [3] renommé Association nationale du logiciel dont j'ai pris la direction. Nous organisions une dizaine d'expositions (associées à des colloques) par an, en France et à l'étranger), avec un catalogue imprimé spécifique pour chaque exposition.
Nous avons rapidement été associé au projet SM 90 qui visait à créer une filière française de stations et machines Unix. Nous avons construit un ensemble éditorial à partir de nos inventaires. Il était basé sur une arborescence Unix avec des logiciels utilisés en compilation (analyseurs lexicaux). Nous gérions également un serveur Minitel. Nous avons monté un ensemble de démonstrations, souvent basés sur nos collections, pour les logiciels qui devaient alimenter la SM 90. Nous avons également commencé à diversifier nos services avec par exemple un catalogue pour les logiciels de chimie, sur les systèmes experts ou les applications documentaires.
Et puis en 1986, Alain Madelin, nommé Ministre de l'Industrie, des Postes et télécommunications et du Tourisme, décide de faire un exemple en supprimant brutalement l'Agence de l'informatique (et, par le fait, les actions engagées).
Le CNRS m'a alors conseillé de me rapprocher de l'INIST en cours de constitution.
L'INIST, XML pour l'analyse de corpus numériques
J'ai donc cherché à établir une coopération entre l'ANL et l'INIST. J'ai donc rencontré les porteurs du projet : Pierre Creyssel[4], Goéry Delacôte[5] et Nathalie Dusoulier[6]. Ils m'ont alors proposé de rejoindre l'INIST :
- d'abord comme directeur informatique pour créer le service, informatiser la bibliothèque, développer la fourniture numérique de documents
- puis comme directeur d'un département de recherche et développement pour la production et l'exploitation des bases Pascal et Francis (en m'appuyant notamment sur l'expérience éditoriale de l'ANL).
Aspects techniques (et institutionnels) pour Pascal
J'ai également été nommé directeur informatique du CDST (pour assurer sa migration). J'ai découvert une situation totalement bloquée :
- En amont, le traitement des analyses sur bordereaux papiers était totalement sous-traité à la Société Jouve SA qui imprimait les bulletins signalétiques et fournissait à l'INIST des notices en format ISO 2709.
- En aval, nous avons signalé plus haut la totale dépendance avec la société Questel.
- Le service Informatique assurait simplement l'exploitation d'une chaine de reformatage élaborée dans les années 1970, et quelques prestations internes avec des programmes ayant été écrits à la même époque.
Concernant l'INIST, un schéma directeur avait été élaboré (avant la nomination de Nathalie Dusoulier) par des acteurs compétents pour des organisations telles que la direction administrative du CNRS mais visiblement, de mon point de vue, peu expérimentés en bibliothéconomie. Ce schéma préconisait un système intégré sur un SGBD relationnel[7] avec une construction en deux temps :
- informatisation de la bibliothèque (17.000 abonnements) et fourniture de photocopies (FDP) et si possible extraction d'un serveur d'archivage numérique.
- création et exploitation des bases Pascal et Francis.
Ce choix était pertinent pour la FDP qui présentait des aspects transactionnels (gestion des factures).
Il n'était par adapté à la bibliothèque compte tenu de la complexité des descriptions bibliographiques provenant de multiples sources et un système spécifique a été acquis.
Il était encore moins adapté aux bases Pascal et Francis en raison de la multidisciplinarité des domaines scientifiques et de l'existence d'un vaste réseau de coopérations. Les organismes coopérants avaient des préoccupations voisines de celles de l'INIST mais pas forcément identiques. Il n'était pas possible non plus d'implanter des algorithmes de type classification statistique.
Nous avons donc décidé de conserver provisoirement les chaines du CDST pour travailler à moyen terme sur un réseau de machines unix avec des mécanismes d'indexation assistée.
Les boites à outils XML pour l'analyse de corpus bibliographiques
Grâce au « réseau ANL » nous avons « découvert » la norme SGML qui apportait le très haut niveau interopérabilité dont nous avions besoin. Nous avons donc commencé à construire iLib (information Library), une boîte à outils SGML pour la construction de systèmes de recherche et d'analyse de corpus bibliographiques. Nous avons eu rapidement des résultats significatifs dans l'exploitation statistique de corpus Pascal ou Francis.
Et en 1992, nouveau coup de tonnerre ! Goéry Delacôte quitte le CNRS pour rejoindre l'Exploratorium de San Francisco. Et malheureusement le marché de la fourniture de documents n'était pas au rendez-vous pour assurer l'équilibre financier de l'INIST. [8] La direction du CNRS a alors engagé un plan de restructuration en visant un groupe industriel. Les cadres, issus du service public ont été destitué au profit de cadres venus de l'industrie.
Le département que je dirigeais a été supprimé[9]. J'ai alors rejoint le Loria. L'INIST m'a alors « interdit d'utiliser Ilib ». Paradoxalement cela a été une très bonne chose ! En effet, iLib était une première maquette basée sur l'analyse lexicale de flux de documents ISO 2709 codés en SGML. J'ai alors décidé un construire ex nihilo une nouvelle version avec une philosophie très proche de la future spécification DOM du futur modèle XML.
Sur ce premier résultat j'ai dirigé, pour le Loria, une action « Autoroutes de l'information » et j'ai été impliqué dans des projets européens pour le consortium ERCIM sur les Digital Libraries. Puis nous avons été impliqués dans la normalisation Dublin Core.
Nous avons notamment monté un programme nommé MedExplore pour l'analyse des aspects psycho-cognitifs mis en œuvre pour l'analyse de grandes masses de données bibliographiques.
La direction des produits et services de l'INIST
Enfin, j'ai été rappelé en 2000 par Alain Chanudet comme directeur des produits et services de l'INIST (dont la production des bases Pascal et Francis).
Programme de formation mutation technologique
Mission Bernard Pau
Un nouveau projet pour Pascal
Artist, Ametist, Wikipédia
Suite à la fin de ma direction des produits et services, j'ai proposé de m'engager dans une mission de prospective.
expériences de rédaction collective
BioDiversa => dapart de la cellule pour rejoindre la DRRT Lorraine
Le projet Wicri, dopé par ISTEX
Cette section détaille une aventure démarrée il y a bientôt 20 ans.
J'avais rejoint la DRRT Lorraine comme chargé de mission « autour du numérique pour la valorisation des recherches de la future Université de Lorraine.
La mission Ticri
Lors d'une conférence, Jean-Pierre Finance avait évoqué l'action NUTICE (Nancy Université TICE) comme un des projets fondateurs de Nancy Université. Cette action concernait essentiellement l'appropriation des TICE par les enseignants des universités nancéienne. En visant la recherche pour la future Université de Lorraine, nous avons porté une « Mission TICRI » les TIC pour la Recherche et pour l'Innovation.
Le projet LorExplor
Les rééditions hypertextes
La musique
Le COVID
La Chanson de Roland
Buffon
l'ALS
Notes
- ↑ https://shs.cairn.info/revue-documentaliste-sciences-de-l-information-2005-2-page-132?lang=fr
- ↑ Citons également, pour des actions spécialisées des solutions comme Omeka ou Elastic Search.
- ↑ (avec le CNRS, l'INRIA, l'ADI, le Ministère de la Recherche et le CNET)
- ↑ Directeur administratif du CNRS
- ↑ Directeur de l'Information scientifique et technique (DIST)
- ↑ Directeur général de l'INIST sous l'autorité de la DIST
- ↑ Et si possible sur un mainframe IBM par continuité avec le centre de calcul du CNRS
- ↑ Le CDST, avec une chaine manuelle fournissait 300.000 commandes par an. L'application pouvait gérer techniquement deux millions de commandes par an mais le marché de 1992 était de 700.000 au lieu du 1.500.000 attendu...
- ↑ à la demande du nouveau directeur informatique