Ingénierie des systèmes d'information (2019) Ducloy

De Wicri Nancy
Révision datée du 3 janvier 2020 à 23:20 par imported>Jacques Ducloy (De la création de l’Inist à l’aventure XML)

Systèmes d’information encyclopédiques édités par les scientifiques

Partager le savoir pour l’excellence documentaire et scientifique


 
 

Titre
Systèmes d’information encyclopédiques édités par les scientifiques : Partager le savoir pour l’excellence documentaire et scientifique
Auteur
Jacques Ducloy
Affiliations
Université de Lorraine, Université Paris 8 (Paragraphe), retraité du CNRS (LORIA, Inist)
Dates

Cet article présente la démarche dans laquelle s'inscrit l'activité scientifique et éditoriale à l'origine de la création ce ce wiki.

La musique jouant un rôle pilote dans le projet Wicri, cet article doit être réédité dans sa totalité sur ce wiki.

Résumé
Nous présentons une bibliothèque numérique structurée par une infrastructure encyclopédique. Des chercheurs, peuvent y exercer de façon collaborative, un large spectre de pratiques numériques, comme des explorations de corpus d’articles en texte intégral. Les textes, les données et les terminologies peuvent être mutualisées pour constituer de grands services de partage de connaissances (bases bibliographiques, dictionnaires, encyclopédies). Elle est réalisée avec un réseau de wikis sémantiques complété par une ingénierie XML. La conception de ce démonstrateur s’appuie sur une analyse de situations rencontrées à l’Inist.
Mots-clés
Musicologie, bibliothèque numérique, exploration de corpus, changement de paradigme, édition diplomatique.

Introduction

Retour d’expériences sur des grands projets d’information scientifique

Avant-propos concernant cette section

Il y a 50 ans, j’ai troqué ma règle à calcul contre des cartes perforées pour calculer des fonctions de transfert en électrotechnique. J’ai alors eu la chance de rejoindre l’équipe des pionniers de l’informatique à Nancy et de faire un bout de chemin avec les acteurs du Trésor de la Langue Française. Il y a 30 ans, j’ai rejoint un autre groupe de chevaliers partis à la quête d’un Graal : un pôle mondial pour le partage du savoir grâce à la maîtrise de l’Information scientifique et technique. Ce n’est plus tout à fait la vision officielle de l’Inist, mais, quelque part, c’était la nôtre…

Cette section est le témoignage d’un ingénieur qui a voulu s’appuyer sur les résultats de la recherche et s’est trouvé confronté à une réalité souvent déroutante. J’utiliserai le pronom « je » pour marquer des situations qui exigeaient une implication individuelle. Concernant l’état de l’art, j’ai bien entendu parcouru de multiples publications qui ont planté le décor. Mais les éléments fondamentaux qui ont guidé mes décisions viennent de rencontres et d’expérimentations. La bibliographie sera ici utilisée pour associer ceux qui ont participé à cette aventure, et pour montrer la légitimité scientifique de nos choix technologiques.

Les débuts de l’informatique pour les données de la recherche à Nancy

L’informatique à Nancy démarre avec le mathématicien Jean Legras qui explore, dès 1954, les retombées de l’analyse numérique pour les ingénieurs. Il encourage la création des bibliothèques de fonctions pour les aider à s’approprier cette technologie naissante[1] . Il fonde ce qui deviendra l’Institut Universitaire de Calcul Automatique (IUCA) dans les années 1970, en s’appuyant sur une coopération avec le Centre de Recherche pour un Trésor de la Langue Française (CRTLF) du CNRS. Grâce à ce partenariat, l’IUCA acquiert, dès 1974, des compétences opérationnelles sur les moteurs de recherche, et par exemple Mistral, développé par la CII, une référence historique du savoir-faire français dans l’information numérique.

En 1963, un autre mathématicien, Claude Pair, bâtit les fondations d’une informatique plus théorique qui donnera naissance au Crin puis au Loria. Il lance des travaux autour des langages de programmation (Algol 68), des structures formelles ou des techniques de compilation. Cet ensemble s’avèrera particulièrement signifiant pour les débouchés autour des documents structurés et l’ingénierie XML[2] .

En 1980, la création d’un Groupement Scientifique ayant pour sigle ANL a joué un rôle essentiel pour nos orientations. L’Agence de l’Informatique (ADI), le CNRS, le Ministère en charge de la recherche, l’Inria et le CNET[3] voulaient créer un Atelier National du Logiciel pour transférer les logiciels issus des laboratoires vers l’industrie. Une étude a été lancée pour identifier les candidats et rédiger un catalogue basé sur des visites de laboratoire et sur des démonstrations. À la fin de l’étude, l’ADI a organisé 2 jours de séminaires et démonstrations où une cinquantaine d’équipes ont rencontré une centaine d’industriels. Ceux-ci ont été très sceptiques sur les missions d’un tel « Atelier », en gros : « Nous savons industrialiser des logiciels, vous ne savez pas dans quoi vous vous lancez ! ». En même temps, ils ont enchaîné : « Mais, nous avons besoin de l’étude que vous venez de faire. Et ça, nous ne savons pas le faire ! ». L’ANL est donc devenue une « Association Nationale du Logiciel » qui partageait le savoir par des tests de logiciels, des catalogues, un serveur, et des expositions. Grâce au soutien logistique et politique (Jean-Claude Rault, Robert Mahl) de l’ADI, nous avons pu monter des expositions internationales et notamment aux USA[4].

L’ANL publiait des catalogues et générait des serveurs (Mistral puis Texto), à partir de métadonnées. Impliqués dans la filière française de stations Unix (SM90), nous avons expérimenté des outils d’intelligence artificielle (Lisp, Prolog) sur nos données. Nous avons aussi mené des études comparatives. En effet, le modèle SGBD[5] relationnel nous paraissait plus séduisant que des traitements de fichiers dans des hiérarchies Unix, que nous vivions un peu comme du bricolage. Mais nos essais comparatifs donnaient toujours un avantage aux traitements basés en fait sur une modularité par flux de données. Cet avantage sera déterminant avec XML.

La suppression de l’ADI a déséquilibré l’équilibre financier de l’ANL. Une bonne partie de l’équipe a alors saisi l’opportunité de rejoindre l’Inist.

Des bulletins analytiques du CNRS à ISTEX en passant par Pascal et Francis

Une mission du CNRS, nous l’avons évoquée, est le partage des connaissances [6] :

« Le CNRS donne accès aux travaux et aux données de la recherche car ils font partie d’un patrimoine commun. Ce partage du savoir vise différents publics : communauté scientifique, médias, grand public. »

Dès sa naissance, en 1939, le CNRS a donc créé un centre de documentation, afin de communiquer avec les partenaires de la recherche sur l'essentiel[7] des résultats obtenus au niveau international. Jean Wyart en a rapidement pris la direction en 1941. Il a été rejoint par Nathalie Dusoulier en 61. Elle dirigera les bases de données en 1967, avant de prendre la tête des bibliothèques de l’ONU (Genève puis New-York) en 1978, pour enfin de revenir en France et créer l’Inist en 88.

Des bulletins analytiques aux bases du CDST et du CDSH

En 1940, paraît le premier bulletin analytique. Il était réalisé par des ingénieurs qui résumaient des articles et les indexaient. Une anecdote illustre le caractère réellement éditorial de ces bulletins. Quand nous soumettions une note ou un rapport à Nathalie Dusoulier, nous avions régulièrement ce type de remarque : « Votre deuxième paragraphe est le double du premier alors qu’il est dix fois moins important. Revenez donc avec un texte dans lequel la taille de vos paragraphes sera proportionnelle à l’importance de vos arguments ! ». Appliquée aux bulletins, cette pratique permettait au lecteur de repérer « l’essentiel » par un simple feuilletage. Autrement dit, comme le montre l’évolution de Gallica (Laborderie 2015) : un flux RSS, ou une base de données, ne remplace pas un travail éditorial !

La création des bases Pascal et Francis en 1971 est une préfiguration des applications de type big data au CNRS. Comme le confirment des témoignages (Burh 1977), les caractéristiques techniques étaient remarquables. La production atteignait déjà 500.000 références par an. Les notices numériques étaient générées dans un format normalisé ISO 2709 (voir plus bas) à partir des fichiers de photocomposition. En 1977 Pascal était déjà accessible sur 3 sites, via le réseau Cyclades, avec le progiciel Recon sur IBM 360 et avec Mistral sous Iris 80. Cette aventure se poursuivra avec la création de Télésystèmes qui deviendra Questel.

Ce succès initial fut suivi de difficultés qui ont joué sur les motivations du transfert à Nancy. Lors de ma nomination comme directeur informatique à l’Inist, et, en même temps au CDST et au CDSH[8], j’avais notamment constaté un blocage décisionnel très important. En effet, les fonctions qui me semblaient vitales pour la conception des services étaient complètement externalisées chez des sous-traitants.

Les deux centres avaient chacun un profil de fonctionnement assez différent. Le CDST, grâce à ses formats normalisés, pouvait nouer de multiples coopérations, basées sur des achats/ventes de notices, avec d’autres centres ayant la même technologie. Mais il était organisé autour d’une chaîne de production, qui reposait sur des sous-traitances externes ; ce qui paralysait l’unité. En revanche, le CDSH était organisé avec un système « plus rustique » mais qui offrait des possibilités de coopérations avec un réseau de laboratoires (principalement français). Ce modèle inspirera la conception en réseau du projet Wicri.

ISO 2709, un socle normatif pour les bibliothèques de la recherche

Nous avons cité la norme ISO 2709 (ou MARC, acronyme de MAchine-Readable Cataloging). Elle désigne une norme générique qui jouera un rôle très important dans nos choix technologiques. Elle décrit les données bibliothéconomiques sous la forme de zones, repérés par des codes, et de sous-zones. Chaque format d’application peut définir sa nomenclature propre. Par exemple la zone 210 dans le Common Communication Format (CCF) de l’UNESCO correspond à un titre parallèle, exemple[9] :

210 0 1 @aLegislatives studies@leng

Ce même code correspond au lieu de publication dans Unimarc (utilisé à la BnF).

210 ## $aBerlin$aHeidelberg$aNew York$cSpringer$d2004

Les formats MARC sont encore très largement utilisés dans le monde des bibliothèques (et de l’IST), grâce à une adaptation à la norme XML (XmlMarc et MARC 21). À la création de la base Pascal, le format UNISIST sous ISO 2709 a été choisi. Le CSDT utilisait également le format LCMARC, basé aussi sur ISO 2709, pour gérer sa bibliothèque.

Nathalie Dusoulier avait piloté la numérisation des bulletins signalétiques dans Pascal. Elle a ensuite informatisé le réseau des bibliothèques de l’ONU, en utilisant Unimarc. Elle dirigeait enfin un groupe de travail international de l’Unesco sur le CCF, dédié cette fois à la documentation. L’Inist disposait donc, à son démarrage, d’un socle solide pour des coopérations internationales, mais relativement complexe à maîtriser. En effet, l’installation exhaustive d’une norme MARC dans un SGBD s’avère très lourde. De plus, son implémentation définie dans les années 70 (à base de pointeurs) demandait un bon savoir-faire en codification et en algorithmique.

De la création de l’Inist à l’aventure XML

L’Inist a été créée sur Nancy en 1988 sous la direction de Goéry Delacôte, à la DIST du CNRS, et de Nathalie Dusoulier à la tête de l’institut.

Goéry Delacôte m’avait donné comme objectif de transférer la maîtrise de la chaîne de production, de la sous-traitance vers l’Inist. De même, il m’avait demandé d’intégrer une alimentation des bases par des coopérations avec les laboratoires (à la façon du CDSH). Enfin, il était tout à fait partisan de reprendre, au moins en partie, et d’améliorer les services en ligne, qui étaient également assurés en sous-traitance.

Nous disposions d’un schéma directeur qui planifiait les actions informatiques en 2 grandes étapes. Pendant 2 à 3 ans, il préconisait l’informatisation de la bibliothèque et la création d’une application fourniture de documents (FDP) intégrant un serveur d’archivage numérique. La refonte de la production des bases de données était envisagée dans un deuxième temps, en s’appuyant sur cette première infrastructure.

Sur un plan technique, le schéma directeur recommandait « un système totalement intégré par un SGBD, et si possible sur un mainframe IBM[10]». À mon arrivée, l’ordinateur avait été commandé et une première équipe avait été recrutée. Elle était composée d’ingénieurs très compétents, qui avaient fait leurs preuves dans des applications de gestion, mais pas encore dans la bibliothéconomie. La mise en place du schéma directeur a tout de suite révélé des dissensions au sein de l’institut. Le problème s’est posé dès le départ avec l’informatisation de la bibliothèque.

J’avais une expertise en documentation (et sur les gros systèmes informatiques pour scientifiques). Mais je ne connaissais rien à la bibliothéconomie ! J’ai bénéficié d’une formation accélérée en travaillant sur le dossier FDP avec Nathalie Dusoulier, et avec mes collègues de la bibliothèque sous la direction de Caroline Wiegandt.

S’appuyant sur son expérience à l’ONU, Nathalie Dusoulier n’était pas convaincue par l’intégration de la bibliothèque dans un ensemble intégré. Elle nous a demandé de travailler sur une alternative avec un système dédié, communiquant avec la FDP par un transfert de fichiers normalisés (Unimarc). De son côté, l’équipe de développement informatique souhaitait naturellement un système totalement intégré, intégrant donc la bibliothèque. Pour ma part, je n’avais pas d’avis a priori concernant la bibliothèque. En revanche, j’étais plutôt favorable à une constitution des bases de données par un réseau de machines départementales sous Unix. En fait, j’ai très rapidement rejoint la position de Nathalie Dusoulier, d’abord, en analysant la structure des formats Unimarc, et par des visites de quelques bibliothèques déjà automatisées.

Un appel d’offre a donc permis d’acquérir un système Geac d’origine canadienne[11]. L’informatisation de la bibliothèque de l’Inist a été vécue comme un succès total, en parallèle avec l’installation de la FDP et de son serveur d’archivage, sous la direction informatique finale de Francis André.

En effet, il me paraissait urgent, pour traiter les données bibliothéconomiques de la recherche, de maîtriser la manipulation des notices de métadonnées codées en ISO 2709. Goéry Delacôte avait prévu de doter l’Inist d’une structure de recherche et développement, le DRPN[12]. J’avais donc demandé de quitter la direction informatique pour prendre celle du DRPN. J’espérais ainsi, à court terme, résoudre la maîtrise de ces métadonnées complexes, puis passer ensuite à l’indexation assistée.

Au-delà de l’inadéquation d’un modèle relationnel pour gérer l’aspect générique des fichiers MARC, trois problèmes très concrets m’avaient alerté. Tous les services d’extractions sur les bases Pascal utilisaient un logiciel nommé VIRA, développé dans les années 70 sur IBM 360, et que personne ne maîtrisait. Des statistiques simples demandées par les ingénieurs documentalistes demandaient en moyenne 3 jours par demande (en effet, la technique consistait à trouver un programme correspondant à un cas voisin, le recopier et le modifier…). Enfin, personne, ni dans l’équipe SGDB interne, ni chez le sous-traitant n’avait su résoudre, dans un temps raisonnable, la connexion entre la bibliothèque et la FDP (j’ai dû intervenir directement, en une semaine, pour éviter 3 à 6 mois de retard).

Une rencontre avait précipité les évènements. J’avais commencé à étudier des formalismes de type LISP pour remplacer la souche ISO 2709. Mais je n’étais pas très satisfait de mes maquettes qui, cela dit, préfiguraient JSON ! Et puis, mon successeur à l’ANL, Jacques Guidon, m’a mis en contact avec François Chahuneau qui était responsable de l’innovation chez Berger-Levrault. En quelques dizaines de minutes, j’ai été convaincu qu’une ingénierie basée sur SGML était la solution prometteuse.

Pour les lecteurs non familiers avec le formalisme XML, la norme SGML permet de manipuler des arbres de profondeur quelconque, et donc des formats MARC. Par exemple la zone 210 d’une notice CCF citée plus haut peut être codée ainsi :

<f210 i1="1" i2="0"><sa>Legislatives studies</sa><sl>eng</sl></f210><
...

La réforme Eisenmann

...

L’action autoroutes de l’information au Loria

...

L’arrêt des bases Pascal et Francis

...

Un rebond potentiel avec ISTEX

Du Trésor de la Langue Française à l’ATILF

...

Notes et remerciements

Cette section introduit les notes de l'article lors de sa soumission.

  1. Signalons la bibliothèque Cartolab, de Jean-Laurent Mallet, qui sera la base du consortium GOCAD sur le traitement de données géologiques
    < http://www.ring-team.org/ >
  2. Voir la thèse de Jean-Claude Derniame, en 1966 : Étude d'algorithmes pour les problèmes de cheminement dans les graphes finis. Un document XML est précisément un graphe fini.
  3. Centre national d'études des télécommunications, devenu Orange Labs en 2007.
  4. Par exemple en 1984 à Orlando dans le cadre d’une conférence software engineering de l’IEEE, où nous avions 5 stands partagés chacun par un industriel et un laboratoire.
  5. Système de Gestion de Bases de Données.
  6. < http://www.cnrs.fr/fr/missions >
  7. Pierre Auger avait repris les ambitions des listes de grandeurs physiques : Nous relevions l'essentiel de ce qui se faisait dans toutes les langues intéressantes à l'époque. Cité par Jean Astruc dans : le CNRS et l’information scientifique et technique en France (Solaris 1997)
  8. Le CDST et le CDSH étaient les 2 centres de documentations du CNRS en 1988, respectivement pour les sciences et techniques et pour les sciences humaines.
  9. Les conventions de présentation sont différentes suivant les formats. Dans le CCF @l désigne la sous-zone « l » pour langue, et dans Unimarc on utilise $d pour désigner la sous-zone date.
  10. Bien entendu, ce n’était pas formulé dans ces termes, mais presque ! En effet, mon premier travail en arrivant comme directeur a été de sauver le dossier d’acquisition d’une configuration IBM bloquée par une commission de contrôle des marchés (CSMI).
  11. Cette normalisation a permis son remplacement sans problème dix ans plus tard.
  12. Département Recherche et Produits Nouveaux

Bibliographie

[Buhr 1977] Buhr J. et Degen. C.,  (1977) PASCAL: Une base de données multidisciplinaire son utilisation en physique atomique et moléculaire et physique des fluides et des plasmas. Journal de Physique Colloques, 1977, 38 (C3), pp.C3-249-C3-251. https://hal.archives-ouvertes.fr/jpa-00217115

[Laborderie 2015] Arnaud LaborderieÉditorialisation des bibliothèques numériques : le cas des Essentiels de Gallica, In: CIDE 2015, Montpellier


Voir aussi

Notes de la rédaction
  1. Cette date correspond en fait à la date initialement prévue pour l'édition de l'article.
Dans le réseau Wicri :

La page de référence « Ingénierie des systèmes d'information (2019) Ducloy » est sur le wiki Wicri/Science ouverte.

Cet article est également réédité sur le wiki :


Systèmes d’information encyclopédiques édités par les scientifiques : Partager le savoir pour l’excellence documentaire et scientifique +