Ingénierie des systèmes d'information (2019) Ducloy
Systèmes d’information encyclopédiques édités par les scientifiques
Partager le savoir pour l’excellence documentaire et scientifique
|
Cet article présente la démarche dans laquelle s'inscrit l'activité scientifique et éditoriale à l'origine de la création du réseau Wicri.
Nous reproduisons ici la première partie qui situe cette réflexion dans l'histoire de l'Information scientifique et technique en France.
- Résumé[NDLR 2]
- Nous présentons une bibliothèque numérique structurée par une infrastructure encyclopédique. Des chercheurs, peuvent y exercer de façon collaborative, un large spectre de pratiques numériques, comme des explorations de corpus d’articles en texte intégral. Les textes, les données et les terminologies peuvent être mutualisées pour constituer de grands services de partage de connaissances (bases bibliographiques, dictionnaires, encyclopédies). Elle est réalisée avec un réseau de wikis sémantiques complété par une ingénierie XML. La conception de ce démonstrateur s’appuie sur une analyse de situations rencontrées à l’Inist.
- Mots-clés[NDLR 2]
- Musicologie, bibliothèque numérique, exploration de corpus, changement de paradigme, édition diplomatique.
Sommaire
- 1 Introduction
- 2 Retour d’expériences sur des grands projets d’information scientifique
- 2.1 Les débuts de l’informatique pour les données de la recherche à Nancy
- 2.2 Des bulletins analytiques du CNRS à ISTEX en passant par Pascal et Francis
- 2.2.1 Des bulletins analytiques aux bases du CDST et du CDSH
- 2.2.2 ISO 2709, un socle normatif pour les bibliothèques de la recherche
- 2.2.3 De la création de l’Inist à l’aventure XML
- 2.2.4 La réforme Eisenmann
- 2.2.5 L’action autoroutes de l’information au Loria
- 2.2.6 L’arrêt des bases Pascal et Francis
- 2.2.7 Un rebond potentiel avec ISTEX
- 2.3 Du Trésor de la Langue Française à l’ATILF
- 3 Changements de paradigmes dans la connaissance numérique
- 4 Wicri...
- 5 Conclusion
- 6 Notes et remerciements
- 7 Bibliographie
- 8 Voir aussi
Introduction
Dans les années 1970, avec Pascal, Francis ou le Trésor de la langue française, la recherche française a été pionnière à l’échelle internationale sur les grands systèmes d’information scientifique. Comment, en 2020, retrouver une telle ambition, en s’appuyant sur les outils et pratiques fédératives du XXIe siècle ?
Ces grands projets s’inscrivaient au sein d’une des missions fondamentales du CNRS : Le partage du savoir pour la communauté scientifique, les médias, et le grand public. Dans les années 2000, Wikipédia est venu bouleverser le paysage en remplissant une mission citoyenne de partage du savoir. Au moment où le monde académique, humaniste et politique, s’interroge sur l’explosion de la désinformation sur les réseaux sociaux, faut-t-il laisser le monopole de la connaissance mondiale à un système qui repose sur l’anonymat ?
Progressivement, la Wikimedia Foundation est devenue un acteur terminologique incontournable, notamment sur le Web sémantique, avec DbPedia et WikiData. Comment redonner aux chercheurs et praticiens la maîtrise de leurs ressources sémantiques avec des mécanismes de validation scientifique ?
Le projet ISTEX[1]vient précisément d’ouvrir un nouveau défi en offrant à tous les chercheurs la possibilité d’explorer et de traiter des dizaines de milliers de documents. Pour atteindre l’excellence documentaire pour tous (le slogan d’ISTEX) ils vont devoir se former massivement aux pratiques de fouilles de données (TDM[2]). Il y a 50 ans, les ingénieurs, les physiciens et les chimistes ont dû massivement troquer leurs règles à calcul contre des paquets de cartes perforées pour bénéficier de la puissance de l’informatique naissante. En 2020, ils vont devoir acquérir une expertise dans le traitement de corpus textuels, en relation avec leurs données numériques ou symboliques. Est-il possible de canaliser cette énergie pour construire de gigantesques systèmes d’information scientifique ?
Nous donnerons, dans un premier temps un retour d’expérience sur les grands projets d’information scientifique qui se sont développés à Nancy. Nous proposerons un éclairage sur les problèmes rencontrés avec les changements de paradigmes intervenus depuis l’irruption du numérique dans la connaissance. Pour y faire face, nous présenterons une expérimentation qui, partant d’une intention de partage de la connaissance, débouche sur un réseau cohérent de bibliothèques encyclopédiques. Nous conclurons par quelques pistes de réflexion pour l’avenir.
Retour d’expériences sur des grands projets d’information scientifique
- Avant-propos concernant cette section
Il y a 50 ans, j’ai troqué ma règle à calcul contre des cartes perforées pour calculer des fonctions de transfert en électrotechnique. J’ai alors eu la chance de rejoindre l’équipe des pionniers de l’informatique à Nancy et de faire un bout de chemin avec les acteurs du Trésor de la Langue Française. Il y a 30 ans, j’ai rejoint un autre groupe de chevaliers partis à la quête d’un Graal : un pôle mondial pour le partage du savoir grâce à la maîtrise de l’Information scientifique et technique. Ce n’est plus tout à fait la vision officielle de l’Inist, mais, quelque part, c’était la nôtre…
Cette section est le témoignage d’un ingénieur qui a voulu s’appuyer sur les résultats de la recherche et s’est trouvé confronté à une réalité souvent déroutante. J’utiliserai le pronom « je » pour marquer des situations qui exigeaient une implication individuelle. Concernant l’état de l’art, j’ai bien entendu parcouru de multiples publications qui ont planté le décor. Mais les éléments fondamentaux qui ont guidé mes décisions viennent de rencontres et d’expérimentations. La bibliographie sera ici utilisée pour associer ceux qui ont participé à cette aventure, et pour montrer la légitimité scientifique de nos choix technologiques.
Les débuts de l’informatique pour les données de la recherche à Nancy
L’informatique à Nancy démarre avec le mathématicien Jean Legras qui explore, dès 1954, les retombées de l’analyse numérique pour les ingénieurs. Il encourage la création des bibliothèques de fonctions pour les aider à s’approprier cette technologie naissante[3] . Il fonde ce qui deviendra l’Institut Universitaire de Calcul Automatique (IUCA) dans les années 1970, en s’appuyant sur une coopération avec le Centre de Recherche pour un Trésor de la Langue Française (CRTLF) du CNRS. Grâce à ce partenariat, l’IUCA acquiert, dès 1974, des compétences opérationnelles sur les moteurs de recherche, et par exemple Mistral, développé par la CII, une référence historique du savoir-faire français dans l’information numérique.
En 1963, un autre mathématicien, Claude Pair, bâtit les fondations d’une informatique plus théorique qui donnera naissance au Crin puis au Loria. Il lance des travaux autour des langages de programmation (Algol 68), des structures formelles ou des techniques de compilation. Cet ensemble s’avèrera particulièrement signifiant pour les débouchés autour des documents structurés et l’ingénierie XML[4] .
En 1980, la création d’un Groupement Scientifique ayant pour sigle ANL a joué un rôle essentiel pour nos orientations. L’Agence de l’Informatique (ADI), le CNRS, le Ministère en charge de la recherche, l’Inria et le CNET[5] voulaient créer un Atelier National du Logiciel pour transférer les logiciels issus des laboratoires vers l’industrie. Une étude a été lancée pour identifier les candidats et rédiger un catalogue basé sur des visites de laboratoire et sur des démonstrations. À la fin de l’étude, l’ADI a organisé 2 jours de séminaires et démonstrations où une cinquantaine d’équipes ont rencontré une centaine d’industriels. Ceux-ci ont été très sceptiques sur les missions d’un tel « Atelier », en gros : « Nous savons industrialiser des logiciels, vous ne savez pas dans quoi vous vous lancez ! ». En même temps, ils ont enchaîné : « Mais, nous avons besoin de l’étude que vous venez de faire. Et ça, nous ne savons pas le faire ! ». L’ANL est donc devenue une « Association Nationale du Logiciel » qui partageait le savoir par des tests de logiciels, des catalogues, un serveur, et des expositions. Grâce au soutien logistique et politique (Jean-Claude Rault, Robert Mahl) de l’ADI, nous avons pu monter des expositions internationales et notamment aux USA[6].
L’ANL publiait des catalogues et générait des serveurs (Mistral puis Texto), à partir de métadonnées. Impliqués dans la filière française de stations Unix (SM90), nous avons expérimenté des outils d’intelligence artificielle (Lisp, Prolog) sur nos données. Nous avons aussi mené des études comparatives. En effet, le modèle SGBD[7] relationnel nous paraissait plus séduisant que des traitements de fichiers dans des hiérarchies Unix, que nous vivions un peu comme du bricolage. Mais nos essais comparatifs donnaient toujours un avantage aux traitements basés en fait sur une modularité par flux de données. Cet avantage sera déterminant avec XML.
La suppression de l’ADI a déséquilibré l’équilibre financier de l’ANL. Une bonne partie de l’équipe a alors saisi l’opportunité de rejoindre l’Inist.
Des bulletins analytiques du CNRS à ISTEX en passant par Pascal et Francis
Une mission du CNRS, nous l’avons évoquée, est le partage des connaissances [8] :
- « Le CNRS donne accès aux travaux et aux données de la recherche car ils font partie d’un patrimoine commun. Ce partage du savoir vise différents publics : communauté scientifique, médias, grand public. »
Dès sa naissance, en 1939, le CNRS a donc créé un centre de documentation, afin de communiquer avec les partenaires de la recherche sur l'essentiel[9] des résultats obtenus au niveau international. Jean Wyart en a rapidement pris la direction en 1941. Il a été rejoint par Nathalie Dusoulier en 61. Elle dirigera les bases de données en 1967, avant de prendre la tête des bibliothèques de l’ONU (Genève puis New-York) en 1978, pour enfin de revenir en France et créer l’Inist en 88.
Des bulletins analytiques aux bases du CDST et du CDSH
En 1940, paraît le premier bulletin analytique. Il était réalisé par des ingénieurs qui résumaient des articles et les indexaient. Une anecdote illustre le caractère réellement éditorial de ces bulletins. Quand nous soumettions une note ou un rapport à Nathalie Dusoulier, nous avions régulièrement ce type de remarque : « Votre deuxième paragraphe est le double du premier alors qu’il est dix fois moins important. Revenez donc avec un texte dans lequel la taille de vos paragraphes sera proportionnelle à l’importance de vos arguments ! ». Appliquée aux bulletins, cette pratique permettait au lecteur de repérer « l’essentiel » par un simple feuilletage. Autrement dit, comme le montre l’évolution de Gallica (Laborderie 2015) : un flux RSS, ou une base de données, ne remplace pas un travail éditorial !
La création des bases Pascal et Francis en 1971 est une préfiguration des applications de type big data au CNRS. Comme le confirment des témoignages (Burh 1977), les caractéristiques techniques étaient remarquables. La production atteignait déjà 500.000 références par an. Les notices numériques étaient générées dans un format normalisé ISO 2709 (voir plus bas) à partir des fichiers de photocomposition. En 1977 Pascal était déjà accessible sur 3 sites, via le réseau Cyclades, avec le progiciel Recon sur IBM 360 et avec Mistral sous Iris 80. Cette aventure se poursuivra avec la création de Télésystèmes qui deviendra Questel.
Ce succès initial fut suivi de difficultés qui ont joué sur les motivations du transfert à Nancy. Lors de ma nomination comme directeur informatique à l’Inist, et, en même temps au CDST et au CDSH[10], j’avais notamment constaté un blocage décisionnel très important. En effet, les fonctions qui me semblaient vitales pour la conception des services étaient complètement externalisées chez des sous-traitants.
Les deux centres avaient chacun un profil de fonctionnement assez différent. Le CDST, grâce à ses formats normalisés, pouvait nouer de multiples coopérations, basées sur des achats/ventes de notices, avec d’autres centres ayant la même technologie. Mais il était organisé autour d’une chaîne de production, qui reposait sur des sous-traitances externes ; ce qui paralysait l’unité. En revanche, le CDSH était organisé avec un système « plus rustique » mais qui offrait des possibilités de coopérations avec un réseau de laboratoires (principalement français). Ce modèle inspirera la conception en réseau du projet Wicri.
ISO 2709, un socle normatif pour les bibliothèques de la recherche
Nous avons cité la norme ISO 2709 (ou MARC, acronyme de MAchine-Readable Cataloging). Elle désigne une norme générique qui jouera un rôle très important dans nos choix technologiques. Elle décrit les données bibliothéconomiques sous la forme de zones, repérés par des codes, et de sous-zones. Chaque format d’application peut définir sa nomenclature propre. Par exemple la zone 210 dans le Common Communication Format (CCF) de l’UNESCO correspond à un titre parallèle, exemple[11] :
210 0 1 @aLegislatives studies@leng
Ce même code correspond au lieu de publication dans Unimarc (utilisé à la BnF).
210 ## $aBerlin$aHeidelberg$aNew York$cSpringer$d2004
Les formats MARC sont encore très largement utilisés dans le monde des bibliothèques (et de l’IST), grâce à une adaptation à la norme XML (XmlMarc et MARC 21). À la création de la base Pascal, le format UNISIST sous ISO 2709 a été choisi. Le CSDT utilisait également le format LCMARC, basé aussi sur ISO 2709, pour gérer sa bibliothèque.
Nathalie Dusoulier avait piloté la numérisation des bulletins signalétiques dans Pascal. Elle a ensuite informatisé le réseau des bibliothèques de l’ONU, en utilisant Unimarc. Elle dirigeait enfin un groupe de travail international de l’Unesco sur le CCF, dédié cette fois à la documentation. L’Inist disposait donc, à son démarrage, d’un socle solide pour des coopérations internationales, mais relativement complexe à maîtriser. En effet, l’installation exhaustive d’une norme MARC dans un SGBD s’avère très lourde. De plus, son implémentation définie dans les années 70 (à base de pointeurs) demandait un bon savoir-faire en codification et en algorithmique.
De la création de l’Inist à l’aventure XML
L’Inist a été créée sur Nancy en 1988 sous la direction de Goéry Delacôte, à la DIST du CNRS, et de Nathalie Dusoulier à la tête de l’institut.
Goéry Delacôte m’avait donné comme objectif de transférer la maîtrise de la chaîne de production, de la sous-traitance vers l’Inist. De même, il m’avait demandé d’intégrer une alimentation des bases par des coopérations avec les laboratoires (à la façon du CDSH). Enfin, il était tout à fait partisan de reprendre, au moins en partie, et d’améliorer les services en ligne, qui étaient également assurés en sous-traitance.
Nous disposions d’un schéma directeur qui planifiait les actions informatiques en 2 grandes étapes. Pendant 2 à 3 ans, il préconisait l’informatisation de la bibliothèque et la création d’une application fourniture de documents (FDP) intégrant un serveur d’archivage numérique. La refonte de la production des bases de données était envisagée dans un deuxième temps, en s’appuyant sur cette première infrastructure.
Sur un plan technique, le schéma directeur recommandait « un système totalement intégré par un SGBD, et si possible sur un mainframe IBM[12]». À mon arrivée, l’ordinateur avait été commandé et une première équipe avait été recrutée. Elle était composée d’ingénieurs très compétents, qui avaient fait leurs preuves dans des applications de gestion, mais pas encore dans la bibliothéconomie. La mise en place du schéma directeur a tout de suite révélé des dissensions au sein de l’institut. Le problème s’est posé dès le départ avec l’informatisation de la bibliothèque.
J’avais une expertise en documentation (et sur les gros systèmes informatiques pour scientifiques). Mais je ne connaissais rien à la bibliothéconomie ! J’ai bénéficié d’une formation accélérée en travaillant sur le dossier FDP avec Nathalie Dusoulier, et avec mes collègues de la bibliothèque sous la direction de Caroline Wiegandt.
S’appuyant sur son expérience à l’ONU, Nathalie Dusoulier n’était pas convaincue par l’intégration de la bibliothèque dans un ensemble intégré. Elle nous a demandé de travailler sur une alternative avec un système dédié, communiquant avec la FDP par un transfert de fichiers normalisés (Unimarc). De son côté, l’équipe de développement informatique souhaitait naturellement un système totalement intégré, intégrant donc la bibliothèque. Pour ma part, je n’avais pas d’avis a priori concernant la bibliothèque. En revanche, j’étais plutôt favorable à une constitution des bases de données par un réseau de machines départementales sous Unix. En fait, j’ai très rapidement rejoint la position de Nathalie Dusoulier, d’abord, en analysant la structure des formats Unimarc, et par des visites de quelques bibliothèques déjà automatisées.
Un appel d’offre a donc permis d’acquérir un système Geac d’origine canadienne[13]. L’informatisation de la bibliothèque de l’Inist a été vécue comme un succès total, en parallèle avec l’installation de la FDP et de son serveur d’archivage, sous la direction informatique finale de Francis André.
En effet, il me paraissait urgent, pour traiter les données bibliothéconomiques de la recherche, de maîtriser la manipulation des notices de métadonnées codées en ISO 2709. Goéry Delacôte avait prévu de doter l’Inist d’une structure de recherche et développement, le DRPN[14]. J’avais donc demandé de quitter la direction informatique pour prendre celle du DRPN. J’espérais ainsi, à court terme, résoudre la maîtrise de ces métadonnées complexes, puis passer ensuite à l’indexation assistée.
Au-delà de l’inadéquation d’un modèle relationnel pour gérer l’aspect générique des fichiers MARC, trois problèmes très concrets m’avaient alerté. Tous les services d’extractions sur les bases Pascal utilisaient un logiciel nommé VIRA, développé dans les années 70 sur IBM 360, et que personne ne maîtrisait. Des statistiques simples demandées par les ingénieurs documentalistes demandaient en moyenne 3 jours par demande (en effet, la technique consistait à trouver un programme correspondant à un cas voisin, le recopier et le modifier…). Enfin, personne, ni dans l’équipe SGDB interne, ni chez le sous-traitant n’avait su résoudre, dans un temps raisonnable, la connexion entre la bibliothèque et la FDP (j’ai dû intervenir directement, en une semaine, pour éviter 3 à 6 mois de retard).
Une rencontre avait précipité les évènements. J’avais commencé à étudier des formalismes de type LISP pour remplacer la souche ISO 2709. Mais je n’étais pas très satisfait de mes maquettes qui, cela dit, préfiguraient JSON ! Et puis, mon successeur à l’ANL, Jacques Guidon, m’a mis en contact avec François Chahuneau qui était responsable de l’innovation chez Berger-Levrault. En quelques dizaines de minutes, j’ai été convaincu qu’une ingénierie basée sur SGML était la solution prometteuse.
Pour les lecteurs non familiers avec le formalisme XML, la norme SGML permet de manipuler des arbres de profondeur quelconque, et donc des formats MARC. Par exemple la zone 210 d’une notice CCF citée plus haut peut être codée ainsi :
<f210 i1="1" i2="0">
<sa>Legislatives studies</sa>
<sl>eng</sl>
</f210>
Au bout de quelques mois, nous disposions d’une plate-forme SGML (Ilib). Nous avons eu des retombées immédiates en termes de publications, au départ dans le monde du génie logiciel (Ducloy 1991). Nathalie Dusoulier a présenté notre approche à la communauté Unimarc/CCF[15] (Dusoulier 1991). Une équipe dirigée par Xavier Polanco s’appropriait Ilib pour des études infométriques. Avec Valérie Warth, nous avions réalisé un noyau de parser SGML avec une approche XML/DOM.
Nous pouvions passer aux bases de données où, sur des créneaux différents, nous faisions jeu égal avec la National Library of Medicine aux Etats-Unis. En 1996, Olivier Bodenreider, un chercheur d’une équipe d’informatique médicale de Nancy avait d’ailleurs rejoint Bethesda où il est maintenant Chief of the Cognitive Science Branch de la NLM[16]. À l’Inist, en 1991, une équipe, menée par Laurent Schmitt, avait déjà réalisé STID, un prototype de station de travail pour l’indexation (Schmitt 1992). L’Inist avait donc de bons atouts dans cette compétition.
Nous avons aussi travaillé avec les bibliothécaires de l’Inist pour les aider à analyser des résultats de reformatages LCMARC vers Unimarc. Il ne restait plus qu’à former les informaticiens pour que la direction Informatique puisse déjà récupérer 2 postes sur le traitement des demandes des ingénieurs documentalistes.
Et c’est là que les ennuis ont commencé !
Avant d’aborder une nouvelle étape, il faut signaler une situation tendue avec la direction de la production. Voici un exemple. Pour un membre de l’encadrement méritant, la récompense était « d’être chargé d’une mission de la prospective avec le CNRS, ou d’un marché avec un sous-traitant, ». Avec ses résultats potentiels, le DRPN, composé de jeunes recrues, venait perturber ce type de perspectives.
La réforme Eisenmann
En 1992, un changement important est intervenu dans la gouvernance de l’Inist avec le départ de Goéry Delacôte. La direction du CNRS a alors demandé à Etienne Eisenmann de faire des propositions « pour l’adaptation des produits, services et structures de l’Inist aux besoins du marché européen ». En effet, l’Inist s’était doté d’une filiale, Inist Diffusion, qui était chargée de la commercialisation des services.
Mais, en dépit de la réussite technique, le marché n’était pas au rendez-vous. Etienne Eisenmann a donc mis en place une profonde réforme pour créer un « Groupe Inist ».
Les priorités des services ont été inversées. La fourniture de documents, qui était un service d’accompagnement, est devenue l’axe prioritaire de l’Inist. Concernant la base Pascal, Etienne Eisenmann venait du secteur pharmaceutique et biomédical où les problèmes d’antériorité sont primordiaux pour les prises de brevets. La fraicheur de l’information, est devenue le « critère de qualité » prioritaire pour satisfaire ce marché, au détriment du partage de connaissance[17].
Une partie de l’équipe de direction, dont Nathalie Dusoulier, a été remplacée par des cadres venus du secteur privé, essentiellement recrutés sur leurs compétences en marketing ou en gestion de production. La plupart n’avaient pas d’expérience en bibliothéconomie, ni dans les métiers de l’édition, ni dans la recherche. L’externalisation des fonctions complexes vers la sous-traitance est redevenue la solution pour résoudre les problèmes techniques. La nouvelle direction informatique préconisait un système intégré et réprouvait toute activité informatique hors de son périmètre. Le fait d’avoir obtenu des résultats exploitables a en fait précipité le démantèlement du Département Recherche et Produits Nouveaux.
J’ai été nommé « chargé d’études prospectives ». Je disposais de quelques minutes par mois, lors du repas de l’encadrement, pour communiquer avec mes collègues. Pour ma première intervention, au moment du dessert, j’ai fait une démonstration en montrant trois documents récupérés « gratuitement » sur un serveur FTP. La sanction a été immédiate : mon accès internet a été coupé dans l’heure qui a suivi !
L’action autoroutes de l’information au Loria
Nathalie Dusoulier et Jean-Pierre Finance m’ont tiré de ce mauvais pas. Muté au Crin, j’ai pu créer une nouvelle plateforme (Dilib) qui sera évoquée plus loin. Grâce à l’expérience infométrique acquise au DRPN, j’ai pu monter en 1992-1993 un premier scénario de génération d’un site Web (préfigurant les serveurs d’exploration) à partir d’un corpus bibliographique. J’ai alors été soutenu par le Crin et l’Inria Lorraine (Patrick Rambert) pour monter une « action autoroutes de l’information ».
Grâce aux contacts noués au temps de l’ANL (par exemple Georges Nissen à l’Inria), je suis entré dans les programmes européens de l’ERCIM, et, par ce biais, au DCMI (Dublin Core Metadata Initiative). Les retombées ont été intéressantes pour le Loria et ses partenaires avec une appropriation de la technologie XML et de mécanismes d’exploration de corpus, à travers des projets comme MedExplore[18] ou Biban[19] . Au niveau national, j’ai tenté de promouvoir XML auprès de mes collègues de l’Inria dont la stratégie reposait alors sur les bases de données objet avec O2. En fait XML n’y est devenu populaire qu’à partir de 1995, avec la prise de direction dans le W3C. Au niveau européen, nous avons soumis deux projets Digital Libraries (Samos[20] et Imesis[21] ) qui étaient plutôt bien classés mais n’ont pas été retenus. Avec du recul, nous n’aurions pas eu les moyens de les assurer dans de bonnes conditions, faute d’un opérateur de R&D tel que ce qui avait été prévu avec le DRPN de l’Inist.
L’arrêt des bases Pascal et Francis
En 1999, le CNRS a mis fin à la réforme Eisenmann et chargé Alain Chanudet de réinsérer l’Inist au CNRS. En 2000, j’ai été rappelé à l’Inist pour diriger le département qui supervisait les services et la fabrication des bases Pascal et Francis.
La direction du CNRS avait préconisé une option « indexation automatique » en vue de réduire les effectifs. Elle avait déjà lancé une première vague de départs. Nous avons été confrontés à une situation où il fallait, en fait, plus de ressources humaines pour piloter des mécanismes d’indexation que pour assurer un traitement manuel. Nous avons fait passer l’idée d’une indexation assistée et lancé un plan de formation appelé mutation technologique. En effet, il nous paraissait important que les ingénieurs documentalistes soient mieux armés pour gérer des spécificités thématiques (pour programmer des heuristiques par exemple). J’espérais (naïvement ?) inverser la tendance sur les effectifs en cherchant une forme d’excellence dans les secteurs rescapés.
Malheureusement, une vague de réductions budgétaires a rendu la situation encore plus difficile. Deux ans après ma nomination, il n’était plus possible d’embaucher des vacataires ou d’acheter des notices venant d’autres bases. Les ingénieurs documentalistes ont dû alors doubler les cadences et ont très mal vécu le sentiment de faire un travail dont la qualité se dégradait en permanence.
Dans le cadre d’une mission CNRS présidée par Bernard Pau, nous avons élaboré un plan de réforme de Pascal et Francis. L’idée était de passer d’une production de 500.000 notices de qualité médiocre par an, à 50.000 mais avec une excellente qualité, (avec 50% de couverture française, et l’essentiel de l’international). Pour les services en ligne de grande volumétrie, nous aurions utilisé des techniques d’apprentissage. Mais, avec du recul, la situation était ingérable. En effet, avec l’arrêt du DRPN, aucune solution interne n’était disponible. Dans un climat devenu tendu à la fois sur le terrain et avec la direction du CNRS, la réforme a été abandonnée. Les bases Pascal et Francis ont continué leur déclin pour être arrêtées 10 ans plus tard.
Avec Francis André, nous avons alors monté une cellule prospective au sein de l’Inist, où, en coopération avec Sylvie Lainé-Cruzel, nous avons créé une activité éditoriale autour de l’appropriation des technologies de l’IST par les laboratoires. Nous avons commencé avec un blog scientifique ARTIST[22]. Sur cette base nous avons lancé la revue AMETIST (avec un comité de rédaction international). Mais le climat devenait de plus en plus difficile à l’Inist[23] et j’ai rejoint la DRRT Lorraine. La revue AMETIST a été retirée du Web peu après dans des circonstances rocambolesques[24].
Un rebond potentiel avec ISTEX
La réussite actuelle d’ISTEX mérite d’être mise en avant. Rappelons qu’ISTEX met à la disposition des chercheurs plusieurs dizaines de millions de documents scientifiques en texte intégral. Pour les aspects techniques, nous donnerons quelques éléments plus loin à propos de l’expérience LorExplor. Par rapport aux épisodes précédents, la mise en œuvre d’ISTEX est intéressante. En effet, elle a été réalisée intégralement par des ingénieurs du CNRS ou encadrés par eux. Cette rupture avec la culture interne de l’externalisation a été un succès technique incontestable. La plateforme centrale est opérationnelle. Elle donne à l’Inist un ensemble de ressources qui constituent un trésor, au sens de ce mot à la Renaissance. Si l’Inist avait disposé de ce corpus dans les années 2000, le redressement de Pascal avec l’option apprentissage aurait été nettement plus facile à gérer ! Comment la communauté scientifique française peut-elle maintenant s’approprier ce Trésor ? L’histoire du Trésor de la Langue française peut donner quelques enseignements.
Du Trésor de la Langue Française à l’ATILF
Le démarrage du Trésor de la Langue Française relève du roman d’anticipation[25]. Nous sommes en 1955. Les disques magnétiques ne sont pas encore inventés[26] . Des linguistes et des philologues (Bernard Quémada, Paul Ibms) utilisent des machines mécanographiques. En 1959, un projet de « mise en chantier d’un Trésor général de la langue française ou Dictionnaire historique général de la langue française » figure dans le rapport de conjoncture du CNRS. Fin 1960, le CRTLF est créé. En 1961, un des plus gros ordinateurs du monde, un Gamma 60, est commandé à la compagnie des machines Bull. Il arrivera à Nancy en 1963 avec 10 dérouleurs de bandes magnétiques, 2 lecteurs de ruban perforé, 3 imprimantes, mais sans disques magnétiques.
Au départ, il s’agit « simplement » de constituer « le Trésor ». En 1963, 22 opératrices-mécanographes commencent les opérations de saisie de textes à raison de 100.000 mots par jour. En 1970, une base initiale de 1000 textes dans lesquels chaque mot était étiqueté par sa catégorie grammaticale a été constituée.
En 1968, le projet de dictionnaire prend corps et des projets d’articles sont évalués. Puis la rédaction définitive démarre. Le premier tome, daté de 1971 est présenté au public en 1972. Le dernier tome sortira en 1994, à l’issue de longues pérégrinations. L’ensemble représente 16 volumes, 100.000 mots, 270.000 définitions, 430.000 exemples et 350 millions de caractères.
Les traitements informatiques ont été conçus dans les années 65, avec les bandes comme mémoire de masse[27] et les imprimantes pour l’interface homme machine. Pour chaque mot de faible fréquence, une liste de concordances suffisait au rédacteur. Pour les mots plus courants, des algorithmes basés sur des associations, les groupes binaires, ont été développés. Les chaînes de traitement étaient décomposées en étapes qui s’étalaient environ sur un mois, avec, en fin de phase des tris qui mobilisaient 6 à 8 dérouleurs pendant plusieurs heures. Ces contraintes historiques (pas de disque, peu de mémoire centrale au départ) ont favorisé un style de traitements basés sur une alternance de tris et de programmes relativement simples.
Curieusement, ces chaînes ont eu une forte influence sur Dilib. En effet, le CRTLF utilisait, à partir de 1972, le CII 10070 de l’IUCA où j’étais ingénieur. Nous avions été sensibilisés par la modularité imposée par la manipulation de corpus sur bande. Nous l’avons transposée sur Dilib avec d’excellentes performances en utilisant le mécanisme des « pipes » d’Unix et le tri standard (sort). Nous avons déjà cité Mistral qui avait été utilisé pour l’informatisation du BALF[28]. À titre anecdotique, nous avions aussi développé un « jeu du mot le plus long » avec environ 200.000 formes fléchies venant du TLF[29].
L’équipe informatique du CRTLF, rencontrait des problèmes assez voisins de ceux qui ont été cités à l’Inist à propos des formats MARC. Elle était constituée en majorité par des techniciens qui n’avaient pas reçu de formation approfondie en algorithmique. Ils étaient visiblement très compétents pour comprendre les problèmes lexicographiques et adapter les programmes qui constituaient les chaînes de traitement autour des tris. Mais les linguistes du CNRS n’avaient pas réalisé la complexité d’un univers de données où il fallait résoudre des parcours dans des graphes de taille considérable avec d’énormes contraintes techniques. Ce problème a été résolu dans les années 80 avec l’arrivée de Jacques Dendien. En 1986, le TLF disposait d’un moteur de recherche permettant de manipuler des éléments de grammaire sur la base FRANTEXT qui contient maintenant 5390 références soit 253 millions de mots. Dans la foulée, il a également développé une mise en ligne du dictionnaire (le TLFi), qui est maintenant en accès public depuis la direction de Jean-Marie Pierrel à l’ATILF.
Mais, comme Pascal, comme Francis, le dictionnaire TLF n’est plus maintenu.
Changements de paradigmes dans la connaissance numérique
Nous venons de décrire l’abandon de deux systèmes complexes d’exploitation de données de la recherche qui répondaient aux missions de transfert de savoir du CNRS et des universités. Ces réalisations ont mobilisé pendant des décennies des centaines d’ingénieurs avec un noyau conséquent de décideurs. Tous ces acteurs ont été recrutés en fonction de leurs compétences attestées dans d’autres circonstances. Avant de donner des pistes pour de nouvelles applications, nous proposons une réflexion sur les changements de paradigmes pour une analyse systémique de ces évènements.
Les quatre paradigmes de Jim Gray
Pour alerter les décideurs américains sur la révolution numérique, Jim Gray (Gray 2006) avait défini quatre paradigmes dans les pratiques de la recherche.
- Pendant des millénaires, les premiers érudits avaient une méthodologie empirique basée sur l'observation.
- Puis, depuis quelques siècles, avec Maxwell ou Newton, les scientifiques utilisent des modèles théoriques faisant appel aux abstractions et aux généralisations, afin d'établir des « lois universelles ».
- Depuis environ 1950, quelques décennies, ils utilisent des ordinateurs pour modéliser des phénomènes complexes. La programmation devient un outil de travail et d'expression du chercheur.
- Nous entrons maintenant dans une nouvelle étape où les chercheurs doivent maîtriser le déluge de données.
Les ingénieurs et physiciens face au troisième paradigme de Jim Gray
La façon avec laquelle les chercheurs ont géré ces mutations il y a cinquante ans donne des pistes pour analyser les problèmes rencontrés maintenant sur les données numériques. Par exemple, l’histoire de l’informatique à Nancy, révèle des conflits entre mathématiciens et pionniers de l’analyse numérique. En effet, en 1956, dans son livre sur la résolution des équations aux dérivés partielles, Jean Legras, écrivait :
- « L’ingénieur, le physicien se trouvent souvent devant les problèmes que les mathématiciens classiques n’ont pas pu résoudre. Il leur faut alors, ou renoncer à l’emploi de l’outil mathématique, ou utiliser des méthodes moins strictes, que réprouvent les mathématiciens, mais qui sont seules capables de les dépanner. »
Assumant pleinement cette réprobation, il ajoutait :
- « Il est alors indispensable que l’ingénieur, le physicien et tous ceux qui s’occupent de mathématiques appliquées, soient capables de se dégager du complexe inhibitif de rigueur que leur a imposé leur éducation, et qu’ils osent se lancer à l’aventure : la vérification expérimentale sera là pour leur crier casse-cou le cas échéant. »
Le document structuré face au paradigme relationnel
Par rapport aux grandes étapes tracées par Jim Gray, les pratiques documentaires ajoutent de nouveaux paradigmes « secondaires ». Concernant l’Inist, les conflits informatiques des années 1990 sont révélateurs d’un changement de paradigme mal identifié. Pour l’immense majorité des formateurs, des décideurs et des sociétés de service, le complexe inhibitif de rigueur était « un système de gestion de données intégré géré par un SGBD relationnel ». En effet, en 1990, ceux-ci offraient une approche globale avec des outils méthodologiques comme MERISE. Issues du monde de la compilation, les technologies du document structuré ont dû attendre 1996 et la généralisation d’XML pour obtenir le même niveau de complétude.
L’émergence d’une technologie de rupture implique alors des prises de décisions qui ne peuvent pas encore être aidées par un soutien méthodologique. Par exemple, dans l’informatisation de la bibliothèque de l’Inist, Nathalie Dusoulier, nous a amené à changer notre vision sans pouvoir faire une démonstration formelle. Ceux qui avaient vécu une expérience comme celle de l’ANL sont facilement arrivés à une « conviction commune » sur la séparation des applications. La suite nous a donné raison, et, nous aurions perdu au moins 3 ans avec un système intégré. Mais, nous avons pris cette décision sur une forte conviction ! Nous aurions été incapables de produire un argumentaire recevable par une commission de validation composée d’informaticiens des systèmes d’information du CNRS. De même une grande partie des personnels de l’Institut, notamment chez les informaticiens, ne partageaient pas notre point de vue. En revanche, Goéry Delacôte nous a fait confiance.
Autres ruptures liées à la nature du document et de la connaissance en 2020 En 2019, le succès rencontré par ISTEX avec une infrastructure « file system » sur le moteur de recherche Elasticsearch montre une évolution considérable dans la conception des services de recherche d’information. Mais de nouvelles technologies de rupture apparaissent.
Nous allons présenter une expérimentation basée sur une technologie du XXIème siècle, illustrée par MediaWiki. Elle introduit trois ruptures conséquentes. Le simple usage du wiki rompt déjà le principe de validation a priori, pour des mécanismes de modération a posteriori. Ensuite, le paramétrage de MediaWiki met l’algorithmique à la disposition de l’utilisateur. Il permet à chaque discipline scientifique de définir ses propres applications, mais il brise la séparation des rôles entre les informaticiens et les utilisateurs. Enfin, la généricité de MediaWiki permet aux acteurs de travailler ensemble mais en brisant les périmètres traditionnellement gérés par différents chefs de projets bien identifiés. De son côté, l’exploitation des corpus ISTEX à des fins de recherche (et pas seulement d’évaluation) montre le besoin d’appropriation de compétences TDM par les chercheurs eux-mêmes - ce qui n’est pas toujours bien perçu. Nous avons donc rencontré en 2015 le même type de difficultés que celles de 1991. Le projet LorExplor voulait analyser en profondeur les besoins des chercheurs dans les explorations de corpus. Initialement calibré pour une dizaine de permanents, et soutenu par ISTEX, son effectif en permanents s’est finalement réduit à un retraité.
Wicri...
Deux sections sont développées sur le wiki Wicri/SIC.
Conclusion
Dans une première partie nous avons évoqué l’impasse dans laquelle nous nous sommes trouvés en 2002, à l’Inist, pour faire face à une réduction considérable des moyens affectés à cette unité. Nous aurions « peut-être » pu réussir si nous avions pu nous appuyer sur des résultats obtenus par sa structure de Recherche et Développement, malheureusement dix ans auparavant. Mais nous n’avions pas de solution miracle pour sortir d’une chaîne de production qui interdisait des coopérations permettant à nos partenaires de répondre aussi à leurs propres besoins.
Avec les projets Wicri et LorExplor nous avons montré qu’une infrastructure basée sur des wikis sémantiques complétée par une ingénierie XML résout, dans un mode collaboratif, tous les verrous technologiques auxquels nous avons été confrontés. En cherchant à montrer la faisabilité de systèmes d’information encyclopédiques pilotés par les scientifiques, nous avons mis en avant la puissance de l’intention citoyenne du partage des savoirs. Elle amène à la recherche d’excellence dans la façon de communiquer les résultats de la science. Enfin comme Wikipédia donne du sens aux loisirs de milliers de contributeurs, le partage des savoirs peut donner un sens au travail des ingénieurs des données numériques de la recherche, et peut-être aussi, au-delà des facteurs d’impact, à celui des chercheurs.
Notes et remerciements
Cette section introduit les notes de l'article lors de sa soumission.
- Notes
- ↑ Le projet ISTEX (Initiative d’excellence de l’Information Scientifique et Technique) s’inscrit dans le programme « Investissements d’Avenir »
< http://www.cnrs.fr/dist/projet-istex.html > - ↑ Text and Data Mining
- ↑ Signalons la bibliothèque Cartolab, de Jean-Laurent Mallet, qui sera la base du consortium GOCAD sur le traitement de données géologiques
< http://www.ring-team.org/ > - ↑ Voir la thèse de Jean-Claude Derniame, en 1966 : Étude d'algorithmes pour les problèmes de cheminement dans les graphes finis. Un document XML est précisément un graphe fini.
- ↑ Centre national d'études des télécommunications, devenu Orange Labs en 2007.
- ↑ Par exemple en 1984 à Orlando dans le cadre d’une conférence software engineering de l’IEEE, où nous avions 5 stands partagés chacun par un industriel et un laboratoire.
- ↑ Système de Gestion de Bases de Données.
- ↑ < http://www.cnrs.fr/fr/missions >
- ↑ Pierre Auger avait repris les ambitions des listes de grandeurs physiques : Nous relevions l'essentiel de ce qui se faisait dans toutes les langues intéressantes à l'époque. Cité par Jean Astruc dans : le CNRS et l’information scientifique et technique en France (Solaris 1997)
- ↑ Le CDST et le CDSH étaient les 2 centres de documentations du CNRS en 1988, respectivement pour les sciences et techniques et pour les sciences humaines.
- ↑ Les conventions de présentation sont différentes suivant les formats. Dans le CCF @l désigne la sous-zone « l » pour langue, et dans Unimarc on utilise $d pour désigner la sous-zone date.
- ↑ Bien entendu, ce n’était pas formulé dans ces termes, mais presque ! En effet, mon premier travail en arrivant comme directeur a été de sauver le dossier d’acquisition d’une configuration IBM bloquée par une commission de contrôle des marchés (CSMI).
- ↑ Cette normalisation a permis son remplacement sans problème dix ans plus tard.
- ↑ Département Recherche et Produits Nouveaux
- ↑ en présence de représentants de la Library of Congress (qui reprendra le concept quelques années plus tard avec XmlMarc).
- ↑ < https://lhncbc.nlm.nih.gov/personnel/olivier-bodenreider >
- ↑ Par exemple, les résumés d’analystes ont été remplacés par les résumés d’auteur.
- ↑ Analyse des mécanismes psycho-cognitifs mis en œuvre pour explorer des bases médicales.
- ↑ Base Bibliographique et Iconographique Art Nouveau (navigation dans des bases d’images)
- ↑ SAMOS voulait réaliser une bibliothèque numérique distribuée à partir du protocole DIENST de Carl Lagoze (Cornell). Problème : le projet préfigurait le libre accès et… Elsevier faisait partie du consortium !
- ↑ IMESIS était un projet Euro-Méditerranéen en santé publique avec une dizaine de partenaires.
- ↑ Appropriation par la recherche des technologies de l’Information Scientifique et Technique
- ↑ Le fait de préconiser aux laboratoires de s’approprier les technologies entrait en contradiction avec l’équilibre financier de l’Inist qui reposait sur des prestations. Nous étions également en contradiction totale avec les principes de l’informatique d’administration.
- ↑ Le site ARTIST était géré avec le CMS SPIP qui confond les notions d’auteur et les autorisations à contribuer. La direction de l’Inist souhaitait m’interdire d’y intervenir, mais ce faisant, elle violait la loi car je n’apparaissais plus en tant qu’auteur sur les articles existants. La solution « juridique » a été expéditive : tout a été supprimé, y compris la revue !
- ↑ Voir notamment la thèse de Ruth Radermacher : <br/<http://www.atilf.fr/IMG/pdf/These_Radermarcher_Ruth_2004.pdf
- ↑ Les mémoires de masse alors testées sont les tambours magnétiques.
- ↑ Dans les années 75, la bandothèque contenait environ 2000 bandes magnétiques, chacune pouvait stoker 20 millions de caractères.
- ↑ Bulletin Analytique de Linguistique Française
- ↑ Cette application est un parcours dans l’arborescence des anagrammes des formes fléchies. Elle posait des problèmes sur un Iris 80 où l’arbre ne tenait pas en mémoire et où il fallait éviter les appels aléatoires sur disque. Cette expérience a été très formatrice, pour aborder, 20 ans plus tard, des classifications sur une année de Pascal (500.000 références), ou maintenant sur ISTEX.
- Remerciements
- Merci à celles et ceux avec qui nous sommes parti à la quête du Graal Inist, sans oublier l’ANL, Dilib, Wicri, LorExplor. Merci à Francis André, Thierry Daunois et Jean-Pierre Thomesse pour leurs conseils à propos de cet article.
Bibliographie
[Buhr 1977] ↑ Buhr J. et Degen. C., (1977) PASCAL: Une base de données multidisciplinaire son utilisation en physique atomique et moléculaire et physique des fluides et des plasmas. Journal de Physique Colloques, 1977, 38 (C3), pp.C3-249-C3-251. https://hal.archives-ouvertes.fr/jpa-00217115
[Ducloy 1991] ↑ Ducloy J., Charpentier P., François C. et Grivel L., (1991) - "Une boîte à outils pour le traitement de l'information scientifique et technique", Génie logiciel et systèmes experts, nº 25, pp 80-90, Paris.
[Ducloy 2006] ↑ Ducloy J., Nicolas Y., Le Hénaff D., Foulonneau M., Grivel L. et Ducasse J.-P., (2006) Metadata towards an e-research cyberinfrastructure: the case of francophone PhD theses. Proceedings of DC 2006, Manzanillo, Mexico, 2006.
[Dusoulier 1991] ↑ Dusoulier N. et Ducloy J., (1991): «Processing of data and exchange of records in a scientific and technical information center. Formats: what for?» UNIMARC/CCF Workshop - Florence (IT) (IFLA/UNESCO), 05-07 June 1991
[Gray 2006] ↑ Gray J., et al. (2006). Scientific Data Management in the Coming Decade, ACM SIGMOD, New York, NY, USA
[Laborderie 2015] ↑ Arnaud Laborderie, Éditorialisation des bibliothèques numériques : le cas des Essentiels de Gallica, In: CIDE 2015, Montpellier
[Schmitt 1992] ↑ Schmitt L., Olivetant B., Landi B., Royauté, J., Ducloy J. (1992) STID: Une station de travail pour une indexation assistée. Conference Internationale d’Avignon, 1992
Voir aussi
- Notes de la rédaction
- Dans le réseau Wicri :
La page de référence « Ingénierie des systèmes d'information (2019) Ducloy » est sur le wiki Wicri/SIC.