Ateliers numériques/Grandeur et abandon du Trésor de la langue française

De Émérites Lorraine

Une aventure numérique dans le contexte du plan Calcul

ConfEméritesIntro.pdf

Le texte ci-dessous est extrait d'un article publié en 2019.

Du Trésor de la Langue Française à l’ATILF

Le démarrage du Trésor de la Langue Française relève du roman d’anticipation[1]. Nous sommes en 1955. Les disques magnétiques ne sont pas encore inventés[2] . Des linguistes et des philologues (Bernard Quémada, Paul Imbs) utilisent des machines mécanographiques. En 1959, un projet de « mise en chantier d’un Trésor général de la langue française ou Dictionnaire historique général de la langue française » figure dans le rapport de conjoncture du CNRS. Fin 1960, le CRTLF est créé. En 1961, un des plus gros ordinateurs du monde, un Gamma 60, est commandé à la compagnie des machines Bull. Il arrivera à Nancy en 1963 avec 10 dérouleurs de bandes magnétiques, 2 lecteurs de ruban perforé, 3 imprimantes, mais sans disques magnétiques.

Au départ, il s’agit « simplement » de constituer « le Trésor ». En 1963, 22 opératrices-mécanographes commencent les opérations de saisie de textes à raison de 100.000 mots par jour. En 1970, une base initiale de 1000 textes dans lesquels chaque mot était étiqueté par sa catégorie grammaticale a été constituée.

En 1968, le projet de dictionnaire prend corps et des projets d’articles sont évalués. Puis la rédaction définitive démarre. Le premier tome, daté de 1971 est présenté au public en 1972. Le dernier tome sortira en 1994, à l’issue de longues pérégrinations. L’ensemble représente 16 volumes, 100.000 mots, 270.000 définitions, 430.000 exemples et 350 millions de caractères.

Les traitements informatiques ont été conçus dans les années 65, avec les bandes comme mémoire de masse[3] et les imprimantes pour l’interface homme machine. Pour chaque mot de faible fréquence, une liste de concordances suffisait au rédacteur. Pour les mots plus courants, des algorithmes basés sur des associations, les groupes binaires, ont été développés. Les chaînes de traitement étaient décomposées en étapes qui s’étalaient environ sur un mois, avec, en fin de phase des tris qui mobilisaient 6 à 8 dérouleurs pendant plusieurs heures. Ces contraintes historiques (pas de disque, peu de mémoire centrale au départ) ont favorisé un style de traitements basés sur une alternance de tris et de programmes relativement simples.

Curieusement, ces chaînes ont eu une forte influence sur Dilib. En effet, le CRTLF utilisait, à partir de 1972, le CII 10070 de l’IUCA où j’étais ingénieur. Nous avions été sensibilisés par la modularité imposée par la manipulation de corpus sur bande. Nous l’avons transposée sur Dilib avec d’excellentes performances en utilisant le mécanisme des « pipes » d’Unix et le tri standard (sort). Nous avons déjà cité Mistral qui avait été utilisé pour l’informatisation du BALF[4]. À titre anecdotique, nous avions aussi développé un « jeu du mot le plus long » avec environ 200.000 formes fléchies venant du TLF[5].

L’équipe informatique du CRTLF, rencontrait des problèmes assez voisins de ceux qui ont été cités à l’Inist à propos des formats MARC. Elle était constituée en majorité par des techniciens qui n’avaient pas reçu de formation approfondie en algorithmique. Ils étaient visiblement très compétents pour comprendre les problèmes lexicographiques et adapter les programmes qui constituaient les chaînes de traitement autour des tris. Mais les linguistes du CNRS n’avaient pas réalisé la complexité d’un univers de données où il fallait résoudre des parcours dans des graphes de taille considérable avec d’énormes contraintes techniques. Ce problème a été résolu dans les années 80 avec l’arrivée de Jacques Dendien. En 1986, le TLF disposait d’un moteur de recherche permettant de manipuler des éléments de grammaire sur la base FRANTEXT qui contient maintenant 5390 références soit 253 millions de mots. Dans la foulée, il a également développé une mise en ligne du dictionnaire (le TLFi), qui est maintenant en accès public depuis la direction de Jean-Marie Pierrel à l’ATILF.

Mais, comme Pascal, comme Francis, le dictionnaire TLF n’est plus maintenu.


ConfEméritesIntro.pdf
ConfEméritesIntro.pdf
ConfEméritesIntro.pdf
ConfEméritesIntro.pdf
ConfEméritesIntro.pdf

Voir aussi

Notes
  1. Voir notamment la thèse de Ruth Radermacher : <br/<https://www.atilf.fr/wp-content/uploads/theses/atilf_These_Radermarcher_Ruth_2004.pdf
  2. Les mémoires de masse alors testées sont les tambours magnétiques.
  3. Dans les années 75, la bandothèque contenait environ 2000 bandes magnétiques, chacune pouvait stoker 20 millions de caractères.
  4. Bulletin Analytique de Linguistique Française
  5. Cette application est un parcours dans l’arborescence des anagrammes des formes fléchies. Elle posait des problèmes sur un Iris 80 où l’arbre ne tenait pas en mémoire et où il fallait éviter les appels aléatoires sur disque. Cette expérience a été très formatrice, pour aborder, 20 ans plus tard, des classifications sur une année de Pascal (500.000 références), ou maintenant sur ISTEX.