Langue française (1969) Martin, TLF : Différence entre versions

De Histoire de l'IST
(b) La documentation lexicologique)
(II. — Le T.L.F., dictionnaire historique de la langue française.)
Ligne 47 : Ligne 47 :
 
Telle est, sommairement décrite, la documentation du T.L.F. : son étendue et la forme qu'elle revêt devrait lui garantir quelque place dans les recherches de linguistique française.  
 
Telle est, sommairement décrite, la documentation du T.L.F. : son étendue et la forme qu'elle revêt devrait lui garantir quelque place dans les recherches de linguistique française.  
 
===II. — Le T.L.F., dictionnaire historique de la langue française. ===
 
===II. — Le T.L.F., dictionnaire historique de la langue française. ===
Cette documentation sert en premier chef à la rédaction d'un dictionnaire historique du français, d'un Trésor de la langue française.
+
Cette documentation sert en premier chef à la rédaction d'un dictionnaire historique du français, d'un Trésor de la langue française.
  
 
Certes, on est en droit de se demander avec G. Matoré (voir Biblio, 1968) si l'idée même d'un trésor « n'appartient pas à un stade dépassé de la science ». Cette idée va en effet de pair en lexicographie avec celle d'exhaustivité à la fois dans le nombre de vocables à retenir et dans les aspects divers de leur description : or, un tel projet, forcément à long terme, risque de s'adapter mal à la progression de la science et d'être largement dépassé au moment même où il voit le jour; d'autre part, on ne parlera de « trésor » que si les vocables sont étudiés à la fois dans leur histoire et dans le fonctionnement synchronique qui, à différentes époques, les situe dans une structure organisée : or, le problème des rapports entre synchronie et histoire se pose en lexicographie avec une acuité si redoutable que les plus pessimistes estiment illusoire toute entreprise de lexicographie historique.  
 
Certes, on est en droit de se demander avec G. Matoré (voir Biblio, 1968) si l'idée même d'un trésor « n'appartient pas à un stade dépassé de la science ». Cette idée va en effet de pair en lexicographie avec celle d'exhaustivité à la fois dans le nombre de vocables à retenir et dans les aspects divers de leur description : or, un tel projet, forcément à long terme, risque de s'adapter mal à la progression de la science et d'être largement dépassé au moment même où il voit le jour; d'autre part, on ne parlera de « trésor » que si les vocables sont étudiés à la fois dans leur histoire et dans le fonctionnement synchronique qui, à différentes époques, les situe dans une structure organisée : or, le problème des rapports entre synchronie et histoire se pose en lexicographie avec une acuité si redoutable que les plus pessimistes estiment illusoire toute entreprise de lexicographie historique.  

Version du 13 juin 2021 à 17:46

Le trésor de la langue française et la méthode lexicographique


 
 

Titre
Le trésor de la langue française et la méthode lexicographique
Auteur
Robert Martin
Dans
Langue française, n°2, 1969
Disponible en ligne 
sur le site Persée

Cette page contient une réédition numérique d'un article concernant la création du Trésor de la langue française.

logo travaux article en cours d'importation

Avant propos

Concernant la réédition
  • Pour une meilleure lisibilité de l'article, les notes ont été regroupées (leur numérotation est donc différentes de celles de l'original)

Le trésor de la langue française et la méthode lexicographique

44

Créé en décembre 1960, implanté à Nancy [1], dirigé par M. Paul Imbs et placé sous le contrôle d'un Comité de direction [2] dont les avis portent sur les orientations scientifiques les plus générales, le Centre de recherche pour un Trésor de la langue française (T.L.F.) est conçu à la fois comme un laboratoire de documentation lexicologique complétant l'Inventaire général de la langue française (I.G.L.F.) [3] et le Centre d'études du vocabulaire français [4], et comme un organisme de recherche dont la mission essentielle est de préparer et de rédiger un dictionnaire historique de la langue française. Dans cette présentation sommaire, nous voudrions décrire la documentation qui s'élabore à Nancy et montrer l'originalité que recherche le T.L.F. dans la méthode lexicographique qu'il met en œuvre.

I - Le T.L.F., laboratoire de documentation lexicologique

L'élaboration d'un dictionnaire — que l'on prévoit volumineux — exige une documentation abondante, soigneusement classée et d'une conception rigoureuse : celle du T.L.F. a le mérite incontesté de l'étendue et de la diversité. D'ordre à la fois bibliographique et lexicologique, elle doit servir non seulement aux rédacteurs du T.L.F., mais aussi à tous les chercheurs :

a) La documentation bibliographique

Le Service de documentation bibliographique du Centre a pour mission de constituer un vaste fichier de documentation linguistique —
45
fichier alphabétique d'auteurs et fichier systématique par matières dont les principales divisions correspondent aux centres d'intérêts du laboratoire (phonétique, orthographe, morphologie, grammaire, sémantique, stylistique, etymologie, histoire du vocabulaire français...). Il comporte actuellement quelque 50 000 titres de thèses, d'ouvrages, de communications, d'articles de revues, de contributions à des mélanges, de comptes rendus, etc., parmi lesquels il est fait un sort tout particulier aux études de mots. Environ 16 000 vocables français y font déjà l'objet de références bibliographiques. L'essentiel de cette vaste information, en particulier les études les plus récentes ou les plus importantes sur tel mot ou sur tel champ sémique particulier, apparaîtra dans les rubriques bibliographiques du dictionnaire qui se prépare. Mais ce fichier, complété dans le cadre de la documentation courante par le dépouillement régulier, suivant leur ordre d'arrivée, des revues spécialisées reçues ou traitées au laboratoire (une centaine) et, dans le cadre de la documentation rétrospective, par le dépouillement des grandes bibliographies linguistiques et des bibliographies les plus importantes de thèses, d'ouvrages ou d'études, est ouvert à tout chercheur qui souhaite le consulter [5]. Il est complété par une documentation plus générale sur les linguistes, les sociétés savantes, les congrès, les collections, les mélanges, les périodiques, par un répertoire de sigles et un fichier de vocabulaire documentologique. Les thèses soutenues ou en préparation y figurent également dans la mesure où une publication les signale. Les fiches sont établies selon les normes de l'AFNOR, complétées par les règles bibliographiques qui s'élaborent au fur et à mesure que les cas, plus divers qu'on ne le soupçonne, se présentent à la sagacité du bibliographe. C'est là, on s'en doute, un travail de longue haleine et qui exige un personnel qualifié.

Le Service de documentation du T.L.F. rédige un Bulletin analytique de linguistique française, dont le but est d'informer les rédacteurs du Centre, mais qui, diffusé actuellement à quelque 200 et bientôt à 350 exemplaires, devrait, dans un avenir proche, s'intégrer au Bulletin signalétique que publie le C.N.R.S.. : la référence bibliographique y est suivie d'une brève analyse. Une étude en cours vise à donner à ces analyses une forme suffisamment impersonnelle et rigoureuse pour en permettre éventuellement le traitement mécanisé. Des index par tomes rassemblent les références dans un ordre alphabétique et systématique.

Il faut ajouter que la Bibliothèque du Centre s'enrichit tous les ans de quelque 500 titres et qu'elle est abonnée aux principales revues de linguistique générale, romane et française.

b) La documentation lexicologique

La documentation lexicologique du T.L.F. est constituée essentiellement par le traitement automatique des textes au moyen d'un ensemble
46
électronique Bull-Gamma 60. Mais le Centre se donne aussi pour tâche de recueillir divers fonds lexicologiques, de les inventorier, de les classer, de les exploiter pour son dictionnaire. Un double de l'I.G.L.F. est déposé à Nancy : géré électroniquement de manière à obtenir pour un même vocable l'ensemble des fiches disponibles, il complète utilement le classement de l'I.G.L.F. parisien qui, de son côté, se présente par auteurs et par œuvres. Le double de l'I.G.L.F. comporte à la fois des fiches électrographiées (environ un million) que M. Roques a fait établir durant la guerre pour les mettre en sûreté dans sa propriété de Sully-sur-Loire, et des fiches photographiées (environ 4 millions) réalisées pour le T.L.F. par les soins du Service photographique du C.N.R.S. On connaît l'intérêt considérable de ce fonds : sans doute, les dépouillements pratiqués selon une méthode « impressionniste » sont-ils loin de fournir toujours du vocabulaire d'un auteur une image parfaitement objective. Mais, soigneusement revues (quelquefois par M. Roques lui-même), ces fiches ont le mérite de la précision philologique; certaines sont dues à d'éminents spécialistes (ainsi le dépouillement de Froissart confié à L. Foulet), d'autres à des collaborateurs de l'écrivain lui-même (ainsi le dépouillement de Barrés, assuré par la secrétaire personnelle de l'auteur), d'autres enfin — pour les textes scientifiques — à des médecins, des ingénieurs ou des techniciens. De manière générale, l'attention accordée aux techniques et aux langues marginales, en particulier aux argots (dont le fichier a été, en grande partie, établi par M. G. Esnault) et le souci de consigner les vocables dans leurs emplois les plus rares en font un instrument de travail d'une exceptionnelle richesse.

La documentation propre au T.L.F. est rassemblée par l'ensemble électronique Gamma 60. Certes, pour les champs lexicologiques les plus riches et les plus anciens de la langue, — l'habitat, les liens de parenté, le vocabulaire du temps, le vocabulaire grammatical... — les photocopies des articles de dictionnaires importants, constituées en dossiers de mots, forment un ensemble d'une consultation aisée qui facilite la tâche du rédacteur. On y ajoutera les fichiers spécialisés établis par les différentes unités de recherche. Mais l'apport le plus important du T.L.F. est dans sa documentation automatique : on y distinguera les documents imprimés des fichiers-machine qui se prêtent aux recherches les plus diversifiées. Parmi les premiers, les feuilles-concordances et les fiches-texte jouent le rôle le plus important.

On appelle au T.L.F. feuilles-concordances [6] des états qui présentent, classées dans l'ordre chronologique, des concordances de trois lignes dont la seconde, imprimée sur le volet gauche de la feuille, contient obligatoirement le mot vedette. Chaque concordance est précédée de la référence de l'ouvrage et de la sous-référence de l'exemple (livre, chapitre,
47
acte, scène, numéro de page, etc.). Un numéro d'exemple renvoie à la fiche-texte correspondante.

On appelle fiche-texte un ensemble de 18 lignes dont les 8 lignes du milieu constituent le texte propre, celles du haut n'étant que le rappel des dernières lignes de la fiche précédente et celles du bas anticipant sur la fiche suivante. Une lecture continue de fiche à fiche des 8 lignes intermédiaires restitue donc le texte intégral.

L'ordinateur a déjà traité un corpus d'environ 90 millions d'occurrences dont 47 millions représentent le dépouillement intégral de 586 ouvrages littéraires du xxe siècle; il atteint actuellement un rythme de traitement d'environ 100 000 occurrences en sept heures. Les feuilles- concordances obtenues, reliées mot par mot dans l'ordre chronologique, constituent la documentation de base du rédacteur, qui décide si tel ou tel exemple mérite un examen plus attentif et demande, le cas échéant, la fiche-texte correspondante.

Il va de soi qu'une telle documentation présente par le caractère exhaustif x des dépouillements et la possibilité qu'elle offre de recourir à un contexte étendu, un attrait indéniable indépendamment de l'entreprise lexicographique du T.L.F. : un atelier de photographie actuellement à l'étude devrait permettre, dans un délai rapproché, de la reproduire sur microfiches 2 afin d'en faciliter la diffusion extérieure.

Mais c'est principalement dans les fichiers-machine du T.L.F. que les chercheurs extérieurs au laboratoire pourraient trouver un auxiliaire appréciable de travail : tous les textes dépouillés sont en effet stockés, sous une forme condensée, sur des rubans magnétiques, et forment un fichier-répertoire qui, attribuant aux mots classés par ordre alphabétique les numéros d'ordre qu'ils occupent dans le texte, les fait suivre aussi de tous les codes déjà intervenus dans la constitution des feuilles- concordances et des fiches-texte (codes grammaticaux, codes de regroupement des formes fléchies 3, codes d'homographie, etc.). Consignant ainsi l'essentiel des traitements déjà réalisés, le fichier-répertoire — ■ il faut le souligner avec énergie — est conçu de telle sorte qu'il permet, indépendamment des besoins propres du T.L.F., toute recherche séquentielle praticable en documentation automatique. Que l'on veuille connaître dans telle œuvre, chez tel auteur, à telle époque, voire sur l'ensemble du corpus, les séquences substantif -j- adjectif pour les opposer aux séquences adjectif -f- substantif, que l'on s'intéresse au syntagme nominal substantif -f- de -f substantif ou que, parmi les innombrables questions possibles de morphologie, on retienne celle des formes verbales déficientes ou
48
defectives, la machine est capable, moyennant un programme spécifique, de répondre à toutes ces demandes comme à n'importe quelle autre pour peu qu'elle repose sur des critères formels. Il est vrai que le temps d'accès, lorsque le support est le ruban magnétique, n'est pas, sur Gamma 60, particulièrement favorable, et le souci de la rentabilité conduit obligatoirement à regrouper autant que possible les questions posées. Mais il est certain que toutes les précautions sont prises pour que la documentation rassemblée en vue du dictionnaire T.L.F. puisse servir à n'importe quelle recherche syntaxique, lexicologique ou stylistique de type séquentiel. Le remplacement du Gamma 60 par un matériel plus maniable devrait faciliter de telles recherches aléatoires.

Le T.L.F. lui-même utilise son fichier-répertoire pour toutes sortes de traitements complémentaires, par exemple en vue de publier (début 1969) un état statistique qui donnera pour chaque vocable la fréquence absolue dans le corpus du xxe siècle et dans celui du xixe siècle, le rang et la fréquence relative par siècle, par demi-siècle et par « forme d'expression » !. Ce recueil documentaire portera sur le dépouillement de plus de 80 millions d'occurrences et présentera en outre un relevé des hapax ainsi qu'un dictionnaire des formes homographes du français.

Telle est, sommairement décrite, la documentation du T.L.F. : son étendue et la forme qu'elle revêt devrait lui garantir quelque place dans les recherches de linguistique française.

II. — Le T.L.F., dictionnaire historique de la langue française.

Cette documentation sert en premier chef à la rédaction d'un dictionnaire historique du français, d'un Trésor de la langue française.

Certes, on est en droit de se demander avec G. Matoré (voir Biblio, 1968) si l'idée même d'un trésor « n'appartient pas à un stade dépassé de la science ». Cette idée va en effet de pair en lexicographie avec celle d'exhaustivité à la fois dans le nombre de vocables à retenir et dans les aspects divers de leur description : or, un tel projet, forcément à long terme, risque de s'adapter mal à la progression de la science et d'être largement dépassé au moment même où il voit le jour; d'autre part, on ne parlera de « trésor » que si les vocables sont étudiés à la fois dans leur histoire et dans le fonctionnement synchronique qui, à différentes époques, les situe dans une structure organisée : or, le problème des rapports entre synchronie et histoire se pose en lexicographie avec une acuité si redoutable que les plus pessimistes estiment illusoire toute entreprise de lexicographie historique.


Notes de l'article

  1. 44, avenue de la Libération, 54-Nancy.
  2. Il comprend actuellement MM. R. Lebègue, président, G. Antoine, C. Brunei, J. Dubois, J. Fabre, G. Gougenheim, P. Imbs, F. Lecoy, J. Lefèvre, G. Matoré, B. Quemada et R.-.L. Wagner.
  3. 33, quai de la Tournelle, Paris (5e). Il est dirigé par M. F. Lecoy.
  4. 30, rue Mégevand, 25-Besançon. Il est dirigé par M. B. Quemada.
  5. [45 - 1] Sur demande adressée au directeur du Centre.
  6. On en trouvera reproduit un exemplaire dans la brochure que le G.N.R.S. a consacrée au T.L.F. (Paris, C.N.R.S., Bureau des relations extérieures et de l'information, 1967, 48 p.), pp. 24-25.

Voir aussi

Dans le réseau Wicri :

La page de référence « Langue française (1969) Martin, TLF » est sur le wiki Wicri/Linguistique.