Langue française (1969) Martin, TLF : Différence entre versions
(→b) La documentation lexicologique) |
(→b) La documentation lexicologique) |
||
Ligne 33 : | Ligne 33 : | ||
La documentation propre au T.L.F. est rassemblée par l'ensemble électronique Gamma 60. Certes, pour les champs lexicologiques les plus riches et les plus anciens de la langue, — l'habitat, les liens de parenté, le vocabulaire du temps, le vocabulaire grammatical... — les photocopies des articles de dictionnaires importants, constituées en dossiers de mots, forment un ensemble d'une consultation aisée qui facilite la tâche du rédacteur. On y ajoutera les fichiers spécialisés établis par les différentes unités de recherche. Mais l'apport le plus important du T.L.F. est dans sa documentation automatique : on y distinguera les documents imprimés des fichiers-machine qui se prêtent aux recherches les plus diversifiées. Parmi les premiers, les feuilles-concordances et les fiches-texte jouent le rôle le plus important. | La documentation propre au T.L.F. est rassemblée par l'ensemble électronique Gamma 60. Certes, pour les champs lexicologiques les plus riches et les plus anciens de la langue, — l'habitat, les liens de parenté, le vocabulaire du temps, le vocabulaire grammatical... — les photocopies des articles de dictionnaires importants, constituées en dossiers de mots, forment un ensemble d'une consultation aisée qui facilite la tâche du rédacteur. On y ajoutera les fichiers spécialisés établis par les différentes unités de recherche. Mais l'apport le plus important du T.L.F. est dans sa documentation automatique : on y distinguera les documents imprimés des fichiers-machine qui se prêtent aux recherches les plus diversifiées. Parmi les premiers, les feuilles-concordances et les fiches-texte jouent le rôle le plus important. | ||
− | On appelle au T.L.F. feuilles-concordances | + | On appelle au T.L.F. ''feuilles-concordances'' <ref>On en trouvera reproduit un exemplaire dans la brochure que le G.N.R.S. a consacrée au T.L.F. (Paris, C.N.R.S., Bureau des relations extérieures et de l'information, 1967, 48 p.), pp. 24-25.</ref> des états qui présentent, classées dans l'ordre chronologique, des concordances de trois lignes dont la seconde, imprimée sur le volet gauche de la feuille, contient obligatoirement le mot vedette. Chaque concordance est précédée de la référence de l'ouvrage et de la sous-référence de l'exemple (livre, chapitre, {{Persée page|47}} acte, scène, numéro de page, etc.). Un numéro d'exemple renvoie à la fiche-texte correspondante. |
+ | |||
+ | On appelle fiche-texte un ensemble de 18 lignes dont les 8 lignes du milieu constituent le texte propre, celles du haut n'étant que le rappel des dernières lignes de la fiche précédente et celles du bas anticipant sur la fiche suivante. Une lecture continue de fiche à fiche des 8 lignes intermédiaires restitue donc le texte intégral. | ||
+ | |||
+ | L'ordinateur a déjà traité un corpus d'environ 90 millions d'occurrences dont 47 millions représentent le dépouillement intégral de 586 ouvrages littéraires du xxe siècle; il atteint actuellement un rythme de traitement d'environ 100 000 occurrences en sept heures. Les feuilles- concordances obtenues, reliées mot par mot dans l'ordre chronologique, constituent la documentation de base du rédacteur, qui décide si tel ou tel exemple mérite un examen plus attentif et demande, le cas échéant, la fiche-texte correspondante. | ||
+ | |||
+ | Il va de soi qu'une telle documentation présente par le caractère exhaustif x des dépouillements et la possibilité qu'elle offre de recourir à un contexte étendu, un attrait indéniable indépendamment de l'entreprise lexicographique du T.L.F. : un atelier de photographie actuellement à l'étude devrait permettre, dans un délai rapproché, de la reproduire sur microfiches 2 afin d'en faciliter la diffusion extérieure. | ||
+ | |||
+ | Mais c'est principalement dans les fichiers-machine du T.L.F. que les chercheurs extérieurs au laboratoire pourraient trouver un auxiliaire appréciable de travail : tous les textes dépouillés sont en effet stockés, sous une forme condensée, sur des rubans magnétiques, et forment un fichier-répertoire qui, attribuant aux mots classés par ordre alphabétique les numéros d'ordre qu'ils occupent dans le texte, les fait suivre aussi de tous les codes déjà intervenus dans la constitution des feuilles- concordances et des fiches-texte (codes grammaticaux, codes de regroupement des formes fléchies 3, codes d'homographie, etc.). Consignant ainsi l'essentiel des traitements déjà réalisés, le fichier-répertoire — ■ il faut le souligner avec énergie — est conçu de telle sorte qu'il permet, indépendamment des besoins propres du T.L.F., toute recherche séquentielle praticable en documentation automatique. Que l'on veuille connaître dans telle œuvre, chez tel auteur, à telle époque, voire sur l'ensemble du corpus, les séquences substantif -j- adjectif pour les opposer aux séquences adjectif -f- substantif, que l'on s'intéresse au syntagme nominal substantif -f- de -f substantif ou que, parmi les innombrables questions possibles de morphologie, on retienne celle des formes verbales déficientes ou {{Persée page|48}} defectives, la machine est capable, moyennant un programme spécifique, de répondre à toutes ces demandes comme à n'importe quelle autre pour peu qu'elle repose sur des critères formels. Il est vrai que le temps d'accès, lorsque le support est le ruban magnétique, n'est pas, sur Gamma 60, particulièrement favorable, et le souci de la rentabilité conduit obligatoirement à regrouper autant que possible les questions posées. Mais il est certain que toutes les précautions sont prises pour que la documentation rassemblée en vue du dictionnaire T.L.F. puisse servir à n'importe quelle recherche syntaxique, lexicologique ou stylistique de type séquentiel. Le remplacement du Gamma 60 par un matériel plus maniable devrait faciliter de telles recherches aléatoires. | ||
+ | |||
+ | Le T.L.F. lui-même utilise son fichier-répertoire pour toutes sortes de traitements complémentaires, par exemple en vue de publier (début 1969) un état statistique qui donnera pour chaque vocable la fréquence absolue dans le corpus du xxe siècle et dans celui du xixe siècle, le rang et la fréquence relative par siècle, par demi-siècle et par « forme d'expression » !. Ce recueil documentaire portera sur le dépouillement de plus de 80 millions d'occurrences et présentera en outre un relevé des hapax ainsi qu'un dictionnaire des formes homographes du français. | ||
+ | |||
+ | Telle est, sommairement décrite, la documentation du T.L.F. : son étendue et la forme qu'elle revêt devrait lui garantir quelque place dans les recherches de linguistique française. | ||
+ | ===II. — Le T.L.F., dictionnaire historique de la langue française. === | ||
+ | Cette documentation sert en premier chef à la rédaction d'un dictionnaire historique du français, d'un Trésor de la langue française. | ||
+ | |||
+ | Certes, on est en droit de se demander avec G. Matoré (voir Biblio, 1968) si l'idée même d'un trésor « n'appartient pas à un stade dépassé de la science ». Cette idée va en effet de pair en lexicographie avec celle d'exhaustivité à la fois dans le nombre de vocables à retenir et dans les aspects divers de leur description : or, un tel projet, forcément à long terme, risque de s'adapter mal à la progression de la science et d'être largement dépassé au moment même où il voit le jour; d'autre part, on ne parlera de « trésor » que si les vocables sont étudiés à la fois dans leur histoire et dans le fonctionnement synchronique qui, à différentes époques, les situe dans une structure organisée : or, le problème des rapports entre synchronie et histoire se pose en lexicographie avec une acuité si redoutable que les plus pessimistes estiment illusoire toute entreprise de lexicographie historique. | ||
{{Corps article/Fin}} | {{Corps article/Fin}} |
Version du 13 juin 2021 à 17:42
Le trésor de la langue française et la méthode lexicographique
Titre
|
Cette page contient une réédition numérique d'un article concernant la création du Trésor de la langue française.
Sommaire
Avant propos
- Concernant la réédition
- Pour une meilleure lisibilité de l'article, les notes ont été regroupées (leur numérotation est donc différentes de celles de l'original)
Le trésor de la langue française et la méthode lexicographique
Créé en décembre 1960, implanté à Nancy [1], dirigé par M. Paul Imbs et placé sous le contrôle d'un Comité de direction [2] dont les avis portent sur les orientations scientifiques les plus générales, le Centre de recherche pour un Trésor de la langue française (T.L.F.) est conçu à la fois comme un laboratoire de documentation lexicologique complétant l'Inventaire général de la langue française (I.G.L.F.) [3] et le Centre d'études du vocabulaire français [4], et comme un organisme de recherche dont la mission essentielle est de préparer et de rédiger un dictionnaire historique de la langue française. Dans cette présentation sommaire, nous voudrions décrire la documentation qui s'élabore à Nancy et montrer l'originalité que recherche le T.L.F. dans la méthode lexicographique qu'il met en œuvre.
I - Le T.L.F., laboratoire de documentation lexicologique
L'élaboration d'un dictionnaire — que l'on prévoit volumineux — exige une documentation abondante, soigneusement classée et d'une conception rigoureuse : celle du T.L.F. a le mérite incontesté de l'étendue et de la diversité. D'ordre à la fois bibliographique et lexicologique, elle doit servir non seulement aux rédacteurs du T.L.F., mais aussi à tous les chercheurs :
a) La documentation bibliographique
Le Service de documentation bibliographique du Centre a pour mission de constituer un vaste fichier de documentation linguistique —Le Service de documentation du T.L.F. rédige un Bulletin analytique de linguistique française, dont le but est d'informer les rédacteurs du Centre, mais qui, diffusé actuellement à quelque 200 et bientôt à 350 exemplaires, devrait, dans un avenir proche, s'intégrer au Bulletin signalétique que publie le C.N.R.S.. : la référence bibliographique y est suivie d'une brève analyse. Une étude en cours vise à donner à ces analyses une forme suffisamment impersonnelle et rigoureuse pour en permettre éventuellement le traitement mécanisé. Des index par tomes rassemblent les références dans un ordre alphabétique et systématique.
Il faut ajouter que la Bibliothèque du Centre s'enrichit tous les ans de quelque 500 titres et qu'elle est abonnée aux principales revues de linguistique générale, romane et française.
b) La documentation lexicologique
La documentation lexicologique du T.L.F. est constituée essentiellement par le traitement automatique des textes au moyen d'un ensembleLa documentation propre au T.L.F. est rassemblée par l'ensemble électronique Gamma 60. Certes, pour les champs lexicologiques les plus riches et les plus anciens de la langue, — l'habitat, les liens de parenté, le vocabulaire du temps, le vocabulaire grammatical... — les photocopies des articles de dictionnaires importants, constituées en dossiers de mots, forment un ensemble d'une consultation aisée qui facilite la tâche du rédacteur. On y ajoutera les fichiers spécialisés établis par les différentes unités de recherche. Mais l'apport le plus important du T.L.F. est dans sa documentation automatique : on y distinguera les documents imprimés des fichiers-machine qui se prêtent aux recherches les plus diversifiées. Parmi les premiers, les feuilles-concordances et les fiches-texte jouent le rôle le plus important.
On appelle au T.L.F. feuilles-concordances [6] des états qui présentent, classées dans l'ordre chronologique, des concordances de trois lignes dont la seconde, imprimée sur le volet gauche de la feuille, contient obligatoirement le mot vedette. Chaque concordance est précédée de la référence de l'ouvrage et de la sous-référence de l'exemple (livre, chapitre,On appelle fiche-texte un ensemble de 18 lignes dont les 8 lignes du milieu constituent le texte propre, celles du haut n'étant que le rappel des dernières lignes de la fiche précédente et celles du bas anticipant sur la fiche suivante. Une lecture continue de fiche à fiche des 8 lignes intermédiaires restitue donc le texte intégral.
L'ordinateur a déjà traité un corpus d'environ 90 millions d'occurrences dont 47 millions représentent le dépouillement intégral de 586 ouvrages littéraires du xxe siècle; il atteint actuellement un rythme de traitement d'environ 100 000 occurrences en sept heures. Les feuilles- concordances obtenues, reliées mot par mot dans l'ordre chronologique, constituent la documentation de base du rédacteur, qui décide si tel ou tel exemple mérite un examen plus attentif et demande, le cas échéant, la fiche-texte correspondante.
Il va de soi qu'une telle documentation présente par le caractère exhaustif x des dépouillements et la possibilité qu'elle offre de recourir à un contexte étendu, un attrait indéniable indépendamment de l'entreprise lexicographique du T.L.F. : un atelier de photographie actuellement à l'étude devrait permettre, dans un délai rapproché, de la reproduire sur microfiches 2 afin d'en faciliter la diffusion extérieure.
Mais c'est principalement dans les fichiers-machine du T.L.F. que les chercheurs extérieurs au laboratoire pourraient trouver un auxiliaire appréciable de travail : tous les textes dépouillés sont en effet stockés, sous une forme condensée, sur des rubans magnétiques, et forment un fichier-répertoire qui, attribuant aux mots classés par ordre alphabétique les numéros d'ordre qu'ils occupent dans le texte, les fait suivre aussi de tous les codes déjà intervenus dans la constitution des feuilles- concordances et des fiches-texte (codes grammaticaux, codes de regroupement des formes fléchies 3, codes d'homographie, etc.). Consignant ainsi l'essentiel des traitements déjà réalisés, le fichier-répertoire — ■ il faut le souligner avec énergie — est conçu de telle sorte qu'il permet, indépendamment des besoins propres du T.L.F., toute recherche séquentielle praticable en documentation automatique. Que l'on veuille connaître dans telle œuvre, chez tel auteur, à telle époque, voire sur l'ensemble du corpus, les séquences substantif -j- adjectif pour les opposer aux séquences adjectif -f- substantif, que l'on s'intéresse au syntagme nominal substantif -f- de -f substantif ou que, parmi les innombrables questions possibles de morphologie, on retienne celle des formes verbales déficientes ouLe T.L.F. lui-même utilise son fichier-répertoire pour toutes sortes de traitements complémentaires, par exemple en vue de publier (début 1969) un état statistique qui donnera pour chaque vocable la fréquence absolue dans le corpus du xxe siècle et dans celui du xixe siècle, le rang et la fréquence relative par siècle, par demi-siècle et par « forme d'expression » !. Ce recueil documentaire portera sur le dépouillement de plus de 80 millions d'occurrences et présentera en outre un relevé des hapax ainsi qu'un dictionnaire des formes homographes du français.
Telle est, sommairement décrite, la documentation du T.L.F. : son étendue et la forme qu'elle revêt devrait lui garantir quelque place dans les recherches de linguistique française.
II. — Le T.L.F., dictionnaire historique de la langue française.
Cette documentation sert en premier chef à la rédaction d'un dictionnaire historique du français, d'un Trésor de la langue française.
Certes, on est en droit de se demander avec G. Matoré (voir Biblio, 1968) si l'idée même d'un trésor « n'appartient pas à un stade dépassé de la science ». Cette idée va en effet de pair en lexicographie avec celle d'exhaustivité à la fois dans le nombre de vocables à retenir et dans les aspects divers de leur description : or, un tel projet, forcément à long terme, risque de s'adapter mal à la progression de la science et d'être largement dépassé au moment même où il voit le jour; d'autre part, on ne parlera de « trésor » que si les vocables sont étudiés à la fois dans leur histoire et dans le fonctionnement synchronique qui, à différentes époques, les situe dans une structure organisée : or, le problème des rapports entre synchronie et histoire se pose en lexicographie avec une acuité si redoutable que les plus pessimistes estiment illusoire toute entreprise de lexicographie historique.
Notes de l'article
- ↑ 44, avenue de la Libération, 54-Nancy.
- ↑ Il comprend actuellement MM. R. Lebègue, président, G. Antoine, C. Brunei, J. Dubois, J. Fabre, G. Gougenheim, P. Imbs, F. Lecoy, J. Lefèvre, G. Matoré, B. Quemada et R.-.L. Wagner.
- ↑ 33, quai de la Tournelle, Paris (5e). Il est dirigé par M. F. Lecoy.
- ↑ 30, rue Mégevand, 25-Besançon. Il est dirigé par M. B. Quemada.
- ↑ [45 - 1] Sur demande adressée au directeur du Centre.
- ↑ On en trouvera reproduit un exemplaire dans la brochure que le G.N.R.S. a consacrée au T.L.F. (Paris, C.N.R.S., Bureau des relations extérieures et de l'information, 1967, 48 p.), pp. 24-25.
Voir aussi
- Dans le réseau Wicri :
La page de référence « Langue française (1969) Martin, TLF » est sur le wiki Wicri/Linguistique.