CIDE (2007) Pierrel : Différence entre versions

Version du 14 mai 2012 à 10:39

Valorisation et exploitation scientifiques de documents numériques pour la recherche en linguistique : l’exemple du CNRTL

Titre

Valorisation et exploitation scientifiques de documents numériques pour la recherche en linguistique : l’exemple du CNRTL

Auteurs

Jean-Marie Pierrel, Etienne Petitjean.

jean-marie.pierrel@atilf.fr

etienne.petitjean@atilf.fr

Affiliation:Jean-Marie Pierrel, ATILF & CNRTL, CNRS – Nancy Université, Etienne Petitjean, ATILF & CNRTL, CNRS – Nancy Université.

Mots-clés: centre de ressources, lexiques, dictionnaires, corpus, Tools
Keywords: Resource Centre, Lexicons, Dictionary, Corpora, Tools

Sommaire

1 Introduction
2 Importance de la valorisation et de l’exploitation de documents numériques pour la recherche linguistique
- 2.1 Les enjeux de la linguistique de corpus et du traitement automatique des langues
- 2.2 Quelles ressources et corpus pour l’étude des langues aujourd’hui ?

Résumé

Créé en 2005 à l’initiative du Centre National de la Recherche Scientifique, le CNRTL propose une plate-forme unifiée pour l’accès aux ressources et documents électroniques destinés à l’étude et l’analyse de la langue française. Les services du CNRTL comprennent le recensement, la documentation (métadonnées), la normalisation, l’archivage, l’enrichissement et la diffusion des ressources. La pérennité du service et des données est garantie par le soutien institutionnel du CNRS, l’adossement à un laboratoire de recherche en linguistique et informatique du CNRS et de Nancy Université (ATILF – Analyse et Traitement Informatique de la Langue Française), ainsi que l’intégration dans les réseaux européens CLARIN et DARIAH.

English description

Abstract: Founded in 2005 under the auspices of the French National Centre for Scientific Research (CNRS), the CNRTL offers a unified platform to access electronic resources and documents for linguistic research on the French language. Provided services include identification, documentation (metadata), standardisation, archiving, enrichment and distribution of resources. The sustainability of services and data is ensured through the CNRS institutional support, the hosting by a public research institute in linguistics and NLP of CNRS and Nancy University (ATILF – Analyse et Traitement Informatique de la Langue Française), and integration into the european networks of resource centres for the humanities (CLARIN and DARIAH).

Introduction

Dans le cadre des travaux de recherche en Sciences Humaines et Sociales, les aspects de valorisation et exploitation scientifiques de documents sont particulièrement importants et stratégiques pour servir de support à la fois : aux travaux de recherche : la notion de corpus d’étude est en effet très présente dans la plupart des disciplines en SHS, que cela soit en linguistique, et plus spécifiquement en linguistique de corpus, en langue, en littérature, en histoire, en droit, en didactique, etc.

à la diffusion des résultats de ces travaux qui passe le plus souvent par la production de documents textuels : articles et livres bien sûr, mais aussi documents plus spécialisés tels des dictionnaires ou des lexiques.

Aujourd’hui, un des aspects essentiels pour l’exploitation et la valorisation de tels documents est leur informatisation et leur disponibilité sur le Web sous forme de documents numériques permettant, grâce à des outils intelligents de recherche et de navigation qui ne se limitent pas à l’exploitation de simples mots clés ou d’informations décrivant leurs structures, un véritable accès par le contenu à travers soit une recherche plein texte, soit une exploitation d’annotations et de balisages représentatifs de ce contenu informationnel.

Dans cet article, après avoir discuté de l’intérêt de proposer une valorisation ou exploitation de documents numériques pour la recherche en SHS, et plus particulièrement dans le champ de la linguistique, nous nous interrogerons sur les contraintes que doivent, à nos yeux, respecter de tels documents numériques. Puis en nous limitant à des documents numériques relatifs à notre domaine de compétence, la linguistique et plus particulièrement le lexique français, nous détaillerons deux exemples de structuration et d’exploitation de documents numériques : le TLFi (www.atilf.fr/tlfi), version informatisée du Trésor de la Langue Française(1), l’un des plus grands dictionnaires de langue du français et le portail lexical du Centre National de Ressources Textuelles et Lexicales (CNRTL : www.cnrtl.fr), récemment mis en place, au sein de l’ATILF, sous l’égide du CNRS. Avertissement Nous illustrerons au maximum cet article par un certain nombre de figures reflétant divers usages de ces documents numériques, néanmoins nous conseillons au lecteur d’ouvrir une fenêtre sur son navigateur préféré pour mieux percevoir l’intérêt de telles exploitations de documents structurés en suivant les liens indiqués dans le texte.

Importance de la valorisation et de l’exploitation de documents numériques pour la recherche linguistique

Les enjeux de la linguistique de corpus et du traitement automatique des langues

Le traitement automatique des langues (TAL) et la linguistique de corpus sont devenus, au cours des dernières années, des domaines-clés pour répondre aux besoins de notre société en terme d’analyse et d’exploitation de gisements d’information, le plus souvent sous forme textuelle, et aujourd’hui largement disponibles, en particulier sur le Web (2). Une analyse de l’évolution de la linguistique au cours du dernier demi-siècle montre que sa confrontation avec l’informatique et les mathématiques lui a permis de se définir de nouvelles approches. C’est ainsi qu’au-delà d’une simple linguistique descriptive s’est développée une linguistique formelle, couvrant aussi bien les aspects lexicaux que syntaxiques ou sémantiques, qui tend à proposer des modèles s’appuyant sur une double validation, explicative d’un point de vue linguistique, opératoire d’un point de vue informatique. Par ailleurs la disponibilité de ressources textuelles électroniques de grandes tailles (corpus, bases de données textuelles, dictionnaires et lexiques) et les progrès de l’informatique, tant en matière de stockage que de puissance de calcul, ont créé, au cours des années 1990, un véritable engouement pour les approches statistiques et probabilistes sur « corpus » (3). Ainsi se structura petit à petit un nouveau champ de recherche : la linguistique de corpus (4) permettant au linguiste d’aller au-delà de l’accumulation de faits de langue et de confronter ses théories à l’usage effectif de la langue.

Ces études et recherches en TAL et en linguistique de corpus nécessitent de plus en plus l’usage de vastes ressources linguistiques : textes et corpus, si possible annotés, dictionnaires, outils de gestion et d’analyse de ces ressources. Le coût de réalisation de telles ressources justifie pleinement des efforts de normalisation et de mutualisation pour permettre à la communauté de recherche de bénéficier, pour le français, de ressources comparables à celles existant pour d’autres grandes langues tel l’anglais.

Par ailleurs, ce champ de la linguistique de corpus et du TAL est porteur d’enjeux incontournables tant pour une meilleure connaissance et modélisation de la langue que pour nous permettre de progresser vers une véritable exploitation du contenu informationnel le plus souvent sous formes langagières ou textuelles, ou de valider, échanger et confronter nos résultats en TAL.

Quelles ressources et corpus pour l’étude des langues aujourd’hui ?

Corpus textuels

Le premier type de ressources, indispensable pour le développement de nombreuses études sur la langue, son analyse et son traitement, concerne les corpus textuels. Leur rôle est en effet central pour permettre la construction de modèles représentatifs de l’usage effectif de la langue. Il s’agit le plus souvent de faire émerger des invariants ou, au contraire, des comportements particuliers d’entités linguistiques. Si, pendant longtemps, ce type d’activité a pu se satisfaire des connaissances intrinsèques sur la langue qu’a le chercheur, les besoins de validation objective du monde scientifique nécessitent de plus en plus le maniement de vastes ensembles d’exemples attestés. La question fondamentale est alors de savoir comment recueillir des données fiables sur l’usage effectif de la langue. Le Web est aujourd’hui une source importante d’extraction de corpus, mais deux travers de taille caractérisent les textes disponibles sur le Web (5) :

Leur qualité est souvent très discutable. Sans parler des nombreuses fautes qui demeurent dans bien des textes disponibles sur la toile, on y retrouve un mélange de textes, de formes, de genres et de niveaux de langue ou d’époques très disparates, incompatible avec la nécessité de travailler sur des corpus homogènes de référence pour pouvoir tout à la fois construire des modèles pertinents, les valider et les confronter.
La pérennité de leur disponibilité n’est pas toujours assurée. Le propre du Web est de fournir des informations en constante évolution et, dans le cadre de projets de recherche, leur durée de vie est souvent inférieure à la durée de vie des projets qu’elles sous-tendent, ce qui rend très souvent impossible des comparaisons objectives de résultats.

La question de la qualité et de la disponibilité de corpus de référence reste donc importante et, pour s’en convaincre, il suffit d’analyser certains projets nationaux ou internationaux. Ainsi en France le projet « technolangue » , lancé par le Ministère français de la Recherche et des nouvelles Technologies, indiquait parmi ses quatre thèmes d’appel à proposition un volet sur les ressources linguistiques dont l’objectif était de stimuler la production, la validation et la diffusion de ressources linguistiques pour répondre aux besoins minimaux pour l’étude de la langue française, favoriser la réutilisabilité de ces ressources et diminuer le coût du « ticket d’entrée » dans le secteur. Les besoins sont en effet très diversifiés : que ce soit en terme de types de textes (littéraires, scientifiques ou techniques, mono et multilingues), ou en termes d’usages (professionnels ou grand public), la nécessité de vastes corpus normalisés, annotés et validés s’impose.

Dictionnaires et lexiques

Le second type de ressources concerne les dictionnaires et les lexiques. Bon nombre des arguments développés ci-dessus peuvent aussi s’appliquer à ce domaine. Or aucun traitement automatique de la langue ne peut se passer du niveau lexical, et la disponibilité de ressources de ce type est unanimement reconnue comme indispensable pour la plupart des traitements. Là encore les besoins sont très divers dans un contexte mono ou multilingue : dictionnaires spécialisés et dictionnaires généraux de langue, lexiques techniques ou bases terminologiques, par exemple.

Si, une fois de plus, la toile offre des réponses diversifiées à ce besoin, nombre de questions demeurent concernant tout à la fois la qualité, la richesse, la couverture et la disponibilité de telles ressources. Il suffit pour s’en convaincre d’analyser les réponses que l’on peut obtenir après une interrogation de la toile à partir, par exemple, de « dictionnaire + langue française » ! Nous sommes pour notre part convaincus qu’il importe de développer et partager des ressources de ce type et c’est cette conviction qui nous amena à proposer une version informatisée du Trésor de la Langue Française (www.tlfi.fr) et d’en dériver un lexique ouvert des formes fléchies du français (540 000 formes issues de 68 000 lemmes : http://www.cnrtl.fr/lexiques/morphalou/).

Des outils d’accès et de traitements

Un troisième type de ressources, complément des deux précédents, concerne les outils d’accès et de traitement de ces ressources. Deux types d’outils méritent une attention toute particulière :

Les outils de gestion et d’exploitation des ressources textuelles, lexicales ou dictionnairiques. Que seraient en effet des ressources textuelles ou dictionnairiques du type de celles envisagées ci-dessus sans les logiciels d’exploration de ces ressources ?
Les outils de base indispensables pour permettre à une équipe de recherche de proposer des avancées sur tel ou tel point : lemmatisation, conjugaison ou étiquetage morphosyntaxique.

Une fois de plus on ne peut que noter, tout en le regrettant, le manque de disponibilité d’outils fiables et généraux de ce type. Faute de cette disponibilité, la première tâche d’une équipe de recherche ou de développement travaillant sur des ressources linguistiques et plus généralement sur la langue consiste souvent, aujourd’hui, à redévelopper de tels outils !

@@ Ligne 54 : / Ligne 54 : @@
 ====Des outils d’accès et de traitements ====
 Un troisième type de ressources, complément des deux précédents, concerne les outils d’accès et de traitement de ces ressources. Deux types d’outils méritent une attention toute particulière :
-#1.	Les outils de gestion et d’exploitation des ressources textuelles, lexicales ou dictionnairiques. Que seraient en effet des ressources textuelles ou dictionnairiques du type de celles envisagées ci-dessus sans les logiciels d’exploration de ces ressources ?
+#Les outils de gestion et d’exploitation des ressources textuelles, lexicales ou dictionnairiques. Que seraient en effet des ressources textuelles ou dictionnairiques du type de celles envisagées ci-dessus sans les logiciels d’exploration de ces ressources ?
 #Les outils de base indispensables pour permettre à une équipe de recherche de proposer des avancées sur tel ou tel point : lemmatisation, conjugaison ou étiquetage morphosyntaxique.
 Une fois de plus on ne peut que noter, tout en le regrettant, le manque de disponibilité d’outils fiables et généraux de ce type. Faute de  cette disponibilité, la première tâche d’une équipe de recherche ou de développement travaillant sur des ressources linguistiques et plus généralement sur la langue consiste souvent, aujourd’hui, à redévelopper de tels outils !

CIDE (2007) Pierrel : Différence entre versions

Version du 14 mai 2012 à 10:39

Sommaire

Introduction

Importance de la valorisation et de l’exploitation de documents numériques pour la recherche linguistique

Les enjeux de la linguistique de corpus et du traitement automatique des langues

Quelles ressources et corpus pour l’étude des langues aujourd’hui ?

Corpus textuels

Dictionnaires et lexiques

Des outils d’accès et de traitements

Menu de navigation

Affichages

Outils personnels

Navigation

Rechercher

Outils