CIDE (2007) Poudat : Différence entre versions

Version du 21 mai 2012 à 13:54

Le document numérique dans le monde scientifique linguistique francophone : stabilité générique et déroulement textuel

Titre

Le document numérique dans le monde scientifique linguistique francophone : stabilité générique et déroulement textuel

Auteurs

Céline Poudat.

celine.poudat@enst.fr

Affiliation:Céline Poudat, ERTIM, INALCO, Paris.

Mots-clés: ::genres scientifiques ; article scientifique ; analyse en composantes principales ; déroulement textuel

Sommaire

1 Le document numérique dans le monde scientifique linguistique
- 1.1 Genres et documents
- 1.2 Spécificités du domaine scientifique linguistique
2 Corpus, observables et méthodologie d’analyse
- 2.1 Corpus
- 2.2 Construction d’observables
3 =Analyses menées
- 3.1 Analyse en Composantes Principales
- 3.2 Déroulement textuel
4 Vers une cartographie du domaine linguistique : genres et revues
- 4.1 Les quatre pôles du genre scientifique de l’article

Résumé

:On se propose d’observer les documents scientifiques de linguistique francophone à travers leur genre d’appartenance, appréhendé au niveau morphosyntaxique, et leur structure, abordée en termes de déroulement textuel. Le profil générique obtenu représente un moyen intéressant d’exploration de la discipline, et permet d’obtenir une première cartographie des documents et de leurs supports. Le déroulement textuel des textes, également stabilisé au niveau du genre, semble représenter un filtre pertinent qui pourrait intéresser la recherche d’information, en quête de critères efficaces et facilement implémentables

English description

The present study aims at describing scientific documents in the French linguistic field, taking into account the genre they belong to and the sequentiality of the texts. Genres are characterized thanks to morphosyntactic descriptors The generic profile we obtained enabled us to explore the linguistic domain, and to draw a first mapping of the documents and the journals they belong to, whereas text sequentiality turned to be a relevant filter for information retrieval.

Le document numérique dans le monde scientifique linguistique

Genres et documents

Les textes scientifiques sont de plus en plus répandus sur le Web, dans des cadres (bases de données scientifiques, revues en ligne en accès libre ou non, etc.) et des formats différents (PDF, html, etc.). La recherche d’information s’effectue généralement au moyen des mots-clés définis par l’auteur, qui correspondent aux différents thèmes abordés dans le document, ou au niveau du texte lui-même (texte intégral, ou full text)ou de son résumé (abstract). La recherche s’effectue ainsi au niveau du mot ou du lemme dans le meilleur des cas, tandis que la dimension textuelle se trouve évacuée de ces modèles. Cette limitation nous semble dommageable, dans la mesure où elle entraîne un bruit considérable dans les résultats ramenés : un texte n’est pas un « sac de mots », mais un objet linguistique organisé et régulé sur des plans qui pourraient optimiser la recherche d’information s’ils étaient pris en compte.

Ces niveaux de normalisation textuelle sont déterminés par les paliers supra-textuels qui régulent le texte et les phénomènes locaux qui l’affectent. Parmi ces paliers, le genre est un niveau central et aujourd’hui observable, grâce au développement de la linguistique de corpus, de la statistique et du traitement automatique des langues en général.

Les textes scientifiques sont ainsi définis par leur genre et leur discours d’appartenance, eux-mêmes soumis aux exigences d’une pratique sociale (Rastier, 2001). Ils s’ancrent dans la pratique sociale de la communication scientifique, et sont régulés par un discours scientifique qui se réalise à travers des genres différents – comptes rendus, articles, conférences, posters, etc., qui varient dans leur forme et leur contenu selon la langue et la discipline considérées.

Les genres scientifiques présentant la particularité d’imposer des contraintes rigides, exprimées au moyen des feuilles de style et des consignes aux auteurs présentes dans les revues ou dans les modalités d’appel à communication des conférences ou des colloques, ils ont l’intérêt d’être plus régulés, et donc plus observables au niveau formel.

La présente étude vise ainsi à démontrer l’intérêt de prendre en compte les genres textuels pour caractériser et explorer les documents scientifiques à travers deux exemples de régulation générique, qui représentent deux critères qui nous semblent productifs pour affiner la recherche d’information dans les textes : la morphosyntaxe des genres, qui s’avère particulièrement efficace pour classifier les textes, et le déroulement textuel des concepts, qui permet de distinguer concepts de forme et de fond (Rastier, 2005). Puisque les textes et les genres varient substantiellement d’une discipline à l’autre, c’est sur le domaine linguistique francophone que nous avons choisi de nous concentrer.

Spécificités du domaine scientifique linguistique

La linguistique présente la particularité d’être à la croisée des sciences humaines et sociales et des sciences de la nature. Si l’on s’intéresse au monde francophone, la discipline ne s’est institutionnalisée que récemment et nombre de ses chercheurs ont une formation annexe de lettres modernes ou de philosophie du langage, qui transparaît dans le style et les références des textes publiés. Le développement de l’informatique et du traitement automatique des langues, et le succès des formalismes linguistiques a en outre orienté un versant de la discipline vers les sciences dites ‘dures’.

Il apparaît rapidement que les articles faisant autorité dans le domaine ne sont pas nécessairement rédigés en anglais^[1]. Si les textes publiés en anglais dans les revues de linguistique internationales sont globalement indexés dans les bases scientifiques existantes, il en va différemment des textes publiés dans le monde scientifique linguistique francophone, qui accuse un retard certain à ce niveau : la plupart des documents ne contiennent ainsi ni mots-clés ni résumé, et à notre connaissance, il n’existe ni cartographie précise et délimitée des branches de la linguistique française, ni typologie des genres scientifiques que produit la discipline, ce qui renforce l’intérêt de notre étude.

A l’instar de l’ensemble des disciplines de sciences humaines, les articles de linguistique ne sont pas soumis à la structure IMRAD (Introduction, Materials and methods, Results, Analysis, Discussion) que l’on peut observer dans les sciences de la nature ; une annotation XML des sections de l’article parait donc difficilement exploitable, dans la mesure où une section 2 ne renvoie par exemple à aucune réalité spécifique. Au mieux, on observe la présence constante d’une introduction et celle moins systématique d’une conclusion, ce qui a conduit (Swales 2004) à soutenir que les textes de sciences humaines avaient une structure de type introduction – développement – conclusion. Si la structure des textes de sciences humaines est difficilement observable et exploitable sur la seule base d’une annotation XML des sections textuelles, d’autres critères peuvent être envisagés du fait de la structure normée du genre, sur la base par exemple de phrases spécifiques aux différentes sections, ou catégories rhétoriques de l’article de recherche (Kando, 1999).

Il convient ainsi de concevoir d’autres moyens d’observer et d’exploiter la structure des articles qui ne se conforment pas à la structure IMRAD, ce qui permettrait de localiser et d’extraire l’information de manière plus précise en tenant en compte du texte.

Après avoir présenté les corpus, les méthodes et les observables mobilisés par la présente étude (section 2), nous observerons les régulations morphosyntaxiques globales qu’imposent les genres sur les documents (section 3). La section 4 présentera ensuite une mesure du déroulement textuel du document, permettant d’identifier et de filtrer les concepts, appréhendés ici au niveau du mot.

Corpus, observables et méthodologie d’analyse

Corpus

L’article de revue représente le genre scientifique numérique le plus accrédité – du fait de son statut particulier dans le champ^[2], le plus répandu et le plus mobilisé par la recherche d’information.

Plutôt qu’une sélection de chaque article un à un^[3], un ensemble de revues accréditées dans le champ scientifique linguistique francophone a été collecté, ce qui garantit l’attestation et la conformité de chacun des articles du corpus. Puisqu’ils sont généralement thématiques, les numéros de revues ont été conservés dans leur intégralité (hors articles de langue étrangère bien entendu), ce qui nous permettra d’évaluer l’impact d’un thème sur les pratiques rédactionnelles. Le genre s’observant d’abord en synchronie, c’est l’année de publication 2000 qui été arrêtée.

ASLF (Articles Scientifiques de Linguistique Française) contient donc 224 articles scientifiques extraits de 32 numéros de revues (soit 11 revues) francophones de sciences du langage publiées autour de 2000 ;

Toute caractérisation étant différentielle, nous mobilisons en outre trois corpus de comparaison de taille plus modeste :

CRL (Comptes Rendus de Linguistique) est constitué de 53 comptes rendus publiés dans cinq revues de linguistique (LINX, Cahiers de praxématiques, RSP, Semen et Verbum) ;

PRL (Présentations de Revues Linguistiques) comprend 45 présentations de numéros de revues ;

On soulignera que l’article introductif de numéro thématique et le compte rendu (d’ouvrage ou de conférence) sont les deux seuls genres, de présence d’ailleurs non systématique, qui ont pu être relevés dans les revues de linguistique recueillies ;

Enfin, AMF^[4] (Actes de Mécanique Française), qui nous permettra de contraster la linguistique à un autre domaine scientifique, comprend 49 textes extraits du XVe Congrès Français de Mécanique, conduit sous l’égide du groupe « thématiques transverses » AUM de l’Association Française de Mécanique (AFM).

Construction d’observables

Bien qu’il soit en théorie peu pertinent de privilégier un niveau d’analyse linguistique pour caractériser un genre, c’est le niveau d’annotation morphosyntaxique que nous avons privilégié, d’une part parce qu’il représente le niveau d’annotation le plus développé et le plus automatisable (de nombreux étiqueteurs opérationnels sont disponibles), et d’autre part parce qu’il a montré son efficacité en matière de classification ou de validation de typologies textuelles (Biber 1988, Karlgren & Cutting 1994, Kessler et al. 1997, Rayson & Garside 2000, Habert,2000, Malrieu&Rastier 2001, etc.).

Le système d’annotation que nous mobilisons dans la présente étude^[5] comprend 129 étiquettes^[6] au total. Il fédère trois types de variables : un ensemble de catégories morphosyntaxiques « de langue », incluant les grandes parties du discours et leurs attributs traditionnels (nombre, temps et modes verbaux, etc.), un ensemble de variables supposées caractéristiques du discours scientifique (distinction des IL anaphorique/impersonnel, des connecteurs généralement étiquetés comme adverbes, annotation des indices de structuration de type 1.1.2., des éléments de langue étrangère, etc.) et des catégories spécifiques au métalangage linguistique (e.g. annotation de l’étoile d’acceptabilité linguistique). Le système employé fédère donc différents niveaux d’observation linguistique, dans la mesure il combine des variables morphosyntaxiques et sémantiques. De manière générale, cette démarche d’adaptation des descripteurs aux documents scientifiques nous semble cruciale, tant pour cibler l’information scientifique que pour décrire et observer les textes et les genres. Les différents corpus d’étude ont ainsi été annotés avec ces descripteurs, par entraînement de l’étiqueteur morphosyntaxique TnT.

=Analyses menées

Deux types de méthodes sont mobilisées pour éprouver les stabilisations génériques du document : l’ACP (Analyse en Composantes Principales), qui nous permettra d’observer la stabilité des genres, et une méthode de fractionnement textuel implémentée par (Loiseau, 2006), qui nous permettra d’observer les concepts à travers leur déroulement textuel.

Analyse en Composantes Principales

Initialement appliquée par (Biber 1988) sur les variables morphosyntaxiques, l’ACP est une méthode factorielle qui nous permettra :

d’examiner les relations entre les textes et de repérer les groupes d’individus homogènes, ainsi que les individus au comportement atypique ;

de construire un ensemble de variables artificielles « expliquant » l’ensemble des descripteurs pris en compte : ces variables permettent une réduction du tableau de données originel puisqu’au prix d’une perte d’information, il est possible de remplacer les 129 variables de départ par un ensemble beaucoup plus réduit de variables statistiques artificielles, i.e. les facteurs ;

Nous serons ainsi en mesure d’observer la structure du genre de l’article.

Déroulement textuel

Parmi les dimensions qu’il est pertinent de considérer, le déroulement textuel des documents nous semble particulièrement intéressant pour la recherche d’information eu égard à la structure très normée du genre de l’article. On pourra ainsi apprécier la répartition des descripteurs et des concepts dans les textes, fractionnés en dix sections de taille égale au moyen du logiciel CR développé par S. Loiseau ^[7].

Chaque dixième textuel est la fréquence cumulée de l’ensemble des occurrences de l’item à cette position ; ce choix peut paraître singulier, mais (Loiseau 2006) a montré que la prise en compte de la moyenne par texte (ou par unité) des occurrences à l’intérieur de chaque dixième ne modifiait pas significativement les résultats obtenus.

Vers une cartographie du domaine linguistique : genres et revues

Les quatre pôles du genre scientifique de l’article

Examinons d’abord le premier plan factoriel de l’ACP :

Fichier:CIDE 7 Poudat.png

Figure 1:Positionnement des variables sur les deux premiers axes factoriels – corpus ASLF

Fichier:CIDE 7 Poudat1.png

Figure 2:Positionnement des variables sur les deux premiers axes factoriels – corpus PRL et CRL

Fichier:CIDE 7 Poudat2.png

Figure 3:Ellipses de confiance autour des 11 revues de linguistique

Figure 4:Ellipses de confiance autour des 32 numéros de revue

↑ Sans doute est-ce dû à l’objet même de la linguistique – la langue et les langues…
↑ Dans le champ (au sens bourdieusien du terme), la valeur du chercheur est souvent quantifiée au nombre d’articles qu’il a publié (Merton, Latour et Woolgar).
↑ Les articles d’une revue ayant déjà été sélectionnés par des experts, il serait peu pertinent de mettre en œuvre une seconde procédure de sélection
↑ Corpus recueilli par V. Clavier.
↑ Précisément documenté sur http://www.revue-texto.net/Corpus/Publications/Poudat/Chapitre_2.pdf
↑ 163 si l’on inclut les étiquettes positionnelles de type [PREPOSITION :1st] / [PREPOSITION :2nd].
↑ http://panini.u-paris10.fr/~sloiseau/CR/

[1] Sans doute est-ce dû à l’objet même de la linguistique – la langue et les langues…

[2] Dans le champ (au sens bourdieusien du terme), la valeur du chercheur est souvent quantifiée au nombre d’articles qu’il a publié (Merton, Latour et Woolgar).

[3] Les articles d’une revue ayant déjà été sélectionnés par des experts, il serait peu pertinent de mettre en œuvre une seconde procédure de sélection

[4] Corpus recueilli par V. Clavier.

[5] Précisément documenté sur http://www.revue-texto.net/Corpus/Publications/Poudat/Chapitre_2.pdf

[6] 163 si l’on inclut les étiquettes positionnelles de type [PREPOSITION :1st] / [PREPOSITION :2nd].

[7] ttp://panini.u-paris10.fr/~sloiseau/CR/

[1]

[2]

[3]

[4]

[5]

[6]

[7]

@@ Ligne 64 : / Ligne 64 : @@
 Bien qu’il soit en théorie peu pertinent de privilégier un niveau d’analyse linguistique pour caractériser un genre, c’est le niveau d’annotation morphosyntaxique que nous avons privilégié, d’une part parce qu’il représente le niveau d’annotation le plus développé et le plus automatisable (de nombreux étiqueteurs opérationnels sont disponibles), et d’autre part parce qu’il a montré son efficacité en matière de classification ou de validation de typologies textuelles ({{CIDE lien citation|Biber 1988}}, {{CIDE lien citation|Karlgren & Cutting 1994}}, {{CIDE lien citation|Kessler et al. 1997}}, {{CIDE lien citation|Rayson & Garside 2000}}, {{CIDE lien citation|Habert,2000}}, {{CIDE lien citation|Malrieu&Rastier 2001}}, etc.).
-Le système d’annotation que nous mobilisons dans la présente étude5 comprend 129 étiquettes6 au total. Il fédère trois types de variables : un ensemble de catégories morphosyntaxiques « de langue », incluant les grandes parties du discours et leurs attributs traditionnels (nombre, temps et modes verbaux, etc.), un ensemble de variables supposées caractéristiques du discours scientifique (distinction des IL anaphorique/impersonnel, des connecteurs généralement étiquetés comme adverbes, annotation des indices de structuration de type 1.1.2., des éléments de langue étrangère, etc.) et des catégories spécifiques au métalangage linguistique (e.g. annotation de l’étoile d’acceptabilité linguistique). Le système employé fédère donc différents niveaux d’observation linguistique, dans la mesure il combine des variables morphosyntaxiques et sémantiques. De manière générale, cette démarche d’adaptation des descripteurs aux documents scientifiques nous semble cruciale, tant pour cibler l’information scientifique que pour décrire et observer les textes et les genres. Les différents corpus d’étude ont ainsi été annotés avec ces descripteurs, par entraînement de l’étiqueteur morphosyntaxique TnT.
+Le système d’annotation que nous mobilisons dans la présente étude<ref>Précisément documenté sur http://www.revue-texto.net/Corpus/Publications/Poudat/Chapitre_2.pdf </ref> comprend 129 étiquettes<ref>163 si l’on inclut les étiquettes positionnelles de type [PREPOSITION :1st] / [PREPOSITION :2nd].</ref> au total. Il fédère trois types de variables : un ensemble de catégories morphosyntaxiques « de langue », incluant les grandes parties du discours et leurs attributs traditionnels (nombre, temps et modes verbaux, etc.), un ensemble de variables supposées caractéristiques du discours scientifique (distinction des IL anaphorique/impersonnel, des connecteurs généralement étiquetés comme adverbes, annotation des indices de structuration de type 1.1.2., des éléments de langue étrangère, etc.) et des catégories spécifiques au métalangage linguistique (e.g. annotation de l’étoile d’acceptabilité linguistique). Le système employé fédère donc différents niveaux d’observation linguistique, dans la mesure il combine des variables morphosyntaxiques et sémantiques. De manière générale, cette démarche d’adaptation des descripteurs aux documents scientifiques nous semble cruciale, tant pour cibler l’information scientifique que pour décrire et observer les textes et les genres. Les différents corpus d’étude ont ainsi été annotés avec ces descripteurs, par entraînement de l’étiqueteur morphosyntaxique TnT.
+===Analyses menées==
+Deux types de méthodes sont mobilisées pour éprouver les stabilisations génériques du document : l’ACP (Analyse en Composantes Principales), qui nous permettra d’observer la stabilité des genres, et une méthode de fractionnement textuel implémentée par (Loiseau, 2006), qui nous permettra d’observer les concepts à travers leur déroulement textuel.
+====Analyse en Composantes Principales====
+Initialement appliquée par ({{CIDE lien citation|Biber 1988}}) sur les variables morphosyntaxiques, l’ACP est une méthode factorielle qui nous permettra :
+*d’examiner les relations entre les textes et de repérer les groupes d’individus homogènes, ainsi que les individus au comportement atypique ;
+*de construire un ensemble de variables artificielles « expliquant » l’ensemble des descripteurs pris en compte : ces variables permettent une réduction du tableau de données originel puisqu’au prix d’une perte d’information, il est possible de remplacer les 129 variables de départ par un ensemble beaucoup plus réduit de variables statistiques artificielles, i.e. les facteurs ;
+Nous serons ainsi en mesure d’observer la structure du genre de l’article.
+====Déroulement textuel====
+Parmi les dimensions qu’il est pertinent de considérer, le déroulement textuel des documents nous semble particulièrement intéressant pour la recherche d’information eu égard à la structure très normée du genre de l’article. On pourra ainsi apprécier la répartition des descripteurs et des concepts dans les textes, fractionnés en dix sections de taille égale au moyen du logiciel CR développé par S. Loiseau <ref>http://panini.u-paris10.fr/~sloiseau/CR/</ref>.
+Chaque dixième textuel est la fréquence cumulée de l’ensemble des occurrences de l’item à cette position ; ce choix peut paraître singulier, mais (Loiseau 2006) a montré que la prise en compte de la moyenne par texte (ou par unité) des occurrences à l’intérieur de chaque dixième ne modifiait pas significativement les résultats obtenus.
+==Vers une cartographie du domaine linguistique : genres et revues ==
+===Les quatre pôles du genre scientifique de l’article===
+Examinons d’abord le premier plan factoriel de l’ACP :
+[[fichier: CIDE 7 Poudat.png|600px|thumb|center|'''Figure 1''':Positionnement des variables sur les deux premiers axes factoriels – corpus ASLF]]
+[[fichier: CIDE 7 Poudat1.png|600px|thumb|center|'''Figure 2''':Positionnement des variables sur les deux premiers axes factoriels – corpus PRL et CRL]]
+[[fichier: CIDE 7 Poudat2.png|600px|thumb|center|'''Figure 3''':Ellipses de confiance autour des 11 revues de linguistique]]
+[[fichier: CIDE 7 Poudat3.png|600px|thumb|center|'''Figure 4''':Ellipses de confiance autour des 32 numéros de revue]]
+[[fichier: CIDE 7 Poudat3.png|600px|thumb|center|'''Figure 4''':Ellipses de confiance autour des 32 numéros de revue]]