CIDE (2007) Poudat

De CIDE

Le document numérique dans le monde scientifique linguistique francophone : stabilité générique et déroulement textuel


 
 


 
Titre
Le document numérique dans le monde scientifique linguistique francophone : stabilité générique et déroulement textuel
Auteurs
Céline Poudat.
celine.poudat@enst.fr
Affiliation
ERTIM, INALCO, Paris.
In
CIDE'10 (Nancy 2007)
En ligne
http://lodel.irevues.inist.fr/cide/index.php?id=257
Mots-clés
::genres scientifiques ; article scientifique ; analyse en composantes principales ; déroulement textuel
Résumé 
 :On se propose d’observer les documents scientifiques de linguistique francophone à travers leur genre d’appartenance, appréhendé au niveau morphosyntaxique, et leur structure, abordée en termes de déroulement textuel. Le profil générique obtenu représente un moyen intéressant d’exploration de la discipline, et permet d’obtenir une première cartographie des documents et de leurs supports. Le déroulement textuel des textes, également stabilisé au niveau du genre, semble représenter un filtre pertinent qui pourrait intéresser la recherche d’information, en quête de critères efficaces et facilement implémentables

Le document numérique dans le monde scientifique linguistique

Genres et documents

Les textes scientifiques sont de plus en plus répandus sur le Web, dans des cadres (bases de données scientifiques, revues en ligne en accès libre ou non, etc.) et des formats différents (PDF, html, etc.). La recherche d’information s’effectue généralement au moyen des mots-clés définis par l’auteur, qui correspondent aux différents thèmes abordés dans le document, ou au niveau du texte lui-même (texte intégral, ou full text)ou de son résumé (abstract). La recherche s’effectue ainsi au niveau du mot ou du lemme dans le meilleur des cas, tandis que la dimension textuelle se trouve évacuée de ces modèles. Cette limitation nous semble dommageable, dans la mesure où elle entraîne un bruit considérable dans les résultats ramenés : un texte n’est pas un « sac de mots », mais un objet linguistique organisé et régulé sur des plans qui pourraient optimiser la recherche d’information s’ils étaient pris en compte.

Ces niveaux de normalisation textuelle sont déterminés par les paliers supra-textuels qui régulent le texte et les phénomènes locaux qui l’affectent. Parmi ces paliers, le genre est un niveau central et aujourd’hui observable, grâce au développement de la linguistique de corpus, de la statistique et du traitement automatique des langues en général.

Les textes scientifiques sont ainsi définis par leur genre et leur discours d’appartenance, eux-mêmes soumis aux exigences d’une pratique sociale (Rastier, 2001). Ils s’ancrent dans la pratique sociale de la communication scientifique, et sont régulés par un discours scientifique qui se réalise à travers des genres différents – comptes rendus, articles, conférences, posters, etc., qui varient dans leur forme et leur contenu selon la langue et la discipline considérées.

Les genres scientifiques présentant la particularité d’imposer des contraintes rigides, exprimées au moyen des feuilles de style et des consignes aux auteurs présentes dans les revues ou dans les modalités d’appel à communication des conférences ou des colloques, ils ont l’intérêt d’être plus régulés, et donc plus observables au niveau formel.

La présente étude vise ainsi à démontrer l’intérêt de prendre en compte les genres textuels pour caractériser et explorer les documents scientifiques à travers deux exemples de régulation générique, qui représentent deux critères qui nous semblent productifs pour affiner la recherche d’information dans les textes : la morphosyntaxe des genres, qui s’avère particulièrement efficace pour classifier les textes, et le déroulement textuel des concepts, qui permet de distinguer concepts de forme et de fond (Rastier, 2005). Puisque les textes et les genres varient substantiellement d’une discipline à l’autre, c’est sur le domaine linguistique francophone que nous avons choisi de nous concentrer.

Spécificités du domaine scientifique linguistique

La linguistique présente la particularité d’être à la croisée des sciences humaines et sociales et des sciences de la nature. Si l’on s’intéresse au monde francophone, la discipline ne s’est institutionnalisée que récemment et nombre de ses chercheurs ont une formation annexe de lettres modernes ou de philosophie du langage, qui transparaît dans le style et les références des textes publiés. Le développement de l’informatique et du traitement automatique des langues, et le succès des formalismes linguistiques a en outre orienté un versant de la discipline vers les sciences dites ‘dures’.

Il apparaît rapidement que les articles faisant autorité dans le domaine ne sont pas nécessairement rédigés en anglais[1]. Si les textes publiés en anglais dans les revues de linguistique internationales sont globalement indexés dans les bases scientifiques existantes, il en va différemment des textes publiés dans le monde scientifique linguistique francophone, qui accuse un retard certain à ce niveau : la plupart des documents ne contiennent ainsi ni mots-clés ni résumé, et à notre connaissance, il n’existe ni cartographie précise et délimitée des branches de la linguistique française, ni typologie des genres scientifiques que produit la discipline, ce qui renforce l’intérêt de notre étude.

A l’instar de l’ensemble des disciplines de sciences humaines, les articles de linguistique ne sont pas soumis à la structure IMRAD (Introduction, Materials and methods, Results, Analysis, Discussion) que l’on peut observer dans les sciences de la nature ; une annotation XML des sections de l’article parait donc difficilement exploitable, dans la mesure où une section 2 ne renvoie par exemple à aucune réalité spécifique. Au mieux, on observe la présence constante d’une introduction et celle moins systématique d’une conclusion, ce qui a conduit (Swales 2004) à soutenir que les textes de sciences humaines avaient une structure de type introduction – développement – conclusion. Si la structure des textes de sciences humaines est difficilement observable et exploitable sur la seule base d’une annotation XML des sections textuelles, d’autres critères peuvent être envisagés du fait de la structure normée du genre, sur la base par exemple de phrases spécifiques aux différentes sections, ou catégories rhétoriques de l’article de recherche (Kando, 1999).

Il convient ainsi de concevoir d’autres moyens d’observer et d’exploiter la structure des articles qui ne se conforment pas à la structure IMRAD, ce qui permettrait de localiser et d’extraire l’information de manière plus précise en tenant en compte du texte.

Après avoir présenté les corpus, les méthodes et les observables mobilisés par la présente étude (section 2), nous observerons les régulations morphosyntaxiques globales qu’imposent les genres sur les documents (section 3). La section 4 présentera ensuite une mesure du déroulement textuel du document, permettant d’identifier et de filtrer les concepts, appréhendés ici au niveau du mot.

Corpus, observables et méthodologie d’analyse

Corpus

L’article de revue représente le genre scientifique numérique le plus accrédité – du fait de son statut particulier dans le champ[2], le plus répandu et le plus mobilisé par la recherche d’information.

Plutôt qu’une sélection de chaque article un à un[3], un ensemble de revues accréditées dans le champ scientifique linguistique francophone a été collecté, ce qui garantit l’attestation et la conformité de chacun des articles du corpus. Puisqu’ils sont généralement thématiques, les numéros de revues ont été conservés dans leur intégralité (hors articles de langue étrangère bien entendu), ce qui nous permettra d’évaluer l’impact d’un thème sur les pratiques rédactionnelles. Le genre s’observant d’abord en synchronie, c’est l’année de publication 2000 qui été arrêtée.

ASLF (Articles Scientifiques de Linguistique Française) contient donc 224 articles scientifiques extraits de 32 numéros de revues (soit 11 revues) francophones de sciences du langage publiées autour de 2000 ;

Toute caractérisation étant différentielle, nous mobilisons en outre trois corpus de comparaison de taille plus modeste :

CRL (Comptes Rendus de Linguistique) est constitué de 53 comptes rendus publiés dans cinq revues de linguistique (LINX, Cahiers de praxématiques, RSP, Semen et Verbum) ;

PRL (Présentations de Revues Linguistiques) comprend 45 présentations de numéros de revues ;

On soulignera que l’article introductif de numéro thématique et le compte rendu (d’ouvrage ou de conférence) sont les deux seuls genres, de présence d’ailleurs non systématique, qui ont pu être relevés dans les revues de linguistique recueillies ;

Enfin, AMF[4] (Actes de Mécanique Française), qui nous permettra de contraster la linguistique à un autre domaine scientifique, comprend 49 textes extraits du XVe Congrès Français de Mécanique, conduit sous l’égide du groupe « thématiques transverses » AUM de l’Association Française de Mécanique (AFM).

Construction d’observables

Bien qu’il soit en théorie peu pertinent de privilégier un niveau d’analyse linguistique pour caractériser un genre, c’est le niveau d’annotation morphosyntaxique que nous avons privilégié, d’une part parce qu’il représente le niveau d’annotation le plus développé et le plus automatisable (de nombreux étiqueteurs opérationnels sont disponibles), et d’autre part parce qu’il a montré son efficacité en matière de classification ou de validation de typologies textuelles (Biber 1988, Karlgren & Cutting 1994, Kessler et al. 1997, Rayson & Garside 2000, Habert,2000, Malrieu&Rastier 2001, etc.).

Le système d’annotation que nous mobilisons dans la présente étude[5] comprend 129 étiquettes[6] au total. Il fédère trois types de variables : un ensemble de catégories morphosyntaxiques « de langue », incluant les grandes parties du discours et leurs attributs traditionnels (nombre, temps et modes verbaux, etc.), un ensemble de variables supposées caractéristiques du discours scientifique (distinction des IL anaphorique/impersonnel, des connecteurs généralement étiquetés comme adverbes, annotation des indices de structuration de type 1.1.2., des éléments de langue étrangère, etc.) et des catégories spécifiques au métalangage linguistique (e.g. annotation de l’étoile d’acceptabilité linguistique). Le système employé fédère donc différents niveaux d’observation linguistique, dans la mesure il combine des variables morphosyntaxiques et sémantiques. De manière générale, cette démarche d’adaptation des descripteurs aux documents scientifiques nous semble cruciale, tant pour cibler l’information scientifique que pour décrire et observer les textes et les genres. Les différents corpus d’étude ont ainsi été annotés avec ces descripteurs, par entraînement de l’étiqueteur morphosyntaxique TnT.

Analyses menées

Deux types de méthodes sont mobilisées pour éprouver les stabilisations génériques du document : l’ACP (Analyse en Composantes Principales), qui nous permettra d’observer la stabilité des genres, et une méthode de fractionnement textuel implémentée par (Loiseau, 2006), qui nous permettra d’observer les concepts à travers leur déroulement textuel.

Analyse en Composantes Principales

Initialement appliquée par (Biber 1988) sur les variables morphosyntaxiques, l’ACP est une méthode factorielle qui nous permettra :

  • d’examiner les relations entre les textes et de repérer les groupes d’individus homogènes, ainsi que les individus au comportement atypique ;
  • de construire un ensemble de variables artificielles « expliquant » l’ensemble des descripteurs pris en compte : ces variables permettent une réduction du tableau de données originel puisqu’au prix d’une perte d’information, il est possible de remplacer les 129 variables de départ par un ensemble beaucoup plus réduit de variables statistiques artificielles, i.e. les facteurs ;

Nous serons ainsi en mesure d’observer la structure du genre de l’article.

Déroulement textuel

Parmi les dimensions qu’il est pertinent de considérer, le déroulement textuel des documents nous semble particulièrement intéressant pour la recherche d’information eu égard à la structure très normée du genre de l’article. On pourra ainsi apprécier la répartition des descripteurs et des concepts dans les textes, fractionnés en dix sections de taille égale au moyen du logiciel CR développé par S. Loiseau [7].

Chaque dixième textuel est la fréquence cumulée de l’ensemble des occurrences de l’item à cette position ; ce choix peut paraître singulier, mais (Loiseau 2006) a montré que la prise en compte de la moyenne par texte (ou par unité) des occurrences à l’intérieur de chaque dixième ne modifiait pas significativement les résultats obtenus.

Vers une cartographie du domaine linguistique : genres et revues

Les quatre pôles du genre scientifique de l’article

Examinons d’abord le premier plan factoriel de l’ACP :

Figure 1:Positionnement des variables sur les deux premiers axes factoriels – corpus ASLF

On observe globalement quatre pôles : un pôle regroupant l’ensemble des descripteurs de la rhétorique scientifique (en bleu, e.g. présent, pronoms on et il impersonnel, deux points, connecteurs d’opposition, etc.), qui s’oppose sur les deux premiers axes à un groupement de traits morphosyntaxiques défini par l’emploi intercorrélé du passé simple et de l’imparfait et de leurs homologues composés (en vert), qui dessine un mode de narration plus historique et plus proche du discours romanesque. Il est d’ailleurs intéressant de noter que cette opposition narrative (présent / passé) correspond au second facteur que(Biber 1988) avait pu observer sur un corpus hétérogène anglais.

Associé aux dates et aux noms propres, qui confirment bien la présence d’une composante historique, ce groupement s’oppose également sur le premier axe à un ensemble de descripteurs caractéristiques de l’oral (en gris : marques de première et de seconde personne, points d’interrogation et d’exclamation, interjections, etc.), spécifiques aux articles plus exemplifiés travaillant sur corpus oraux, et sur le deuxième axe aux marqueurs de formalisation (en jaune : symboles, formalisations linguistiques, barres obliques, parenthèses et accolades).

On voit ainsi s’opposer deux modes d’exposition de la science : un mode narratif, plus spécifique aux sciences humaines, et un mode d’exposition formelle, qui opposent finalement raconter et présenter.

Bien qu’ils soient de taille plus modeste[8], CRL et PRL ont été traités de la même manière qu’ASLF. Pour faciliter la comparaison, nous avons repositionné les groupements de descripteurs associés aux pôles d’opposition du genre de l’article sur les nouveaux plans factoriels : on observe ainsi des différences d’organisation importantes qui illustrent bien la forte stabilisation morphosyntaxique des genres et l’hétérogénéité intrinsèque du discours scientifique – appréhendé ici au sein d’un même domaine :

CIDE 7 Poudat1.jpg
Figure 9:Positionnement des variables sur les deux premiers axes factoriels – corpus PRL et CRL

Positionnement des variables sur les deux premiers axes factoriels – corpus PRL et CRL

On observe certaines similarités entre les genres : le pôle formalisation est par exemple plus marqué dans les comptes rendus et les articles. On observe en revanche un pôle additionnel temporel/énumératif (groupement intercorrélé des numéros ordinaux, connecteurs temporels, virgules) des comptes rendus (haut du graphique), tandis que les présentations se caractériseraient par une tension exposition / introduction vs. discussion / état de l’art très visible sur l’axe 1, qui renvoie aux deux conceptions du genre que l’on peut observer dans les textes.

Position des revues et des numéros thématiques

Nous avons ensuite cherché à positionner les revues auxquelles les documents considérés se rattachaient ; dans cette perspective, nous avons utilisé l’épreuve du bootstrap (Lebart, 2004) via DTM afin de tracer des zones de confiance autour des 11 modalités de la variable supplémentaire « Revue » prise en compte, ce qui nous donne la représentation graphique suivante :

Figure 3:Figure 3. Ellipses de confiance autour des 11 revues de linguistique

Bien qu’aucune revue ne soit significativement distincte (ellipse non recouverte), on observe d’importantes différences entre elles : Langue française et HEL se positionnent clairement sur le pôle historico-narratif ; LINX semble contenir davantage de textes impliquant de la formalisation, tandis que RSP, Scolia, Langage et les Cahiers de praxématique adopteraient une rhétorique plus expositoire et traiteraient davantage de l’oral.

Ces résultats, qui ne sont fondamentalement pas surprenants, nous semblent déjà dessiner une première approximation cartographique du domaine scientifique linguistique ; positionner un document ou une revue en termes disciplinaires nous semble particulièrement intéresser la recherche d’information.

Les revues francophones de linguistique étant plutôt thématiques que spécialisées, les résultats sont plus nets si l’on considère les numéros thématiques du corpus ASLF :

Figure 4:Ellipses de confiance autour des 32 numéros de revue

Ceux-ci se distinguent en effet de manière bien plus nette et plus pertinente : deux numéros thématiques de la revue Langue Française sont ainsi très significativement distincts : le numéro sur la Parole intérieure édité par Bergounioux et celui de Cuxac « La langue des signes : enjeux institutionnels et linguistiques » : les deux revues se situent ainsi sur le pôle le plus historique et le moins appliqué, ce qui correspond bien à leur orientation scientifique générale.

Conclusions et applications

Cette première étude propose d’abord une primo-cartographie du domaine linguistique francophone, et de ses principaux pôles d’application. Le niveau de description adopté permet ainsi de délimiter des pôles thématiques qui correspondent à des orientations différentes de la recherche permettant de distinguer les articles, mais également les numéros thématiques et les revues de linguistique. Au final, on a pu observer différents types d’articles : les articles plus narratifs de linguistique historique, ceux de linguistique formelle et formalisée et les textes plus intéressés par l’oral. Ces orientations nous semblent intéressantes pour l’utilisateur expert dans la mesure où elles correspondent à des catégories intuitives (formel / narratif, appliqué / théorique) qui pourraient lui permettre d’affiner ses recherches.

Notons également que cette description ouvre des possibilités de catégorisation automatique des genres et des revues de linguistique : articles, comptes rendus et articles introductifs de numéro ont ainsi des propriétés génériques bien distinctes, qui permettent d’envisager leur catégorisation automatique.

Déroulement textuel

Si l’observation du déroulement textuel par fractionnement du texte (en dix sections ici) permet de faire émerger de nouveaux phénomènes linguistiques (4.1), cette mesure nous semble particulièrement intéresser l’extraction des concepts scientifiques, a fortiori lorsque les documents ne sont pas structurés selon le standard IMRAD (4.2).

Observation de nouveaux phénomènes linguistiques : l’exemple du futur et du conditionnel

Fait intéressant, les temps du futur et du conditionnel se déroulent de manière opposée : si l’on observe une décroissance du futur au fil du texte, le conditionnel atteint son maximum en fin d’article :

CIDE 7 Poudat5.png
Figure 5:Déroulements textuels du futur et du conditionnel – corpus ASLF

Le futur remplirait donc une fonction de guide et serait vraisemblablement associé à l’hypothèse développée au sein de l’article, tandis que le conditionnel serait associé à la conclusion (aux conclusions) de l’article, et ouvrirait le champ de la recherche à de nouvelles hypothèses.

On observe des phénomènes différents dans les autres corpus considérés : on observe une croissance des deux temps verbaux dans le domaine mécanique, tandis que le futur augmente en fin de texte dans les comptes rendus (« le plaisir qu’on prendra à sa lecture », « cet ouvrage haut en couleurs (…) fera date », « on retiendra… », etc.).

CIDE 7 Poudat7.png
Figure 6: Déroulements textuels du futur et du conditionnel – corpus CRL, PRL et AMF

Déroulement textuel des concepts

Les profils conceptuels obtenus s’avèrent particulièrement discriminants : certains items, comme objet ou question sont plus concentrés en début d’article et on observe une décroissance des deux entrées de l’introduction à la fin du texte. On peut légitimement penser qu’ils participent à la problématisation / exposition de la recherche présentée ; en ce sens, objet et question seraient des concepts instrumentaux plutôt que discutés.

Enfin, on observe des items comme type ou construction, plus denses en fin d’article : leur déroulement textuel est croissant, et ils semblent ainsi renvoyer aux objectifs généraux de la démarche scientifique linguistique – ici classificatoires et typologiques.

CIDE 7 Poudat9.jpg
Figure 7:Figure 7. Déroulements textuels de OBJET et TYPE – corpus ASLF

Au contraire, ce sont les formes RESULTATS, CAS et VALEURS que l’on observe en mécanique ; le déroulement textuel semble ainsi faire émerger de manière pertinence les lexiques épistémiques disciplinaires, ce qui permet de comparer les démarches et les présupposés méthodologiques adoptés.

Si l’on s’intéresse aux concepts discutés de l’article, la configuration tactique qui a particulièrement retenu notre attention a une forme précisément inverse de celle des concepts de corps d’article :

Figure 8: Déroulement textuel de SENS

Sens[9] est ainsi plus concentré en début et en fin d’article : on note une décroissance régulière du concept dans les trois premiers dixièmes, qui évoque un passage du général au spécifique (à partir du décile 4). La tendance s’inverse au-delà du décile 6, jusqu’au dixième décile – qui correspond globalement à la conclusion de l’article, où le concept revient brusquement, de manière vraisemblablement rhétorique.

Ce déroulement textuel incurvé semble spécifique aux concepts débattus, qui seraient ainsi davantage représentés en début et en fin d’article qu’en son corps :

CIDE 7 Poudat12.png

Outre sens, quatre candidats satisfont le critère tactique qui nous intéresse : discours, langue, langues et langage :

Figure 9:Configurations tactiques de DISCOURS et LANGUE

Après vérification, les articles ayant la configuration tactique précédemment observée semblent effectivement discuter la notion : le critère appliqué au concept langage permet par exemple d’identifier tous les textes explicitement dédiés à son étude (présence de langage dans le titre même de l’article) et, de manière plus intéressante, les textes qui discutent la notion sans qu’elle soit nécessairement annoncée. Par exemple, on relève la forme tactique pour langue dans un article de D. Leeman[10] ; le concept de langue est en effet discuté, ce qui n’aurait pas nécessairement été mis au jour sans ce critère.

Il en va différemment des comptes rendus et des présentations, qui n’ont naturellement pas des visées comparables, bien que l’on observe une croissance de langue et discours en fin de texte :

Figure 10: Déroulements textuels de DISCOURS et LANGUE – Corpus PRL et CRL

Ce paramètre tactique, de mise en œuvre plus aisée que d’autres critères, semble ainsi particulièrement discriminant, et pourrait intéresser certaines applications de recherche d’information, en facilitant le repérage et la localisation des thèmes textuels. L’utilisateur pourrait ainsi filtrer les concepts qui l’intéressent selon qu’ils sont problématisés, ou discutés.

Conclusion

Nous avons ainsi montré que les propriétés linguistiques des documents scientifiques s’avèrent fortement stabilisées par leurs genres d’appartenance, tant sur le plan morphosyntaxique qu’au niveau de leur déroulement textuel.

Le genre de l’article de revue linguistique, qui demeure le plus répandu dans le champ scientifique, est ainsi articulé autour de quatre pôles qui renvoient à des oppositions rhétoriques et domaniales, voire à une opposition théorique / appliqué. Ces quatre pôles permettent d’opposer et de positionner les documents et leurs supports (numéros thématiques et revues), et ce faisant, d’explorer une discipline encore mal cartographiée avec des critères originaux et interprétables ; leur prise en compte dans un système de recherche d’information scientifique pourrait permettre une indexation pertinente des textes. La prise en compte du déroulement textuel des documents nous semble particulièrement intéresser la recherche d’information, d’une part parce que l’implémentation d’une telle mesure est peu coûteuse, et d’autre part parce qu’elle permet de mieux circonscrire l’objet de la recherche. Nous envisageons de reconduire ces deux expérimentations sur d’autres genres et d’autres domaines scientifiques.


Références bibliographiques

[Biber 1988] D. Biber,  "Variation across Speech and Writing. Cambridge University Press, Cambridge, 1988"

[Habert,2000] B. Habert et al,  "Profilage de textes : cadre de travail et expérience, JADT 2000"

[Kando, 1999] N. Kando,  "Text Structure Analysis as a Tool to Make Retrieved Documents Usable, Proceedings of the 4th International Workshop on Information Retrieval with Asian Languages, Taipei, Taiwan, Nov. 11-12 1999, p. 126-132"

[Karlgren & Cutting 1994] J. Karlgren et D. Cutting,  "Recognizing text genres with simple metrics using discriminant analysis, Proceedings of COLING 94, Kyoto, 1994"

[Kessler et al. 1997] B. Kessler et al,  "Automatic Detection of Genre, Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics and the 8th Meeting of the European Chapter of the Association for Computational Linguistics, pages 32-38, Morgan Kaufmann Publishers, San Francisco CA, 1997"

[Lebart, 2004] L. Lebart,  " Validité des visualisations de données textuelles, Actes des 7emes JADT, Louvain-la-Neuve, 10-12 mars 2004, pp.708-715"

[Loiseau, 2006] S. Loiseau,  "Sémantique du discours philosophique chez Deleuze : du corpus au normes, Thèse de doctorat, Nanterre, 2006"

[Malrieu&Rastier 2001] D. Malrieu et F. Rastier,  "Genres et variations morphosyntaxiques, TAL, Vol. 42, n°2/2001."

[Poudat et Rinck, 2006] C. Poudat et F. Rinck,  " Contrastes internes et variations stylistiques du genre de l’article scientifique en linguistique, Actes de JADT 2006, pp. 785-796"

C. Poudat,  "Étude contrastive de l'article scientifique de revue linguistique dans une perspective d'analyse des genres, Thèse de doctorat, Orléans, 2006, Texto ! [en ligne], septembre-décembre 2006, vol. XI, n°3-4. http://www.revue-texto.net/Corpus/Publications/Poudat/Etude.html"

C. Poudat, G. Cleuziou et V. Clavier,  "Catégorisation de textes en domaines et genres : complémentarité des indexations, Document numérique vol. 9 n°1, Hermes, Editions Lavoisier, pp. 61-76" "

[Rastier, 2001] F. Rastier,  "Arts et Sciences du texte. Collection Formes sémiotiques. Presses Universitaires de France, Paris, 2001"

[Rastier, 2005] F. Rastier,  "Pour une sémantique des textes théoriques, Revue de sémantique et de pragmatique, 2005, n°17, p. 151-180. http : //www.revue-texto.net/Inedits/Rastier/Rastier_Textes.html"

[Rayson & Garside 2000] P. Rayson et R. Garside,  "Comparing Corpora using Frequency Profiling, Proceedings of the Workshop Comparing Corpora, 2000"

[Swales 2004] F. Swales,  "Research genres. Explorations and Applications. Cambridge University Press, Cambridge, 2004"

Notes

  1. Sans doute est-ce dû à l’objet même de la linguistique – la langue et les langues…
  2. Dans le champ (au sens bourdieusien du terme), la valeur du chercheur est souvent quantifiée au nombre d’articles qu’il a publié (Merton, Latour et Woolgar).
  3. Les articles d’une revue ayant déjà été sélectionnés par des experts, il serait peu pertinent de mettre en œuvre une seconde procédure de sélection
  4. Corpus recueilli par V. Clavier.
  5. Précisément documenté sur http://www.revue-texto.net/Corpus/Publications/Poudat/Chapitre_2.pdf
  6. 163 si l’on inclut les étiquettes positionnelles de type [PREPOSITION :1st] / [PREPOSITION :2nd].
  7. http://panini.u-paris10.fr/~sloiseau/CR/
  8. Nous avons montré par ailleurs dans (Poudat et Rinck, 2006) que l’on retrouvait les pôles génériques dans un corpus de taille plus modeste, mais de même genre – et construit selon une variable stylistique.
  9. Notons que seules les occurrences de sens catégorisées « Nom commun singulier » ont été prises en compte. Les locutions de type en ce sens sont étiquetées en tant que telles, et ne sont donc pas comptabilisées dans cette analyse. Les autres formes prises en compte au cours de l’analyse sont naturellement filtrées par leur catégorie morphosyntaxique.
  10. Leeman, D. « Dans un juron, il sauta sur ses pistolets. Aspects de la polysémie de la préposition » in Bergounioux (ed.), Approches Sémantiques des prépositions,RSP vol. 6, Orléans, 1999.