Nuvola apps important.png Attention, suite à une faille de sécurité, les liens vers les serveurs d'exploration sont désactivés.

-

H2PTM (2007) Hassan

De H2PTM

Reconnaissance des intentions de communication écrite dans des corpus de documents scientifiques


 
 

 
Titre
Reconnaissance des intentions de communication écrite dans des corpus de documents scientifiques
Auteurs
Kanso Hassan(i,ii), Soulé-Dupuy Chantal(i,ii) et Saïd Tazi(i,iii)
Affiliations
(i)Université de Toulouse
2 rue du Doyen Gabriel Marty
31042 Toulouse cedex 9, France
(ii)IRIT-CNRS, Université Toulouse 1
2 rue du Doyen Gabriel Marty
31042 Toulouse cedex 9, France
(iii)LAAS-CNRS
7 avenue Colonel Roche, F-31077 Toulouse cedex 7
  • hassan.kanso@univ-tlse1.fr
  • chantal.soule-dupuy@univ-tlse1.fr
  • tazi@laas.fr
Dans
actes du colloque H2PTM 2007 Hammamet
publié dans H²PTM07 : Collaborer, échanger, inventer
Résumé
Le volume du nombre de documents disponibles au format électronique croît sans cesse au sein de toute organisation. Leur hétérogénéité structurelle n’en facilite pas l’exploitation. Les structures intentionnelles, prenant en compte les intentions de communications des auteurs, peuvent permettre de représenter la sémantique et la pragmatique des documents écrits. L’objectif de nos travaux est de proposer une démarche semi-automatique de reconnaissance des structures intentionnelles des documents écrits. Cette reconnaissance étant complexe, notre démarche repose sur une segmentation des documents selon leur structure logique suivie d’une reconnaissance manuelle des structures intentionnelles. La démarche méthodologique ainsi que les options d’implantation découlant de l’analyse expérimentale sont présentés dans cet article.
Mots-clés 
Intentions de communication écrite, Segmentation de texte, Structures intentionnelles.

Introduction

Le volume du nombre de documents disponibles au format électronique au sein de toute organisation croît sans cesse. Malheureusement, leur hétérogénéité structurelle n’en facilite pas l’exploitation. En effet, les structures de documents actuellement reconnues (logiques, physiques, hypertextes…) ne permettent pas une description de la sémantique ou de la pragmatique de leur contenu. De ce fait, la recherche et l’accès à ces documents devient de plus en plus complexe. Si les structures logiques ont apporté quelques améliorations dans le sens où ils permettent de retrouver et de se focaliser distinctement sur différentes parties des documents, leur faiblesse repose sur l’absence de toute considération sémantique ou pragmatique. Afin de pallier à ces faiblesses, des structures plus riches sont nécessaires. Dans cet article, nous nous concentrons sur l’organisation des éléments de documents selon les intentions des auteurs que nous appelons structures intentionnelles. Le mot intention dans ce contexte signifie les effets que les auteurs souhaitent avoir sur leurs lecteurs. Les structures intentionnelles, prenant en compte une représentation des intentions de communication des auteurs au sein d’un document écrit, peuvent être considérés comme une extension des structures de documents, ils peuvent également contribuer à la résolution du problème posé. C’est un nouveau modèle pour représenter la connaissance pragmatique du document écrit, et l'organisation des éléments de documents selon les intentions des auteurs. Les travaux présentés ici se situent dans ce contexte et visent à proposer une démarche formalisée pour la reconnaissance des intentions afin d’automatiser la segmentation des documents selon leurs structures intentionnelles. Cet article fournit le premier pas vers la reconnaissance d'intentions dans des publications scientifiques. Il a comme objectif de présenter la démarche de segmentation et de découverte des intentions. Ce travail se base sur un modèle d'intention défini dans (Al-Tawki, 2002), dans lequel les intentions sont annotées manuellement par les auteurs. La méthode de reconnaissance et de segmentation proposée est composée de deux phases, la première consiste à annoter manuellement un corpus de documents qui est utilisé pour permettre la reconnaissance automatique ; la seconde phase consiste à implanter un algorithme qui essaie de pousser l’automatisation de la reconnaissance au maximum. Un corpus de publications scientifiques dans le domaine de l'informatique a été employé. Après cette introduction, la section 2 de cet article présente notre positionnement par rapport à l’état de l’art des domaines concernés. Dans la section 3, la modélisation des intentions est illustrée par un exemple. La notion de structure intentionnelle y est également présentée. Les sections 4 et 5 présentent la méthode que nous proposons pour la reconnaissance des intentions dans un document écrit. L'article se termine par une discussion sur la démarche de reconnaissance des intentions.

Positionnement

Peu d'investigations, à notre connaissance ont été effectuées sur les intentions des auteurs dans le cadre de la structuration de documents. Toutefois il a été reconnu que la prise en compte des intentions des auteurs affecte la décision concernant la présentation du document sur un écran ou une feuille (Harrington, 2001). Or l’intention des auteurs peut être exprimée aussi bien par les caractéristiques de présentation du document que son contenu. Dans cette section, nous décrivons les travaux ayant pour but d’analyser les intentions des auteurs dans le contenu textuel des documents. Nous décrivons également quelques travaux relatifs à la segmentation de textes.

Le concept d’intention

Le concept d'intention est omniprésent dans n'importe quelle action humaine et est particulièrement important dans la communication orale ou écrite. Plusieurs travaux essaient d’expliquer les relations entre une action entreprise par un être humain et l'état mental qui guide cette action. Les travaux de Searle restent la référence principale dans ce domaine (Searle, 1983). L'écriture est une action intentionnelle. Sa caractéristique est qu'elle représente deux types d'action, les actions physiques d'utiliser un moyen pour transcrire la pensée en écrivant, et les actions qui visent à modifier l'état mental du lecteur en lui transmettant une information, une connaissance, un conseil ou un ordre (Tazi, 1998). Ce deuxième type d'action peut être accompli ou pas, selon le récepteur du texte écrit (le lecteur). Le concept d'intentions associé aux segments du document a été lancé par Grosz et Sidner (Grosz, 1986). Ce concept consiste à décrire les intentions de l'auteur pour chaque fragment du document. Ces intentions sont ajoutées sous forme d'annotations aux documents identifiées par des métadonnées. Selon la théorie de Grosz et Sidner, (Grosz, 1986), la structure intentionnelle permet de représenter la structure des objectifs. L’objectif sous-jacent étant de permettre la reconnaissance par le lecteur des intentions de l’auteur. Ces auteurs ont identifié deux relations structurelles entre intentions, fondamentales pour l’analyse de la structure du discours à un niveau basique : la relation de dominance et la relation de précédence de satisfaction. Une intention I1 domine une intention I2 si la satisfaction de I2 contribue à celle de I1; et une intention I1 précède (la satisfaction de) I2 si I1 doit être satisfaite avant I2. Il n’est pas certain que ces deux relations soient suffisantes, sur un plan pragmatique, pour décrire efficacement le processus de production d’un discours, car ce qui est intéressant dans ce cas, c’est de pouvoir associer un sens plus fin aux relations entre différentes parties du discours. Or, les deux relations entre intentions proposées par Grosz et Sidner ne rendent pas compte de la grande variété de ces intentions. La perte d’information sémantique qui en découle limite rapidement le processus de génération. Par contre, cette théorie est construite de manière à ne dépendre ni du domaine, ni du type du discours. Cette théorie a été largement citée dans la littérature comme initiatrice des recherches associant intention et structure de texte dans un document. Toutefois l'ambition de vouloir faire une théorie générale des structures intentionnelles indépendante du discours et du domaine semble être illusoire. En effet, les études sur la modélisation de l'intention dérivent des théories causales de l'action. Décrire une intention, c'est trouver une explication rationnelle à l'action qui a été causée par cette intention. Cette explication relève plus de la pragmatique situationnelle, c'est-à-dire qu’elle dépend du contexte dans lequel l'action peut se dérouler. Pour cette raison, notre position est que la modélisation des intentions en tant qu’états mentaux ne peut se faire que par rapport aux contextes dans lesquels les actions ciblées par ces intentions peuvent se dérouler.

Segmentation de texte

La segmentation est définie comme la détermination de positions auxquelles les thèmes changent dans un corpus de texte. Celle-ci est déterminée en calculant la distribution de mots dans le texte avec des algorithmes à base de similarités ou à base de caractéristiques. Les recherches dans le domaine du traitement du discours, inspirées par le modèle de Grosz et Sidner (Grosz, 1986), ont étudié la relation entre les intentions et les envergures des expressions désignées sous le nom de “segments de discours”. La segmentation du contenu de textes en parties cohérentes peut avoir un certain nombre d'utilisations pratiques immédiates comme la recherche d'information ou un résumé de textes. Notre recherche est motivée par le but d’améliorer l’exploitation des documents et d’utiliser les structures intentionnelles comme nouveau paradigme. Ainsi, notre objectif est de réduire des textes en fragments selon les intentions de l'auteur (Passonneau, 1993), c'est à dire distinguer les segments d'un texte, comme étant un ensemble d'expressions qui définissent les sous-buts de l'auteur. L'auteur d'un document a un but lorsqu'il rédige un document et en particulier les publications scientifiques. Pour faciliter la compréhension du document, l'auteur organise ses idées selon un plan qui permet de réaliser ce but. Chaque but est alors un ensemble de sous-buts. La structure d’un texte permet d’appréhender le sens de ce texte, au-delà même du sens de chacun des mots qui le composent. Dans l’analyse d’un discours, la mise en évidence de sa structure intentionnelle consiste à découper le texte en segments (appelés aussi fragments), parties de texte de longueur variable, et à identifier les relations qui lient ces segments. Une intention correspond à une action qui a un but; l'action est exécutée grâce à un moyen et elle est justifiée par les arguments que nous appelons la raison. Un fragment de texte est une unité textuelle qui correspond à une partie d’intention. Il peut être un moyen, un but ou une raison. La segmentation sur laquelle nous nous focalisons consiste à déterminer les positions des segments qui représentent des parties d'intentions comme ce qui exprime l'action, les moyens et la raison. Nous supposons que la structure des intentions correspond aux plans du processus de résolution selon la Théorie de Plan Partagée définie par Lochbaum (Lochbaum, 1998) ; (Grosz, 1996).

Le modèle de structure intentionnelle

Nous proposons un nouveau concept qui nous permet de traiter un document en termes d'intentions de ses auteurs. Notre objectif est d'avoir une représentation de l'intention par les relations entre ses constituants. Par définition notre représentation d'intention est : I (A, B*, M*, R*) Où

  • I représente l'intention effectuée par l’action A;
  • A est l’acte qui exprime ce que veut réaliser l’auteur de l’intention;
  • B exprime ce que veut faire l’auteur en faisant l’action (But);
  • M exprime comment l’action est accomplie sur le texte par un moyen ou par plusieurs moyens.
  • R explique pourquoi l’auteur fait cette action et pour quelles raisons ;

(*) indique que le nombre des actes composant l’intention peut être multiple (0 à N). L'exemple suivant illustrera cette notion. L’intention telle qu’elle a été définie correspond à une action de communication écrite. Nous voulons alors représenter l’action, le but, le moyen et la raison qui entrent en jeu pendant l’écriture. La phrase: “un jardinier creuse un trou dans le but de planter un arbre en utilisant une pelle, afin de décorer son jardin” exprime une intention I1 où, comme représenté dans la Figure 1, nous avons pris le verbe principal comme action, les autres verbes comme but ou raison ou moyens et les groupes nominaux comme concepts. Dans cet exemple, l'action A=“Creuser (trou dans le jardin)”, le concept associé C1 est “trou dans le jardin“, le but B=“Planter (arbre)” où “arbre” est le concept C2, le moyen est l’acte M=“Utiliser (une pelle)”, “Une pelle” est le concept C3, et la raison est R= “Décorer (le jardin)” et “le jardin” est le concept C4. Dans une certaine situation, A=“Décorer (le jardin)” peut être considéré comme une action d'une nouvelle intention. Dans ce cas, nous supposons que le but est le même que l'action, et que les moyens sont multiples: M1=“Planter(arbre)”, M2=“Creuser(Trou dans le jardin)” et M3= “Peindre(Porte)”. La raison est Participer_au(développement du quartier) et “développement du quartier” correspond au concept C8.

Figure 2. Représentation des intentions

La structure intentionnelle est une composition d’intentions élémentaires. Cette composition se fait selon les deux relations de précédence de satisfaction et la relation de dominance de Grosz et Sidner (Grosz, 1986). Par extension des définitions de Grosz et Sidner, nous dirons que l’intention I1 précède la satisfaction de l’intention I2 si la réalisation de l’action de I1 doit se dérouler avant celle de I2. De même, lorsque la réalisation de l’action d’une intention I1 contribue à la réalisation d’une partie de l’action d’une autre intention I2, on dira que I1 contribue à la réalisation de I2 ou que I2 domine I1. La sémantique de cette deuxième relation de contribution a été détaillée dans notre modèle, car nous tenons compte de la nature de la relation de contribution des actes entre eux. De ce fait, une intention est composée d’actes considérés comme action, but, moyen et raison de cette intention. La nature entre les actes composant une intention précise la relation de contribution en les considérant comme de nouvelles intentions. Lorsqu’un acte d’une intention ne domine aucun autre acte, on dira que cette intention est élémentaire. Une intention élémentaire correspond donc à un acte que l’on ne veut pas développer par une relation de contribution. Ainsi dans la Figure 1, “Utiliser (une pelle)” est une intention élémentaire, car elle ne sera pas développée. En revanche, on peut développer “Décorer (le jardin)” de I1 dans I2. Dans cette dernière, on peut lire que la satisfaction de l’intention “Décorer (le jardin)” qui est la Raison de l’intention “Creuser (un trou)” peut être satisfaite par la réalisation des moyens représentés par les actes “Planter (une haie)”, “Creuser (une piscine)” et “Peindre (la porte)”. L’acte “Décorer(le jardin)” peut être justifié par l’acte “Participer_au (développement du quartier)”. Ainsi, la notion de structure intentionnelle permet de mettre en évidence les actes souhaités par un auteur ainsi que les relations qu’ils maintiennent entre eux. Un schéma global généralise les situations possibles entre intentions. Il est illustré dans la Figure 2 qui schématise la structure intentionnelle dans un cas général. Chaque bloc dans ce schéma représente une intention. Chaque intention est composée d’une action, de buts, de moyens et de raisons. Chaque but, moyen ou raison peut être considéré comme une intention ou comme un élément terminal de l'arbre (intention élémentaire). Dans la Figure 2, l’Intention1 est composé d’une action, d’un but, d’un moyen et d’une raison. Le but et la raison sont eux-mêmes des intentions (Intention11 et Intention12) développées dans de nouveaux blocs. Toutefois, cet arbre n’est que la représentation hiérarchique d’un graphe, car certains actes considérés comme moyen pour une intention peuvent être également considérés comme des actions, des buts ou des raisons pour d’autres intentions.

Ontologie des intentions

Les actes définissant les parties d’une intention sont représentés par des verbes. Il est possible qu’une intention soit représentée par un ou plusieurs verbes, de même qu’il est possible qu’un verbe corresponde à une ou plusieurs intentions. Nous avons commencé l’élaboration d’une ontologie des intentions pour être utilisée dans la reconnaissance. Les ontologies d'intentions sont définies par domaine d'application, car les noms des actions dépendent des situations dans lesquelles elles peuvent être exécutées. Par exemple le verbe “jouer” peut signifier pratiquer un sport ou bien s’amuser. Une étude concernant les intentions pédagogiques a été présentée dans la thèse d'Al-Tawki (Al-Tawki, 2002). Il existe des travaux qui ont défini des ontologies des actions dans les domaines géographique (Soon, 2004) et médical (Fox, 2004)

Figure 2. Représentation d’une structure intentionnelle

L'utilisation des ontologies permettra de faciliter la reconnaissance des intentions. Les ontologies aideront d’une part les auteurs des documents à spécifier leurs intentions, et d’autre part elles interviennent dans la reconnaissance des intentions d'un document. La Figure 3 représente le schéma conceptuel des intentions qui sert de base à la construction des ontologies des intentions. Il existe plusieurs logiciels et langages permettant de modéliser et de représenter des ontologies. Pour notre étude, nous avons choisi le logiciel Protégé (Protégé, 2007) et le langage RDF (Resource Description Framework).

Figure 2. Représentation conceptuelle des intentions en UML

Méthode de reconnaissance des structures intentionnelles

La reconnaissance des types de structures de documents est généralement basée sur une segmentation de leur contenu textuel. Cette segmentation a fait l’objet de plusieurs travaux qui visent à analyser différentes structures parmi lesquelles les structures syntaxiques, sémantiques (Hobbs, 1993); (Hearst, 1997) ; (Masson, 1995) ; (Salton, 1996) ou rhétoriques (Mann, 1988) ; (Marcu, 2000). Certaines de ces méthodes de segmentation reposent sur un processus manuel, d’autres sur un processus semi-automatique. Parmi ces dernières, certaines sont basées exclusivement sur une analyse de cohésion lexicale (Choi, 2000), (Choi, 2001) tandis que d'autres tiennent compte également des dispositifs linguistiques dont la fonction est d'annoncer la présence de changements de thèmes. A notre connaissance, il n'existe pas d’algorithme permettant une segmentation automatique d’un texte en termes des intentions des auteurs. Ceci est certainement dû à la difficulté de réalisation de ce type de segmentation. L’objectif que nous nous donnons est de construire un algorithme de segmentation semi-automatique appliqué à des documents écrits dans un domaine précis (publications scientifiques en informatique). Nous proposons d’appliquer la méthode de segmentation sur des documents textuels dont on connaît la structure logique. L'analyse porte alors sur chaque élément logique, comme l'introduction, les chapitres, et la conclusion. Il s’agit de délimiter, dans chaque élément analysé, les segments de texte correspondant aux intentions. L’algorithme de reconnaissance se base sur une base de connaissances et un corpus déjà annoté manuellement. Cette annotation manuelle repère les actes ainsi que leur délimitation. L'idée est d’identifier des fragments de textes correspondant à des unités de sens par segmentation sur la base du repérage d’unités sémantiques, pragmatiques, propres et autonomes. Ces segments correspondent à des ensembles de phrases contiguëes regroupées de manière à constituer une unité sémantique dans laquelle on repère que l’auteur souhaite agir sur l’état mental du lecteur par exemple, en définissant un concept, en démontrant un théorème ou simplement en énonçant une hypothèse.

Vers la spécification d’un système de reconnaissance

Dans cette partie, nous présentons brièvement la démarche suivie pour la reconnaissance des intentions dans un texte. Les algorithmes sont en cours d’implémentation et seront amenés à être ajustés pendant cette implémentation. Pour cette raison nous ne présentons que le principe général de la démarche et des algorithmes. La démarche globale d’analyse et de segmentation comprend deux phases (Figure 4).

Figure 2. Principes de l’analyseur
Phase d’initialisation du système

La première phase consiste à initialiser le système par apprentissage. Une base de connaissances est construite à partir d’une démarche d’annotation manuelle d’un corpus de textes. Un acteur humain segmente les textes et annote les segments qu’il présume correspondre à une intention. Chaque segment est constitué d’un ensemble de phrases dont on identifie les verbes. L’ontologie sert à réduire les verbes aux verbes les plus significatifs du contexte traité. L’hypothèse de base de cette démarche est que le nombre d’occurrences des verbes dans les segments est représenté par deux fréquences. Cela signifie qu’une intention I donnée est représentée par une liste de verbes représentatifs (Vi). Pour chaque verbe, on calcule sa fréquence relative (dans chaque intention) et absolue (fréquence dans les segments correspondant à la même intention dans la même unité logique du document). Les segments ainsi annotés, les connaissances sur les fréquences des verbes dans une intention, ainsi que l’ontologie des intentions sont utilisés comme entrée de l’analyseur.

Phase de reconnaissance semi-automatique des intentions par l’analyseur

La seconde phase consiste à reconnaître de façon semi-automatique les structures intentionnelles de nouveaux documents en se basant sur les données apprises lors de la première phase. L’analyseur reconnaît les phrases et les verbes à l’aide de l’ontologie des intentions. Il repère les verbes significatifs qui représentent une même classe de synonymie et réduit ainsi l’ensemble des verbes. Il calcule le pourcentage d’occurrence des verbes par rapport au nombre total de segments entrés. Les verbes et leurs fréquences sont stockés dans une base de données pour chacune des intentions Ik qui ont été identifiées manuellement. L’algorithme de segmentation et de construction des structures intentionnelles qui a été implémenté est le suivant :

  • 1 - Identifier des fragments quand on estime que l'auteur souhaite réaliser une action identifiable (par exemple Faire une définition). Pour chaque fragment, on identifie les phrases et pour chaque phrase :
  • a- Identifier les verbes (ou groupes verbaux).
  • b- Identifier les concepts et, éventuellement, les relations entre ces concepts (au niveau du fragment).
  • c- Identifier les constituants de l'intention en essayant de répondre aux questions de type: quoi, pourquoi, comment et pour quelle raison. Ces questions doivent permettre de détecter les actes décrivant les intentions. La question “QUOI” aide à détecter l'action. La question "POURQUOI" aide à détecter le but de l'intention. La question "COMMENT" aide à détecter les moyens de l'intention. La question "POUR QUELLE(s) RAISON(s)” aide à trouver la raison de l’intention.
  • 2- Segmenter les fragments en ajoutant des métadonnées. Pour cela nous avons développé des outils d’annotation (Al Tawki et al., 2002). Il s’agit de délimiter les fragments par des balises et attributs XML. Les fragments sont contigus.
  • 3- Trouver les relations entre les différents fragments en reliant les concepts par des relations selon un réseau sémantique.

Discussion et Conclusion

Dans cet article, nous avons présenté le travail en cours sur la reconnaissance de structures intentionnelles de documents écrits. La détection et la représentation des intentions de communication des auteurs dans le cadre de documents écrits est un moyen d’améliorer la diffusion comme la recherche de l’information en rendant plus explicite le contenu même de l’information. Le modèle de structure intentionnelle que nous avons défini vise à associer des intentions d'auteurs à des fragments d'un document et à identifier les relations entre ces fragments. Les lecteurs pourront ainsi retrouver des documents non seulement entre termes des concepts qui définissent leurs contenus mais également en termes des intentions des auteurs. Notre méthode de reconnaissance des structures intentionnelles des documents est basée sur la segmentation des textes en deux temps. Dans un premier temps, en nous basant sur la structure logique du document l’utilisateur annote manuellement les structures intentionnelles d’un corpus. Dans un second temps, il s’agit de repérer les intentions contenues dans chaque élément logique d’un nouveau document en tenant compte de la fréquence des verbes dans les segments du corpus annoté. La reconnaissance se fait en comparant le verbe de chaque phrase à ceux du corpus en regroupant ensuite les phrases de manière à former des fragments correspondant à une intention. Ce regroupement se fait en utilisant les fréquences associées aux verbes et en choisissant les intentions les plus plausibles pour chaque verbe représentatif. Nous avons appliqué cette méthode de reconnaissance des intentions sur un corpus d’articles scientifiques en informatique et en langue anglaise. Afin d’analyser la démarche d’un point de vue qualitatif, nous nous sommes basés uniquement sur les introductions de ces articles. Nous avons pu mettre en évidence que toutes ces introductions ont une structure intentionnelle de base quasi-identique. À ce jour, l’implantation d'un analyseur, capable d'extraire de façon semi-automatique les intentions des auteurs de documents écrits, est en cours. Cet analyseur utilise la démarche que nous avons proposée et expérimentée manuellement. A court terme, la validation de nos travaux nécessite : a) la construction d’une ontologie des intentions pour le domaine; b) la réalisation d’expérimentations afin de valider les règles de segmentation et de reconnaissance semi-automatiques des intentions. La difficulté de la reconnaissance des intentions ne réduit pas son intérêt. Même s’il existe des algorithmes de segmentation, de reconnaissance des verbes et d’analyse de la rhétorique des textes, la déduction semi-automatique des intentions reste un domaine totalement ouvert et la reconnaissance des intentions restent d’une grande importance aussi bien pour le traitement des textes en langue naturelle que pour les problèmes de recherche d’information. Ces travaux s’intègrent tout à fait dans l’ensemble des recherches menées aujourd’hui sur la multi-structuralité des documents selon lesquelles, pour un usage efficace (production, recherche, stockage), un document ne peut plus être vu comme une chaîne de caractères, ni un “sac de mots”. La notion de structure intentionnelle apporte une dimension nouvelle dans la façon de résoudre l’ensemble des problématiques liées à la gestion des connaissances et à l’accès à l’information.

Bibliographie

[Al-Tawki, 2002] Al-Tawki Y., « Création par réutilisation de documents décrits par les intentions de l'auteur », Doctorat de l'Université de Toulouse 1, 2002.

[Choi, 2000] Choi F., « Advances in domain independent linear text segmentation », NAACL’00, 2000. pp.26–33.

[Choi, 2001] Choi F., Wiemer-Hastings P. et Moore J., « Latent Semantic Analysis for Text Segmentation », NAACL’01, 2001. pp. 109–117.

[Fox, 2004] Fox J., Alabassia A., Patkara V., Rosea T. et Blacka E., « An ontological approach to modelling tasks and goals », computation in Biology & medecine in press 2004.

[Grosz, 1996] Grosz B. et Kraus S., « Collaborative plans for complex group action », Artificial Intelligence, 86(2):269-357, 1996.

[Grosz, 1986] Grosz B. et Sidner C., « Attention, Intentions and the Structure of Discourse », Computational Linguistics, 12(3), pp. 175-204, 1986.

[Harrington, 2001] Harrington S., Naveda F. et Jones R.P., « Towards a science of document intent », In ICDAR 1st International Workshop on Web Document Analysis (Seattle, USA, September 2001), pp. 63-66.

[Hearst, 1997] Hearst M., « TextTiling: Segmenting Text into Multi-paragraphe Subtopic Passages », Computational Linguistics, 23, 1, pp. 33-64, 1997.

[Hobbs, 1993] Hobbs Jerry R., Stickel M., Appelt D. et Martin P., « Interpretation as abduction" Artificial Intelligence », vol. 63, no. 1-2, pp. 69-142, 1993.

[Masson, 1995] Masson N., « An automatic method for document structuring », Actes 18th ACM-SIGIR , Seattle, USA, pp. 372-373, 1995.

[Mann, 1988] Mann W. et Thompson S., « Rhetorical Structure theory: toward a functional theory of text organization », Text, 8(3), pp. 243-281, 1988.

[Marcu, 2000] Marcu D., « Rhetorical Parsing of Unrestricted Texts », Computational Linguistics, vol. 26, n°3, pp. 395-448, 2000.

[Passonneau, 1993] Passonneau R. et Litman D., « intention-based segmentation: Human reliability and correlation with linguistics cues », in proceedings of the 31st Meeting of the association for computational linguistics, pp. 148-155, Columbus, Ohio, 1993.

[Protégé, 2007] Protégé, « Dernière visite le 10 juin 2007. »
En ligne : http://protege.stanford.edu/

[Salton, 1996] Salton G., Singhal A., Buckley C. et Mitra M., « Automatic Text Decomposition Using Text Segments and Text Themes », Actes Hypertext'96, Seventh ACM Conference on Hypertext, Washington, D.C., pp. 53-65, 1996.

[Searle, 1983] Searle J., « Intentionality », Cambridge: Cambridge University Press, 1983.

[Soon, 2004] Soon K. et Kuhn W., « Formalizing User Activities for Ontologies », dans les actes de Geographic Information Science: Third International Conference, GI Science 2004 Adelphi, MD, USA, Lecture Notes in Computer Science, pp 299-312, 2004.

[Tazi, 1998] Tazi S. et Novick D., « Actes de la communication écrite », Actes de Ergonomie et Informatique Avancée (Ergo-IA 98), Biarritz, France, Novembre, pp. 230-238, 1998.