CIDE (1999) Mourad

De CIDE

La segmentation de textes par l'étude de la ponctuation


 
 

 
Titre
La segmentation de textes par l'étude de la ponctuation
Auteur
Ghassan Mourad
Affiilation
Equipe Langage, Logique, Informatique et Cognition (LaLIC), Centre d’Analyse et de Mathématique Sociales (CAMS), UMR 8557 du CNRS, EHESS, Paris-Sorbonne
In
Actes du colloque CIDE.02 (Damas 1999)
En ligne
Résumé
La segmentation de texte est une phase nécessaire pour un trèsgrand nombre d’applications en traitement automatique du langage : par exemple pour l'alignement des phrases dans les systèmes de TAO, pour l'analyse syntaxique, pour le résumé automatique, pour le filtrage de textes, etc.
Nous essayerons, dans cet article, d'expliquer notre démarche pour développer un segmenteur de texte en segments textuels. Nous aborderons également les problèmes d’ambiguïté que suscitent les différents emplois des signes typographiques. Enfin nous signalerons brièvement ceux liés à la segmentation des textes d’autres langues et en particulier l’arabe.
Mots-clefs
exploration contextuelle, ponctuation, segmentation, segment textuel, TALN