Serveur d'exploration sur la TEI

Attention, ce site est en cours de développement !
Attention, site généré par des moyens informatiques à partir de corpus bruts.
Les informations ne sont donc pas validées.

APPORTS D'UNE APPROCHE À BASE DE CORPUS AUX TECHNIQUES DE TRAITEMENT AUTOMATIQUE DU LANGAGE NATUREL

Identifieur interne : 000466 ( Main/Exploration ); précédent : 000465; suivant : 000467

APPORTS D'UNE APPROCHE À BASE DE CORPUS AUX TECHNIQUES DE TRAITEMENT AUTOMATIQUE DU LANGAGE NATUREL

Auteurs :

Source :

RBID : Pascal:98-0302758

Descripteurs français

English descriptors

Abstract

L'objectif général de ce travail est d'évaluer la possibilité de mise en œuvre de techniques à base de corpus aux différents niveaux de traitement automatique du langage naturel (lexical, syntaxique, sémantique, ...). Nous nous sommes d'abord intéressés aux corpus eux-mêmes, et, en particulier, aux problèmes posés par la manipulation de volumes importants de données textuelles de nature et d'origine variées. L'importance des normes et des standards (ISO, SGML) a été soulignée et les résultats de projets en cours dans le domaine de la structuration des documents (TEI-Text Encoding Initiative) et de la représentation normalisée des unités lexicales (projet MULTEXT, action GRACE) ont été présentés. Pour ce qui est du traitement du langage naturel proprement dit, nous avons présenté les différents modèles d'analyse syntaxique probabiliste utilisé ; en particulier, nous nous sommes intéressés : (1) à la probabilisation des modèles syntaxiques à états finis sous la forme de chaînes de Markov à états cachés ; (2) à la probabilisation des modèles non-contextuels sous la forme de grammaires stochastiques ; (3) à la probabilisation des modèles à base d'arbres, en particulier celle des grammaires à substitution d'arbres et leur application dans le domaine de l'analyse syntaxique guidée par le données (========Prime;Date Oriented Parsing========Prime;). Au niveau sémantique, nous nous sommes consacrés à la définition d'un modèle sémantique, la «sématique distributionnelle», permettant la prise en compte, au niveau du sens, d'informations de co-occurrence entre entités linguistiques élémentaires (lemmes par exemple). Nous avons ensuite appliqué ce modèle, qui peut être vu comme un prolongement des techniques de la lexicomètre et de l'analyse de données textuelles dans le champ de l'informatique linguistique, à deux types d'applications particulières de traitement du langage naturel : (1) la classification automatique de documents, et, (2) la recherche documentaire en texte intégral.


Affiliations:


Links toward previous steps (curation, corpus...)


Le document en format XML

<record>
<TEI>
<teiHeader>
<fileDesc>
<titleStmt>
<title xml:lang="fr" level="m">APPORTS D'UNE APPROCHE À BASE DE CORPUS AUX TECHNIQUES DE TRAITEMENT AUTOMATIQUE DU LANGAGE NATUREL</title>
<author>
<name sortKey="Rajman, Martin" sort="Rajman, Martin" uniqKey="Rajman M" first="Martin" last="Rajman">Martin Rajman</name>
<affiliation wicri:level="3">
<inist:fA14 i1="01" i2="1">
<s1>Ecole nationale supérieure des télécommunications</s1>
<s2>Paris</s2>
<s3>FRA</s3>
<s9>tutelle</s9>
</inist:fA14>
<country>France</country>
<placeName>
<region type="region">Île-de-France</region>
<region type="old region">Île-de-France</region>
<settlement type="city">Paris</settlement>
</placeName>
</affiliation>
</author>
<author>
<name sortKey="Bonnet, Alain" sort="Bonnet, Alain" uniqKey="Bonnet A" first="Alain" last="Bonnet">Alain Bonnet</name>
</author>
</titleStmt>
<publicationStmt>
<idno type="wicri:source">INIST</idno>
<idno type="inist">98-0302758</idno>
<date when="1995-12">1995-12</date>
<idno type="stanalyst">PASCAL 98-0302758 INIST</idno>
<idno type="RBID">Pascal:98-0302758</idno>
<idno type="wicri:Area/PascalFrancis/Corpus">000077</idno>
<idno type="wicri:Area/PascalFrancis/Curation">000104</idno>
<idno type="wicri:Area/PascalFrancis/Checkpoint">000075</idno>
<idno type="wicri:explorRef" wicri:stream="PascalFrancis" wicri:step="Checkpoint">000075</idno>
<idno type="wicri:Area/Main/Merge">000497</idno>
<idno type="wicri:Area/Main/Curation">000466</idno>
<idno type="wicri:Area/Main/Exploration">000466</idno>
</publicationStmt>
<sourceDesc>
<biblStruct>
<analytic></analytic>
</biblStruct>
</sourceDesc>
</fileDesc>
<profileDesc>
<textClass>
<keywords scheme="KwdEn" xml:lang="en">
<term>Automated processing</term>
<term>Automatic classification</term>
<term>Document</term>
<term>Document retrieval</term>
<term>Full text</term>
<term>Hidden Markov models</term>
<term>Language processing</term>
<term>Linguistics</term>
<term>Natural language</term>
<term>Probabilistic approach</term>
<term>Semantics</term>
<term>Speech processing</term>
<term>Statistical method</term>
<term>Syntactic analysis</term>
</keywords>
<keywords scheme="Pascal" xml:lang="fr">
<term>Linguistique</term>
<term>Langage naturel</term>
<term>Traitement langage</term>
<term>Traitement automatisé</term>
<term>Traitement parole</term>
<term>Analyse syntaxique</term>
<term>Approche probabiliste</term>
<term>Méthode statistique</term>
<term>Modèle Markov variable cachée</term>
<term>Sémantique</term>
<term>Classification automatique</term>
<term>Document</term>
<term>Recherche documentaire</term>
<term>Texte intégral</term>
</keywords>
<keywords scheme="Wicri" type="topic" xml:lang="fr">
<term>Linguistique</term>
<term>Méthode statistique</term>
<term>Document</term>
<term>Recherche documentaire</term>
</keywords>
</textClass>
</profileDesc>
</teiHeader>
<front>
<div type="abstract" xml:lang="fr">L'objectif général de ce travail est d'évaluer la possibilité de mise en œuvre de techniques à base de corpus aux différents niveaux de traitement automatique du langage naturel (lexical, syntaxique, sémantique, ...). Nous nous sommes d'abord intéressés aux corpus eux-mêmes, et, en particulier, aux problèmes posés par la manipulation de volumes importants de données textuelles de nature et d'origine variées. L'importance des normes et des standards (ISO, SGML) a été soulignée et les résultats de projets en cours dans le domaine de la structuration des documents (TEI-Text Encoding Initiative) et de la représentation normalisée des unités lexicales (projet MULTEXT, action GRACE) ont été présentés. Pour ce qui est du traitement du langage naturel proprement dit, nous avons présenté les différents modèles d'analyse syntaxique probabiliste utilisé ; en particulier, nous nous sommes intéressés : (1) à la probabilisation des modèles syntaxiques à états finis sous la forme de chaînes de Markov à états cachés ; (2) à la probabilisation des modèles non-contextuels sous la forme de grammaires stochastiques ; (3) à la probabilisation des modèles à base d'arbres, en particulier celle des grammaires à substitution d'arbres et leur application dans le domaine de l'analyse syntaxique guidée par le données (========Prime;Date Oriented Parsing========Prime;). Au niveau sémantique, nous nous sommes consacrés à la définition d'un modèle sémantique, la «sématique distributionnelle», permettant la prise en compte, au niveau du sens, d'informations de co-occurrence entre entités linguistiques élémentaires (lemmes par exemple). Nous avons ensuite appliqué ce modèle, qui peut être vu comme un prolongement des techniques de la lexicomètre et de l'analyse de données textuelles dans le champ de l'informatique linguistique, à deux types d'applications particulières de traitement du langage naturel : (1) la classification automatique de documents, et, (2) la recherche documentaire en texte intégral.</div>
</front>
</TEI>
<affiliations>
<list></list>
<tree></tree>
</affiliations>
</record>

Pour manipuler ce document sous Unix (Dilib)

EXPLOR_STEP=$WICRI_ROOT/Wicri/Ticri/explor/TeiVM2/Data/Main/Exploration
HfdSelect -h $EXPLOR_STEP/biblio.hfd -nk 000466 | SxmlIndent | more

Ou

HfdSelect -h $EXPLOR_AREA/Data/Main/Exploration/biblio.hfd -nk 000466 | SxmlIndent | more

Pour mettre un lien sur cette page dans le réseau Wicri

{{Explor lien
   |wiki=    Wicri/Ticri
   |area=    TeiVM2
   |flux=    Main
   |étape=   Exploration
   |type=    RBID
   |clé=     Pascal:98-0302758
   |texte=   APPORTS D'UNE APPROCHE À BASE DE CORPUS AUX TECHNIQUES DE TRAITEMENT AUTOMATIQUE DU LANGAGE NATUREL
}}

Wicri

This area was generated with Dilib version V0.6.31.
Data generation: Mon Oct 30 21:59:18 2017. Site generation: Sun Feb 11 23:16:06 2024