Serveur d'exploration sur la recherche en informatique en Lorraine

Attention, ce site est en cours de développement !
Attention, site généré par des moyens informatiques à partir de corpus bruts.
Les informations ne sont donc pas validées.

Analyse statistique et géométrique de corpus textuels

Identifieur interne : 000870 ( PascalFrancis/Checkpoint ); précédent : 000869; suivant : 000871

Analyse statistique et géométrique de corpus textuels

Auteurs : Gabriel Illouz [France] ; Michèle Jardino [France]

Source :

RBID : Francis:524-02-13616

Descripteurs français

English descriptors

Abstract

De grandes bases de données écrites permettent de représenter statistiquement des textes ou des documents en leur associant des vecteurs dans un espace à n dimensions. Le nombre de variables n correspond au nombre de traits ou primitives choisis pour décrire les documents, n est généralement très grand de sorte qu'une représentation planaire n'est pas directement possible. Nous proposons dans cet article un nouvel espace de projection qui représente dans un seul plan toutes les données, contrairement à l'Analyse en Composantes Principales, et avec une repésentation explicite des axes, contrairement à la projection de Sammon. Une partition optimale en trois classes des variables initiales permet de définir l'espace de projection comme un triangle équilatéral dont les sommets sont les barycentres de ces trois classes. Cette partition est obtenue par un algorithme de classification de type nuées dynamiques. La projection des textes dans ce triangle forme un nuage de points qui permet de visualiser leur répartition et de vérifier la pertinence des traits ou primitives choisis. Nous avons testé cette approche sur un ensemble de textes américains (Brown Corpus) en utilisant trois ensembles de traits : les caractères, les mots et les étiquettes grammaticales fournies avec le corpus.


Affiliations:


Links toward previous steps (curation, corpus...)


Links to Exploration step

Francis:524-02-13616

Le document en format XML

<record>
<TEI>
<teiHeader>
<fileDesc>
<titleStmt>
<title xml:lang="fr" level="a">Analyse statistique et géométrique de corpus textuels</title>
<author>
<name sortKey="Illouz, Gabriel" sort="Illouz, Gabriel" uniqKey="Illouz G" first="Gabriel" last="Illouz">Gabriel Illouz</name>
<affiliation wicri:level="3">
<inist:fA14 i1="01">
<s1>LIMSI CNRS, BP133</s1>
<s2>91403 Orsay</s2>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
</inist:fA14>
<country>France</country>
<placeName>
<region type="region" nuts="2">Île-de-France</region>
<settlement type="city">Orsay</settlement>
</placeName>
</affiliation>
</author>
<author>
<name sortKey="Jardino, Michele" sort="Jardino, Michele" uniqKey="Jardino M" first="Michèle" last="Jardino">Michèle Jardino</name>
<affiliation wicri:level="3">
<inist:fA14 i1="01">
<s1>LIMSI CNRS, BP133</s1>
<s2>91403 Orsay</s2>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
</inist:fA14>
<country>France</country>
<placeName>
<region type="region" nuts="2">Île-de-France</region>
<settlement type="city">Orsay</settlement>
</placeName>
</affiliation>
</author>
</titleStmt>
<publicationStmt>
<idno type="wicri:source">INIST</idno>
<idno type="inist">524-02-13616</idno>
<date when="2001">2001</date>
<idno type="stanalyst">FRANCIS 524-02-13616 INIST</idno>
<idno type="RBID">Francis:524-02-13616</idno>
<idno type="wicri:Area/PascalFrancis/Corpus">000918</idno>
<idno type="wicri:Area/PascalFrancis/Curation">000A24</idno>
<idno type="wicri:Area/PascalFrancis/Checkpoint">000870</idno>
<idno type="wicri:explorRef" wicri:stream="PascalFrancis" wicri:step="Checkpoint">000870</idno>
</publicationStmt>
<sourceDesc>
<biblStruct>
<analytic>
<title xml:lang="fr" level="a">Analyse statistique et géométrique de corpus textuels</title>
<author>
<name sortKey="Illouz, Gabriel" sort="Illouz, Gabriel" uniqKey="Illouz G" first="Gabriel" last="Illouz">Gabriel Illouz</name>
<affiliation wicri:level="3">
<inist:fA14 i1="01">
<s1>LIMSI CNRS, BP133</s1>
<s2>91403 Orsay</s2>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
</inist:fA14>
<country>France</country>
<placeName>
<region type="region" nuts="2">Île-de-France</region>
<settlement type="city">Orsay</settlement>
</placeName>
</affiliation>
</author>
<author>
<name sortKey="Jardino, Michele" sort="Jardino, Michele" uniqKey="Jardino M" first="Michèle" last="Jardino">Michèle Jardino</name>
<affiliation wicri:level="3">
<inist:fA14 i1="01">
<s1>LIMSI CNRS, BP133</s1>
<s2>91403 Orsay</s2>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
</inist:fA14>
<country>France</country>
<placeName>
<region type="region" nuts="2">Île-de-France</region>
<settlement type="city">Orsay</settlement>
</placeName>
</affiliation>
</author>
</analytic>
<series>
<title level="j" type="main">TAL. Traitement automatique des langues</title>
<title level="j" type="abbreviated">TAL, Trait. autom. lang.</title>
<idno type="ISSN">1248-9433</idno>
<imprint>
<date when="2001">2001</date>
</imprint>
</series>
</biblStruct>
</sourceDesc>
<seriesStmt>
<title level="j" type="main">TAL. Traitement automatique des langues</title>
<title level="j" type="abbreviated">TAL, Trait. autom. lang.</title>
<idno type="ISSN">1248-9433</idno>
</seriesStmt>
</fileDesc>
<profileDesc>
<textClass>
<keywords scheme="KwdEn" xml:lang="en">
<term>Automatic documentation</term>
<term>Corpus analysis</term>
<term>Mathematical linguistics</term>
<term>Method</term>
<term>Natural language processing</term>
<term>Statistical study</term>
</keywords>
<keywords scheme="Pascal" xml:lang="fr">
<term>Linguistique mathématique</term>
<term>Etude statistique</term>
<term>Traitement automatique des langues naturelles</term>
<term>Documentation automatique</term>
<term>Analyse de corpus</term>
<term>Méthode</term>
<term>Classification automatique</term>
<term>Classification de documents</term>
</keywords>
</textClass>
</profileDesc>
</teiHeader>
<front>
<div type="abstract" xml:lang="fr">De grandes bases de données écrites permettent de représenter statistiquement des textes ou des documents en leur associant des vecteurs dans un espace à n dimensions. Le nombre de variables n correspond au nombre de traits ou primitives choisis pour décrire les documents, n est généralement très grand de sorte qu'une représentation planaire n'est pas directement possible. Nous proposons dans cet article un nouvel espace de projection qui représente dans un seul plan toutes les données, contrairement à l'Analyse en Composantes Principales, et avec une repésentation explicite des axes, contrairement à la projection de Sammon. Une partition optimale en trois classes des variables initiales permet de définir l'espace de projection comme un triangle équilatéral dont les sommets sont les barycentres de ces trois classes. Cette partition est obtenue par un algorithme de classification de type nuées dynamiques. La projection des textes dans ce triangle forme un nuage de points qui permet de visualiser leur répartition et de vérifier la pertinence des traits ou primitives choisis. Nous avons testé cette approche sur un ensemble de textes américains (Brown Corpus) en utilisant trois ensembles de traits : les caractères, les mots et les étiquettes grammaticales fournies avec le corpus.</div>
</front>
</TEI>
<inist>
<standard h6="B">
<pA>
<fA01 i1="01" i2="1">
<s0>1248-9433</s0>
</fA01>
<fA03 i2="1">
<s0>TAL, Trait. autom. lang.</s0>
</fA03>
<fA05>
<s2>42</s2>
</fA05>
<fA06>
<s2>2</s2>
</fA06>
<fA08 i1="01" i2="1" l="FRE">
<s1>Analyse statistique et géométrique de corpus textuels</s1>
</fA08>
<fA09 i1="01" i2="1" l="FRE">
<s1>Linguistique de corpus</s1>
</fA09>
<fA11 i1="01" i2="1">
<s1>ILLOUZ (Gabriel)</s1>
</fA11>
<fA11 i1="02" i2="1">
<s1>JARDINO (Michèle)</s1>
</fA11>
<fA12 i1="01" i2="1">
<s1>DAILLE (Béatrice)</s1>
<s9>dir.</s9>
</fA12>
<fA12 i1="02" i2="1">
<s1>ROMARY (Laurent)</s1>
<s9>dir.</s9>
</fA12>
<fA14 i1="01">
<s1>LIMSI CNRS, BP133</s1>
<s2>91403 Orsay</s2>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
</fA14>
<fA15 i1="01">
<s1>Institut de Recherche en Informatique de Nantes (IRIN), Université de Nantes - 2 rue de la Houssinière, BP 92208</s1>
<s2>44322 Nantes</s2>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
</fA15>
<fA15 i1="02">
<s1>Laboratoire Loria, BP 239</s1>
<s2>54506 Vandoeuvre-lès-Nancy</s2>
<s3>FRA</s3>
<sZ>2 aut.</sZ>
</fA15>
<fA20>
<s1>501-516</s1>
</fA20>
<fA21>
<s1>2001</s1>
</fA21>
<fA23 i1="01">
<s0>FRE</s0>
</fA23>
<fA24 i1="01">
<s0>eng</s0>
</fA24>
<fA43 i1="01">
<s1>INIST</s1>
<s2>1351</s2>
<s5>354000102432110070</s5>
</fA43>
<fA44>
<s0>0000</s0>
<s1>© 2002 INIST-CNRS. All rights reserved.</s1>
</fA44>
<fA45>
<s0>15 ref.</s0>
</fA45>
<fA47 i1="01" i2="1">
<s0>524-02-13616</s0>
</fA47>
<fA60>
<s1>P</s1>
</fA60>
<fA61>
<s0>A</s0>
</fA61>
<fA64 i1="01" i2="1">
<s0>TAL. Traitement automatique des langues</s0>
</fA64>
<fA66 i1="01">
<s0>FRA</s0>
</fA66>
<fA68 i1="01" i2="1" l="ENG">
<s1>Statistical and geometrical analysis of textual corpora</s1>
</fA68>
<fA69 i1="01" i2="1" l="ENG">
<s1>Corpus linguistics</s1>
</fA69>
<fC01 i1="01" l="FRE">
<s0>De grandes bases de données écrites permettent de représenter statistiquement des textes ou des documents en leur associant des vecteurs dans un espace à n dimensions. Le nombre de variables n correspond au nombre de traits ou primitives choisis pour décrire les documents, n est généralement très grand de sorte qu'une représentation planaire n'est pas directement possible. Nous proposons dans cet article un nouvel espace de projection qui représente dans un seul plan toutes les données, contrairement à l'Analyse en Composantes Principales, et avec une repésentation explicite des axes, contrairement à la projection de Sammon. Une partition optimale en trois classes des variables initiales permet de définir l'espace de projection comme un triangle équilatéral dont les sommets sont les barycentres de ces trois classes. Cette partition est obtenue par un algorithme de classification de type nuées dynamiques. La projection des textes dans ce triangle forme un nuage de points qui permet de visualiser leur répartition et de vérifier la pertinence des traits ou primitives choisis. Nous avons testé cette approche sur un ensemble de textes américains (Brown Corpus) en utilisant trois ensembles de traits : les caractères, les mots et les étiquettes grammaticales fournies avec le corpus.</s0>
</fC01>
<fC02 i1="01" i2="L">
<s0>52459</s0>
<s1>XII</s1>
</fC02>
<fC02 i1="02" i2="L">
<s0>524</s0>
</fC02>
<fC03 i1="01" i2="L" l="FRE">
<s0>Linguistique mathématique</s0>
<s2>NI</s2>
<s5>01</s5>
</fC03>
<fC03 i1="01" i2="L" l="ENG">
<s0>Mathematical linguistics</s0>
<s2>NI</s2>
<s5>01</s5>
</fC03>
<fC03 i1="02" i2="L" l="FRE">
<s0>Etude statistique</s0>
<s2>NI</s2>
<s5>02</s5>
</fC03>
<fC03 i1="02" i2="L" l="ENG">
<s0>Statistical study</s0>
<s2>NI</s2>
<s5>02</s5>
</fC03>
<fC03 i1="03" i2="L" l="FRE">
<s0>Traitement automatique des langues naturelles</s0>
<s2>NI</s2>
<s5>03</s5>
</fC03>
<fC03 i1="03" i2="L" l="ENG">
<s0>Natural language processing</s0>
<s2>NI</s2>
<s5>03</s5>
</fC03>
<fC03 i1="04" i2="L" l="FRE">
<s0>Documentation automatique</s0>
<s2>NI</s2>
<s5>04</s5>
</fC03>
<fC03 i1="04" i2="L" l="ENG">
<s0>Automatic documentation</s0>
<s2>NI</s2>
<s5>04</s5>
</fC03>
<fC03 i1="05" i2="L" l="FRE">
<s0>Analyse de corpus</s0>
<s2>NI</s2>
<s5>05</s5>
</fC03>
<fC03 i1="05" i2="L" l="ENG">
<s0>Corpus analysis</s0>
<s2>NI</s2>
<s5>05</s5>
</fC03>
<fC03 i1="06" i2="L" l="FRE">
<s0>Méthode</s0>
<s2>NI</s2>
<s5>06</s5>
</fC03>
<fC03 i1="06" i2="L" l="ENG">
<s0>Method</s0>
<s2>NI</s2>
<s5>06</s5>
</fC03>
<fC03 i1="07" i2="L" l="FRE">
<s0>Classification automatique</s0>
<s4>INC</s4>
<s5>31</s5>
</fC03>
<fC03 i1="08" i2="L" l="FRE">
<s0>Classification de documents</s0>
<s4>INC</s4>
<s5>32</s5>
</fC03>
<fN21>
<s1>343</s1>
</fN21>
<fN82>
<s1>PSI</s1>
</fN82>
</pA>
</standard>
</inist>
<affiliations>
<list>
<country>
<li>France</li>
</country>
<region>
<li>Île-de-France</li>
</region>
<settlement>
<li>Orsay</li>
</settlement>
</list>
<tree>
<country name="France">
<region name="Île-de-France">
<name sortKey="Illouz, Gabriel" sort="Illouz, Gabriel" uniqKey="Illouz G" first="Gabriel" last="Illouz">Gabriel Illouz</name>
</region>
<name sortKey="Jardino, Michele" sort="Jardino, Michele" uniqKey="Jardino M" first="Michèle" last="Jardino">Michèle Jardino</name>
</country>
</tree>
</affiliations>
</record>

Pour manipuler ce document sous Unix (Dilib)

EXPLOR_STEP=$WICRI_ROOT/Wicri/Lorraine/explor/InforLorV4/Data/PascalFrancis/Checkpoint
HfdSelect -h $EXPLOR_STEP/biblio.hfd -nk 000870 | SxmlIndent | more

Ou

HfdSelect -h $EXPLOR_AREA/Data/PascalFrancis/Checkpoint/biblio.hfd -nk 000870 | SxmlIndent | more

Pour mettre un lien sur cette page dans le réseau Wicri

{{Explor lien
   |wiki=    Wicri/Lorraine
   |area=    InforLorV4
   |flux=    PascalFrancis
   |étape=   Checkpoint
   |type=    RBID
   |clé=     Francis:524-02-13616
   |texte=   Analyse statistique et géométrique de corpus textuels
}}

Wicri

This area was generated with Dilib version V0.6.33.
Data generation: Mon Jun 10 21:56:28 2019. Site generation: Fri Feb 25 15:29:27 2022