Serveur d'exploration sur la recherche en informatique en Lorraine

Attention, ce site est en cours de développement !
Attention, site généré par des moyens informatiques à partir de corpus bruts.
Les informations ne sont donc pas validées.

Apport de la statistique lexicale dans la recherche d'information

Identifieur interne : 00AA91 ( Main/Exploration ); précédent : 00AA90; suivant : 00AA92

Apport de la statistique lexicale dans la recherche d'information

Auteurs : P. Bonhomme [France] ; L. Romary [France]

Source :

RBID : Pascal:99-0380442

Descripteurs français

English descriptors

Abstract

Les recherches et développements menés dans le domaine de la Recherche d'Information (RI) ont atteint, semble-t-il, leurs limites en terme de résultat et d'efficacité des systèmes d'indexation et de recherche. Ainsi la RI s'est tournée vers le Traitement Automatique du Langage Naturel (TALN) afin de dépasser cette limitation et d'accroître son potentiel en terme d'application. Plus particulièrement, l'utilisation de techniques provenant de la linguistique de corpus textuels lui a permis d'affiner ses résultats et a provoqué récemment un essor dans l'élaboration de nouveaux systèmes d'indexation, d'extraction de connaissances et de recherche d'information mono et multilingue. Dans ce cadre, nous présentons ce que peut apporter à la Recherche d'Information, en terme de raffinement, une technique empruntée à la statistique lexicale et ses diverses utilisations possibles. Cette technique, notamment axée sur l'analyse sémantique et l'accès au contenu textuel, utilise des méthodes statistiques et un test de probabilité : le test de l'Écart Réduit. Nous montrerons que grâce à sa simplicité de mise en oeuvre, ce test offre une grande souplesse d'utilisation en Recherche d'Information dans deux types d'application (1) un système d'indexation automatique de documents structurés SGML (2) un prototype de cartographie (catégorisation et classification) d'un site Internet sur le Web.


Affiliations:


Links toward previous steps (curation, corpus...)


Le document en format XML

<record>
<TEI>
<teiHeader>
<fileDesc>
<titleStmt>
<title xml:lang="fr" level="a">Apport de la statistique lexicale dans la recherche d'information</title>
<author>
<name sortKey="Bonhomme, P" sort="Bonhomme, P" uniqKey="Bonhomme P" first="P." last="Bonhomme">P. Bonhomme</name>
<affiliation wicri:level="1">
<inist:fA14 i1="01">
<s1>UMR LORIA (CNRS, INRIA et Université de Nancy)</s1>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
</inist:fA14>
<country>France</country>
<wicri:noRegion>INRIA et Université de Nancy)</wicri:noRegion>
<wicri:noRegion>UMR LORIA (CNRS, INRIA et Université de Nancy)</wicri:noRegion>
</affiliation>
</author>
<author>
<name sortKey="Romary, L" sort="Romary, L" uniqKey="Romary L" first="L." last="Romary">L. Romary</name>
<affiliation wicri:level="1">
<inist:fA14 i1="01">
<s1>UMR LORIA (CNRS, INRIA et Université de Nancy)</s1>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
</inist:fA14>
<country>France</country>
<wicri:noRegion>INRIA et Université de Nancy)</wicri:noRegion>
<wicri:noRegion>UMR LORIA (CNRS, INRIA et Université de Nancy)</wicri:noRegion>
</affiliation>
</author>
</titleStmt>
<publicationStmt>
<idno type="wicri:source">INIST</idno>
<idno type="inist">99-0380442</idno>
<date when="1999">1999</date>
<idno type="stanalyst">PASCAL 99-0380442 INIST</idno>
<idno type="RBID">Pascal:99-0380442</idno>
<idno type="wicri:Area/PascalFrancis/Corpus">000B20</idno>
<idno type="wicri:Area/PascalFrancis/Curation">000D50</idno>
<idno type="wicri:Area/PascalFrancis/Checkpoint">000A56</idno>
<idno type="wicri:explorRef" wicri:stream="PascalFrancis" wicri:step="Checkpoint">000A56</idno>
<idno type="wicri:Area/Main/Merge">00B144</idno>
<idno type="wicri:Area/Main/Curation">00AA91</idno>
<idno type="wicri:Area/Main/Exploration">00AA91</idno>
</publicationStmt>
<sourceDesc>
<biblStruct>
<analytic>
<title xml:lang="fr" level="a">Apport de la statistique lexicale dans la recherche d'information</title>
<author>
<name sortKey="Bonhomme, P" sort="Bonhomme, P" uniqKey="Bonhomme P" first="P." last="Bonhomme">P. Bonhomme</name>
<affiliation wicri:level="1">
<inist:fA14 i1="01">
<s1>UMR LORIA (CNRS, INRIA et Université de Nancy)</s1>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
</inist:fA14>
<country>France</country>
<wicri:noRegion>INRIA et Université de Nancy)</wicri:noRegion>
<wicri:noRegion>UMR LORIA (CNRS, INRIA et Université de Nancy)</wicri:noRegion>
</affiliation>
</author>
<author>
<name sortKey="Romary, L" sort="Romary, L" uniqKey="Romary L" first="L." last="Romary">L. Romary</name>
<affiliation wicri:level="1">
<inist:fA14 i1="01">
<s1>UMR LORIA (CNRS, INRIA et Université de Nancy)</s1>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
</inist:fA14>
<country>France</country>
<wicri:noRegion>INRIA et Université de Nancy)</wicri:noRegion>
<wicri:noRegion>UMR LORIA (CNRS, INRIA et Université de Nancy)</wicri:noRegion>
</affiliation>
</author>
</analytic>
<series>
<title level="j" type="main">UL3 Travaux et recherches</title>
</series>
</biblStruct>
</sourceDesc>
<seriesStmt>
<title level="j" type="main">UL3 Travaux et recherches</title>
</seriesStmt>
</fileDesc>
<profileDesc>
<textClass>
<keywords scheme="KwdEn" xml:lang="en">
<term>Automatic indexing</term>
<term>Contrastive indexing</term>
<term>Full text</term>
<term>Information mapping</term>
<term>Information retrieval</term>
<term>Internet</term>
<term>Lexical statistics</term>
<term>Structured document</term>
<term>Web site</term>
<term>World wide web</term>
</keywords>
<keywords scheme="Pascal" xml:lang="fr">
<term>Recherche information</term>
<term>Site Web</term>
<term>Indexation automatique</term>
<term>Internet</term>
<term>Réseau WWW</term>
<term>Texte intégral</term>
<term>SGML</term>
<term>Statistique lexicale</term>
<term>Indexation contrastive</term>
<term>Document structuré</term>
<term>Cartographie information</term>
</keywords>
</textClass>
</profileDesc>
</teiHeader>
<front>
<div type="abstract" xml:lang="fr">Les recherches et développements menés dans le domaine de la Recherche d'Information (RI) ont atteint, semble-t-il, leurs limites en terme de résultat et d'efficacité des systèmes d'indexation et de recherche. Ainsi la RI s'est tournée vers le Traitement Automatique du Langage Naturel (TALN) afin de dépasser cette limitation et d'accroître son potentiel en terme d'application. Plus particulièrement, l'utilisation de techniques provenant de la linguistique de corpus textuels lui a permis d'affiner ses résultats et a provoqué récemment un essor dans l'élaboration de nouveaux systèmes d'indexation, d'extraction de connaissances et de recherche d'information mono et multilingue. Dans ce cadre, nous présentons ce que peut apporter à la Recherche d'Information, en terme de raffinement, une technique empruntée à la statistique lexicale et ses diverses utilisations possibles. Cette technique, notamment axée sur l'analyse sémantique et l'accès au contenu textuel, utilise des méthodes statistiques et un test de probabilité : le test de l'Écart Réduit. Nous montrerons que grâce à sa simplicité de mise en oeuvre, ce test offre une grande souplesse d'utilisation en Recherche d'Information dans deux types d'application (1) un système d'indexation automatique de documents structurés SGML (2) un prototype de cartographie (catégorisation et classification) d'un site Internet sur le Web.</div>
</front>
</TEI>
<affiliations>
<list>
<country>
<li>France</li>
</country>
</list>
<tree>
<country name="France">
<noRegion>
<name sortKey="Bonhomme, P" sort="Bonhomme, P" uniqKey="Bonhomme P" first="P." last="Bonhomme">P. Bonhomme</name>
</noRegion>
<name sortKey="Romary, L" sort="Romary, L" uniqKey="Romary L" first="L." last="Romary">L. Romary</name>
</country>
</tree>
</affiliations>
</record>

Pour manipuler ce document sous Unix (Dilib)

EXPLOR_STEP=$WICRI_ROOT/Wicri/Lorraine/explor/InforLorV4/Data/Main/Exploration
HfdSelect -h $EXPLOR_STEP/biblio.hfd -nk 00AA91 | SxmlIndent | more

Ou

HfdSelect -h $EXPLOR_AREA/Data/Main/Exploration/biblio.hfd -nk 00AA91 | SxmlIndent | more

Pour mettre un lien sur cette page dans le réseau Wicri

{{Explor lien
   |wiki=    Wicri/Lorraine
   |area=    InforLorV4
   |flux=    Main
   |étape=   Exploration
   |type=    RBID
   |clé=     Pascal:99-0380442
   |texte=   Apport de la statistique lexicale dans la recherche d'information
}}

Wicri

This area was generated with Dilib version V0.6.33.
Data generation: Mon Jun 10 21:56:28 2019. Site generation: Fri Feb 25 15:29:27 2022