InforLorV4, PascalFrancis, Corpus, bibRecord, 000B20

Apport de la statistique lexicale dans la recherche d'information

Identifieur interne : 000B20 ( PascalFrancis/Corpus ); précédent : 000B19; suivant : 000B21

Apport de la statistique lexicale dans la recherche d'information

Auteurs : P. Bonhomme ; L. Romary

Source :

UL3 Travaux et recherches

RBID : Pascal:99-0380442

Descripteurs français

Pascal (Inist)
- Recherche information, Site Web, Indexation automatique, Internet, Réseau WWW, Texte intégral, SGML, Statistique lexicale, Indexation contrastive, Document structuré, Cartographie information.

English descriptors

KwdEn :
- Automatic indexing, Contrastive indexing, Full text, Information mapping, Information retrieval, Internet, Lexical statistics, Structured document, Web site, World wide web.

Abstract

Les recherches et développements menés dans le domaine de la Recherche d'Information (RI) ont atteint, semble-t-il, leurs limites en terme de résultat et d'efficacité des systèmes d'indexation et de recherche. Ainsi la RI s'est tournée vers le Traitement Automatique du Langage Naturel (TALN) afin de dépasser cette limitation et d'accroître son potentiel en terme d'application. Plus particulièrement, l'utilisation de techniques provenant de la linguistique de corpus textuels lui a permis d'affiner ses résultats et a provoqué récemment un essor dans l'élaboration de nouveaux systèmes d'indexation, d'extraction de connaissances et de recherche d'information mono et multilingue. Dans ce cadre, nous présentons ce que peut apporter à la Recherche d'Information, en terme de raffinement, une technique empruntée à la statistique lexicale et ses diverses utilisations possibles. Cette technique, notamment axée sur l'analyse sémantique et l'accès au contenu textuel, utilise des méthodes statistiques et un test de probabilité : le test de l'Écart Réduit. Nous montrerons que grâce à sa simplicité de mise en oeuvre, ce test offre une grande souplesse d'utilisation en Recherche d'Information dans deux types d'application (1) un système d'indexation automatique de documents structurés SGML (2) un prototype de cartographie (catégorisation et classification) d'un site Internet sur le Web.

Notice en format standard (ISO 2709)

Pour connaître la documentation sur le format Inist Standard.

A08	`01`	`1`	`FRE`	`@1 Apport de la statistique lexicale dans la recherche d'information`
A09	`01`	`1`	`FRE`	`@1 Organisation des connaissances en vue de leur intégration dans les systèmes de représentation et de recherche d'information : Lille, octobre [1998]`
A11	`01`	`1`		`@1 BONHOMME (P.)`
A11	`02`	`1`		`@1 ROMARY (L.)`
A12	`01`	`1`		`@1 MANIEZ (Jacques) @9 ed.`
A12	`02`	`1`		`@1 MUSTAFA EL HADI (Widad) @9 ed.`
A14	`01`			`@1 UMR LORIA (CNRS, INRIA et Université de Nancy) @3 FRA @Z 1 aut. @Z 2 aut.`
A20				`@1 213-222`
A21				`@1 1999`
A23	`01`			`@0 FRE`
A26	`01`			`@0 2-84467-002-4`
A43	`01`			`@1 INIST @2 Y 32301 @5 354000084545230130`
A44				`@0 0000 @1 © 1999 INIST-CNRS. All rights reserved.`
A45				`@0 8 ref.`
A47	`01`	`1`		`@0 99-0380442`
A60				`@1 P @2 C`
A61				`@0 A`
A64	`01`	`1`		`@0 UL3 Travaux et recherches`
A66	`01`			`@0 FRA`
A68	`01`	`1`	`ENG`	`@1 Lexical statistics contribution in information retrieval`
C01	`01`		`FRE`	@0 Les recherches et développements menés dans le domaine de la Recherche d'Information (RI) ont atteint, semble-t-il, leurs limites en terme de résultat et d'efficacité des systèmes d'indexation et de recherche. Ainsi la RI s'est tournée vers le Traitement Automatique du Langage Naturel (TALN) afin de dépasser cette limitation et d'accroître son potentiel en terme d'application. Plus particulièrement, l'utilisation de techniques provenant de la linguistique de corpus textuels lui a permis d'affiner ses résultats et a provoqué récemment un essor dans l'élaboration de nouveaux systèmes d'indexation, d'extraction de connaissances et de recherche d'information mono et multilingue. Dans ce cadre, nous présentons ce que peut apporter à la Recherche d'Information, en terme de raffinement, une technique empruntée à la statistique lexicale et ses diverses utilisations possibles. Cette technique, notamment axée sur l'analyse sémantique et l'accès au contenu textuel, utilise des méthodes statistiques et un test de probabilité : le test de l'Écart Réduit. Nous montrerons que grâce à sa simplicité de mise en oeuvre, ce test offre une grande souplesse d'utilisation en Recherche d'Information dans deux types d'application (1) un système d'indexation automatique de documents structurés SGML (2) un prototype de cartographie (catégorisation et classification) d'un site Internet sur le Web.
C02	`01`	`X`		`@0 001A01C01`
C02	`02`	`X`		`@0 205`
C03	`01`	`X`	`FRE`	`@0 Recherche information @5 04`
C03	`01`	`X`	`ENG`	`@0 Information retrieval @5 04`
C03	`01`	`X`	`SPA`	`@0 Recuperación información @5 04`
C03	`02`	`X`	`FRE`	`@0 Site Web @5 06`
C03	`02`	`X`	`ENG`	`@0 Web site @5 06`
C03	`02`	`X`	`SPA`	`@0 Sitio Web @5 06`
C03	`03`	`X`	`FRE`	`@0 Indexation automatique @5 10`
C03	`03`	`X`	`ENG`	`@0 Automatic indexing @5 10`
C03	`03`	`X`	`SPA`	`@0 Indización automática @5 10`
C03	`04`	`X`	`FRE`	`@0 Internet @5 11`
C03	`04`	`X`	`ENG`	`@0 Internet @5 11`
C03	`04`	`X`	`SPA`	`@0 Internet @5 11`
C03	`05`	`X`	`FRE`	`@0 Réseau WWW @5 12`
C03	`05`	`X`	`ENG`	`@0 World wide web @5 12`
C03	`05`	`X`	`SPA`	`@0 Red WWW @5 12`
C03	`06`	`X`	`FRE`	`@0 Texte intégral @5 13`
C03	`06`	`X`	`ENG`	`@0 Full text @5 13`
C03	`06`	`X`	`SPA`	`@0 Texto completo @5 13`
C03	`07`	`X`	`FRE`	`@0 SGML @4 INC @5 30`
C03	`08`	`X`	`FRE`	`@0 Statistique lexicale @4 CD @5 96`
C03	`08`	`X`	`ENG`	`@0 Lexical statistics @4 CD @5 96`
C03	`09`	`X`	`FRE`	`@0 Indexation contrastive @4 CD @5 97`
C03	`09`	`X`	`ENG`	`@0 Contrastive indexing @4 CD @5 97`
C03	`10`	`X`	`FRE`	`@0 Document structuré @4 CD @5 98`
C03	`10`	`X`	`ENG`	`@0 Structured document @4 CD @5 98`
C03	`11`	`X`	`FRE`	`@0 Cartographie information @4 CD @5 99`
C03	`11`	`X`	`ENG`	`@0 Information mapping @4 CD @5 99`
C07	`01`	`X`	`FRE`	`@0 Statistique @5 01`
C07	`01`	`X`	`ENG`	`@0 Statistics @5 01`
C07	`01`	`X`	`SPA`	`@0 Estadística @5 01`
N21				`@1 242`

A30	`01`	`1`	`FRE`	`@1 Organisation des connaissances en vue de leur intégration dans les systèmes de représentation et de recherche d'information. Journées @3 Lille FRA @4 1998-10`
A30	`02`	`1`	`FRE`	`@1 ISKO : International Association for Knowledge Organization. Chapitre français. Journées @2 1 @3 Lille FRA @4 1998-10`

Format Inist (serveur)

NO :	PASCAL 99-0380442 INIST
FT :	Apport de la statistique lexicale dans la recherche d'information
ET :	(Lexical statistics contribution in information retrieval)
AU :	BONHOMME (P.); ROMARY (L.); MANIEZ (Jacques); MUSTAFA EL HADI (Widad)
AF :	UMR LORIA (CNRS, INRIA et Université de Nancy)/France (1 aut., 2 aut.)
DT :	Publication en série; Congrès; Niveau analytique
SO :	UL3 Travaux et recherches; France; Da. 1999; Pp. 213-222; Bibl. 8 ref.
LA :	Français
FA :	Les recherches et développements menés dans le domaine de la Recherche d'Information (RI) ont atteint, semble-t-il, leurs limites en terme de résultat et d'efficacité des systèmes d'indexation et de recherche. Ainsi la RI s'est tournée vers le Traitement Automatique du Langage Naturel (TALN) afin de dépasser cette limitation et d'accroître son potentiel en terme d'application. Plus particulièrement, l'utilisation de techniques provenant de la linguistique de corpus textuels lui a permis d'affiner ses résultats et a provoqué récemment un essor dans l'élaboration de nouveaux systèmes d'indexation, d'extraction de connaissances et de recherche d'information mono et multilingue. Dans ce cadre, nous présentons ce que peut apporter à la Recherche d'Information, en terme de raffinement, une technique empruntée à la statistique lexicale et ses diverses utilisations possibles. Cette technique, notamment axée sur l'analyse sémantique et l'accès au contenu textuel, utilise des méthodes statistiques et un test de probabilité : le test de l'Écart Réduit. Nous montrerons que grâce à sa simplicité de mise en oeuvre, ce test offre une grande souplesse d'utilisation en Recherche d'Information dans deux types d'application (1) un système d'indexation automatique de documents structurés SGML (2) un prototype de cartographie (catégorisation et classification) d'un site Internet sur le Web.
CC :	001A01C01; 205
FD :	Recherche information; Site Web; Indexation automatique; Internet; Réseau WWW; Texte intégral; SGML; Statistique lexicale; Indexation contrastive; Document structuré; Cartographie information
FG :	Statistique
ED :	Information retrieval; Web site; Automatic indexing; Internet; World wide web; Full text; Lexical statistics; Contrastive indexing; Structured document; Information mapping
EG :	Statistics
SD :	Recuperación información; Sitio Web; Indización automática; Internet; Red WWW; Texto completo
LO :	INIST-Y 32301.354000084545230130
ID :	99-0380442

Links to Exploration step

Pascal:99-0380442

Le document en format XML

<record><TEI><teiHeader><fileDesc><titleStmt><title xml:lang="fr" level="a">Apport de la statistique lexicale dans la recherche d'information</title>
<author><name sortKey="Bonhomme, P" sort="Bonhomme, P" uniqKey="Bonhomme P" first="P." last="Bonhomme">P. Bonhomme</name>
<affiliation><inist:fA14 i1="01"><s1>UMR LORIA (CNRS, INRIA et Université de Nancy)</s1>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
</inist:fA14>
</affiliation>
</author>
<author><name sortKey="Romary, L" sort="Romary, L" uniqKey="Romary L" first="L." last="Romary">L. Romary</name>
<affiliation><inist:fA14 i1="01"><s1>UMR LORIA (CNRS, INRIA et Université de Nancy)</s1>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
</inist:fA14>
</affiliation>
</author>
</titleStmt>
<publicationStmt><idno type="wicri:source">INIST</idno>
<idno type="inist">99-0380442</idno>
<date when="1999">1999</date>
<idno type="stanalyst">PASCAL 99-0380442 INIST</idno>
<idno type="RBID">Pascal:99-0380442</idno>
<idno type="wicri:Area/PascalFrancis/Corpus">000B20</idno>
</publicationStmt>
<sourceDesc><biblStruct><analytic><title xml:lang="fr" level="a">Apport de la statistique lexicale dans la recherche d'information</title>
<author><name sortKey="Bonhomme, P" sort="Bonhomme, P" uniqKey="Bonhomme P" first="P." last="Bonhomme">P. Bonhomme</name>
<affiliation><inist:fA14 i1="01"><s1>UMR LORIA (CNRS, INRIA et Université de Nancy)</s1>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
</inist:fA14>
</affiliation>
</author>
<author><name sortKey="Romary, L" sort="Romary, L" uniqKey="Romary L" first="L." last="Romary">L. Romary</name>
<affiliation><inist:fA14 i1="01"><s1>UMR LORIA (CNRS, INRIA et Université de Nancy)</s1>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
</inist:fA14>
</affiliation>
</author>
</analytic>
<series><title level="j" type="main">UL3 Travaux et recherches</title>
</series>
</biblStruct>
</sourceDesc>
<seriesStmt><title level="j" type="main">UL3 Travaux et recherches</title>
</seriesStmt>
</fileDesc>
<profileDesc><textClass><keywords scheme="KwdEn" xml:lang="en"><term>Automatic indexing</term>
<term>Contrastive indexing</term>
<term>Full text</term>
<term>Information mapping</term>
<term>Information retrieval</term>
<term>Internet</term>
<term>Lexical statistics</term>
<term>Structured document</term>
<term>Web site</term>
<term>World wide web</term>
</keywords>
<keywords scheme="Pascal" xml:lang="fr"><term>Recherche information</term>
<term>Site Web</term>
<term>Indexation automatique</term>
<term>Internet</term>
<term>Réseau WWW</term>
<term>Texte intégral</term>
<term>SGML</term>
<term>Statistique lexicale</term>
<term>Indexation contrastive</term>
<term>Document structuré</term>
<term>Cartographie information</term>
</keywords>
</textClass>
</profileDesc>
</teiHeader>
<front><div type="abstract" xml:lang="fr">Les recherches et développements menés dans le domaine de la Recherche d'Information (RI) ont atteint, semble-t-il, leurs limites en terme de résultat et d'efficacité des systèmes d'indexation et de recherche. Ainsi la RI s'est tournée vers le Traitement Automatique du Langage Naturel (TALN) afin de dépasser cette limitation et d'accroître son potentiel en terme d'application. Plus particulièrement, l'utilisation de techniques provenant de la linguistique de corpus textuels lui a permis d'affiner ses résultats et a provoqué récemment un essor dans l'élaboration de nouveaux systèmes d'indexation, d'extraction de connaissances et de recherche d'information mono et multilingue. Dans ce cadre, nous présentons ce que peut apporter à la Recherche d'Information, en terme de raffinement, une technique empruntée à la statistique lexicale et ses diverses utilisations possibles. Cette technique, notamment axée sur l'analyse sémantique et l'accès au contenu textuel, utilise des méthodes statistiques et un test de probabilité : le test de l'Écart Réduit. Nous montrerons que grâce à sa simplicité de mise en oeuvre, ce test offre une grande souplesse d'utilisation en Recherche d'Information dans deux types d'application (1) un système d'indexation automatique de documents structurés SGML (2) un prototype de cartographie (catégorisation et classification) d'un site Internet sur le Web.</div>
</front>
</TEI>
<inist><standard h6="B"><pA><fA08 i1="01" i2="1" l="FRE"><s1>Apport de la statistique lexicale dans la recherche d'information</s1>
</fA08>
<fA09 i1="01" i2="1" l="FRE"><s1>Organisation des connaissances en vue de leur intégration dans les systèmes de représentation et de recherche d'information : Lille, octobre [1998]</s1>
</fA09>
<fA11 i1="01" i2="1"><s1>BONHOMME (P.)</s1>
</fA11>
<fA11 i1="02" i2="1"><s1>ROMARY (L.)</s1>
</fA11>
<fA12 i1="01" i2="1"><s1>MANIEZ (Jacques)</s1>
<s9>ed.</s9>
</fA12>
<fA12 i1="02" i2="1"><s1>MUSTAFA EL HADI (Widad)</s1>
<s9>ed.</s9>
</fA12>
<fA14 i1="01"><s1>UMR LORIA (CNRS, INRIA et Université de Nancy)</s1>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
</fA14>
<fA20><s1>213-222</s1>
</fA20>
<fA21><s1>1999</s1>
</fA21>
<fA23 i1="01"><s0>FRE</s0>
</fA23>
<fA26 i1="01"><s0>2-84467-002-4</s0>
</fA26>
<fA43 i1="01"><s1>INIST</s1>
<s2>Y 32301</s2>
<s5>354000084545230130</s5>
</fA43>
<fA44><s0>0000</s0>
<s1>© 1999 INIST-CNRS. All rights reserved.</s1>
</fA44>
<fA45><s0>8 ref.</s0>
</fA45>
<fA47 i1="01" i2="1"><s0>99-0380442</s0>
</fA47>
<fA60><s1>P</s1>
<s2>C</s2>
</fA60>
<fA61><s0>A</s0>
</fA61>
<fA64 i1="01" i2="1"><s0>UL3 Travaux et recherches</s0>
</fA64>
<fA66 i1="01"><s0>FRA</s0>
</fA66>
<fA68 i1="01" i2="1" l="ENG"><s1>Lexical statistics contribution in information retrieval</s1>
</fA68>
<fC01 i1="01" l="FRE"><s0>Les recherches et développements menés dans le domaine de la Recherche d'Information (RI) ont atteint, semble-t-il, leurs limites en terme de résultat et d'efficacité des systèmes d'indexation et de recherche. Ainsi la RI s'est tournée vers le Traitement Automatique du Langage Naturel (TALN) afin de dépasser cette limitation et d'accroître son potentiel en terme d'application. Plus particulièrement, l'utilisation de techniques provenant de la linguistique de corpus textuels lui a permis d'affiner ses résultats et a provoqué récemment un essor dans l'élaboration de nouveaux systèmes d'indexation, d'extraction de connaissances et de recherche d'information mono et multilingue. Dans ce cadre, nous présentons ce que peut apporter à la Recherche d'Information, en terme de raffinement, une technique empruntée à la statistique lexicale et ses diverses utilisations possibles. Cette technique, notamment axée sur l'analyse sémantique et l'accès au contenu textuel, utilise des méthodes statistiques et un test de probabilité : le test de l'Écart Réduit. Nous montrerons que grâce à sa simplicité de mise en oeuvre, ce test offre une grande souplesse d'utilisation en Recherche d'Information dans deux types d'application (1) un système d'indexation automatique de documents structurés SGML (2) un prototype de cartographie (catégorisation et classification) d'un site Internet sur le Web.</s0>
</fC01>
<fC02 i1="01" i2="X"><s0>001A01C01</s0>
</fC02>
<fC02 i1="02" i2="X"><s0>205</s0>
</fC02>
<fC03 i1="01" i2="X" l="FRE"><s0>Recherche information</s0>
<s5>04</s5>
</fC03>
<fC03 i1="01" i2="X" l="ENG"><s0>Information retrieval</s0>
<s5>04</s5>
</fC03>
<fC03 i1="01" i2="X" l="SPA"><s0>Recuperación información</s0>
<s5>04</s5>
</fC03>
<fC03 i1="02" i2="X" l="FRE"><s0>Site Web</s0>
<s5>06</s5>
</fC03>
<fC03 i1="02" i2="X" l="ENG"><s0>Web site</s0>
<s5>06</s5>
</fC03>
<fC03 i1="02" i2="X" l="SPA"><s0>Sitio Web</s0>
<s5>06</s5>
</fC03>
<fC03 i1="03" i2="X" l="FRE"><s0>Indexation automatique</s0>
<s5>10</s5>
</fC03>
<fC03 i1="03" i2="X" l="ENG"><s0>Automatic indexing</s0>
<s5>10</s5>
</fC03>
<fC03 i1="03" i2="X" l="SPA"><s0>Indización automática</s0>
<s5>10</s5>
</fC03>
<fC03 i1="04" i2="X" l="FRE"><s0>Internet</s0>
<s5>11</s5>
</fC03>
<fC03 i1="04" i2="X" l="ENG"><s0>Internet</s0>
<s5>11</s5>
</fC03>
<fC03 i1="04" i2="X" l="SPA"><s0>Internet</s0>
<s5>11</s5>
</fC03>
<fC03 i1="05" i2="X" l="FRE"><s0>Réseau WWW</s0>
<s5>12</s5>
</fC03>
<fC03 i1="05" i2="X" l="ENG"><s0>World wide web</s0>
<s5>12</s5>
</fC03>
<fC03 i1="05" i2="X" l="SPA"><s0>Red WWW</s0>
<s5>12</s5>
</fC03>
<fC03 i1="06" i2="X" l="FRE"><s0>Texte intégral</s0>
<s5>13</s5>
</fC03>
<fC03 i1="06" i2="X" l="ENG"><s0>Full text</s0>
<s5>13</s5>
</fC03>
<fC03 i1="06" i2="X" l="SPA"><s0>Texto completo</s0>
<s5>13</s5>
</fC03>
<fC03 i1="07" i2="X" l="FRE"><s0>SGML</s0>
<s4>INC</s4>
<s5>30</s5>
</fC03>
<fC03 i1="08" i2="X" l="FRE"><s0>Statistique lexicale</s0>
<s4>CD</s4>
<s5>96</s5>
</fC03>
<fC03 i1="08" i2="X" l="ENG"><s0>Lexical statistics</s0>
<s4>CD</s4>
<s5>96</s5>
</fC03>
<fC03 i1="09" i2="X" l="FRE"><s0>Indexation contrastive</s0>
<s4>CD</s4>
<s5>97</s5>
</fC03>
<fC03 i1="09" i2="X" l="ENG"><s0>Contrastive indexing</s0>
<s4>CD</s4>
<s5>97</s5>
</fC03>
<fC03 i1="10" i2="X" l="FRE"><s0>Document structuré</s0>
<s4>CD</s4>
<s5>98</s5>
</fC03>
<fC03 i1="10" i2="X" l="ENG"><s0>Structured document</s0>
<s4>CD</s4>
<s5>98</s5>
</fC03>
<fC03 i1="11" i2="X" l="FRE"><s0>Cartographie information</s0>
<s4>CD</s4>
<s5>99</s5>
</fC03>
<fC03 i1="11" i2="X" l="ENG"><s0>Information mapping</s0>
<s4>CD</s4>
<s5>99</s5>
</fC03>
<fC07 i1="01" i2="X" l="FRE"><s0>Statistique</s0>
<s5>01</s5>
</fC07>
<fC07 i1="01" i2="X" l="ENG"><s0>Statistics</s0>
<s5>01</s5>
</fC07>
<fC07 i1="01" i2="X" l="SPA"><s0>Estadística</s0>
<s5>01</s5>
</fC07>
<fN21><s1>242</s1>
</fN21>
</pA>
<pR><fA30 i1="01" i2="1" l="FRE"><s1>Organisation des connaissances en vue de leur intégration dans les systèmes de représentation et de recherche d'information. Journées</s1>
<s3>Lille FRA</s3>
<s4>1998-10</s4>
</fA30>
<fA30 i1="02" i2="1" l="FRE"><s1>ISKO : International Association for Knowledge Organization. Chapitre français. Journées</s1>
<s2>1</s2>
<s3>Lille FRA</s3>
<s4>1998-10</s4>
</fA30>
</pR>
</standard>
<server><NO>PASCAL 99-0380442 INIST</NO>
<FT>Apport de la statistique lexicale dans la recherche d'information</FT>
<ET>(Lexical statistics contribution in information retrieval)</ET>
<AU>BONHOMME (P.); ROMARY (L.); MANIEZ (Jacques); MUSTAFA EL HADI (Widad)</AU>
<AF>UMR LORIA (CNRS, INRIA et Université de Nancy)/France (1 aut., 2 aut.)</AF>
<DT>Publication en série; Congrès; Niveau analytique</DT>
<SO>UL3 Travaux et recherches; France; Da. 1999; Pp. 213-222; Bibl. 8 ref.</SO>
<LA>Français</LA>
<FA>Les recherches et développements menés dans le domaine de la Recherche d'Information (RI) ont atteint, semble-t-il, leurs limites en terme de résultat et d'efficacité des systèmes d'indexation et de recherche. Ainsi la RI s'est tournée vers le Traitement Automatique du Langage Naturel (TALN) afin de dépasser cette limitation et d'accroître son potentiel en terme d'application. Plus particulièrement, l'utilisation de techniques provenant de la linguistique de corpus textuels lui a permis d'affiner ses résultats et a provoqué récemment un essor dans l'élaboration de nouveaux systèmes d'indexation, d'extraction de connaissances et de recherche d'information mono et multilingue. Dans ce cadre, nous présentons ce que peut apporter à la Recherche d'Information, en terme de raffinement, une technique empruntée à la statistique lexicale et ses diverses utilisations possibles. Cette technique, notamment axée sur l'analyse sémantique et l'accès au contenu textuel, utilise des méthodes statistiques et un test de probabilité : le test de l'Écart Réduit. Nous montrerons que grâce à sa simplicité de mise en oeuvre, ce test offre une grande souplesse d'utilisation en Recherche d'Information dans deux types d'application (1) un système d'indexation automatique de documents structurés SGML (2) un prototype de cartographie (catégorisation et classification) d'un site Internet sur le Web.</FA>
<CC>001A01C01; 205</CC>
<FD>Recherche information; Site Web; Indexation automatique; Internet; Réseau WWW; Texte intégral; SGML; Statistique lexicale; Indexation contrastive; Document structuré; Cartographie information</FD>
<FG>Statistique</FG>
<ED>Information retrieval; Web site; Automatic indexing; Internet; World wide web; Full text; Lexical statistics; Contrastive indexing; Structured document; Information mapping</ED>
<EG>Statistics</EG>
<SD>Recuperación información; Sitio Web; Indización automática; Internet; Red WWW; Texto completo</SD>
<LO>INIST-Y 32301.354000084545230130</LO>
<ID>99-0380442</ID>
</server>
</inist>
</record>

Pour manipuler ce document sous Unix (Dilib)

EXPLOR_STEP=$WICRI_ROOT/Wicri/Lorraine/explor/InforLorV4/Data/PascalFrancis/Corpus

HfdSelect -h $EXPLOR_STEP/biblio.hfd -nk 000B20 | SxmlIndent | more

HfdSelect -h $EXPLOR_AREA/Data/PascalFrancis/Corpus/biblio.hfd -nk 000B20 | SxmlIndent | more

Pour mettre un lien sur cette page dans le réseau Wicri

{{Explor lien
   |wiki=    Wicri/Lorraine
   |area=    InforLorV4
   |flux=    PascalFrancis
   |étape=   Corpus
   |type=    RBID
   |clé=     Pascal:99-0380442
   |texte=   Apport de la statistique lexicale dans la recherche d'information
}}

This area was generated with Dilib version V0.6.33.
Data generation: Mon Jun 10 21:56:28 2019. Site generation: Fri Feb 25 15:29:27 2022

	Serveur d'exploration sur la recherche en informatique en Lorraine
	Attention, ce site est en cours de développement ! Attention, site généré par des moyens informatiques à partir de corpus bruts. Les informations ne sont donc pas validées.

Serveur d'exploration sur la recherche en informatique en Lorraine

Apport de la statistique lexicale dans la recherche d'information

Apport de la statistique lexicale dans la recherche d'information

Source :

Descripteurs français

English descriptors

Abstract

Notice en format standard (ISO 2709)

Format Inist (serveur)

Links to Exploration step

Le document en format XML

Pour manipuler ce document sous Unix (Dilib)

Pour mettre un lien sur cette page dans le réseau Wicri