Serveur d'exploration sur l'OCR

Attention, ce site est en cours de développement !
Attention, site généré par des moyens informatiques à partir de corpus bruts.
Les informations ne sont donc pas validées.

Parsing and tagging of bilingual dictionaries

Identifieur interne : 000579 ( PascalFrancis/Corpus ); précédent : 000578; suivant : 000580

Parsing and tagging of bilingual dictionaries

Auteurs : HUANFENG MA ; Burcu Karagol-Ayan ; David Doermann ; Doug Oard ; JIANQIANG WANG

Source :

RBID : Francis:524-04-11442

Descripteurs français

English descriptors

Abstract

Les dictionnaires bilingues ont un grand potentiel comme source de ressources lexicologiques pour l'apprentissage dans les systèmes automatisés tels que OCR, traduction automatique, et recherche documentaire multilangue. Dans cet article, nous décrivons un système pour extraire des lexiques de termes à partir de dictionnaires bilingues imprimés. Notre travail se présente en trois phases - Segmentation de dictionnaire, étiquetage des entrées, et génération. Dans la segmentation, les pages sont divisées en entrées logiques basées sur des caractéristiques structurelles apprises à partir d'exemples choisis. Les entrées extraites liées aux étiquettes fonctionnelles sont passées à un module d'étiquetage qui associe des étiquettes linguistiques à chaque mot ou expression dans l'entrée. Le résultat produit par le système est une structure qui représente les entrées du dictionnaire. Nous avons employé cette approche pour analyser une variété de dictionnaires avec des alphabets latins ou non-latins, et nous démontrons les résultats de la génération de lexiques de termes pour la recherche d'information à partir d'une collection d'articles de journaux français et de requêtes en anglais.

Notice en format standard (ISO 2709)

Pour connaître la documentation sur le format Inist Standard.

pA  
A01 01  1    @0 1248-9433
A03   1    @0 TAL, Trait. autom. lang.
A05       @2 44
A06       @2 2
A08 01  1  ENG  @1 Parsing and tagging of bilingual dictionaries
A09 01  1  FRE  @1 Les dictionnaires électroniques
A11 01  1    @1 HUANFENG MA
A11 02  1    @1 KARAGOL-AYAN (Burcu)
A11 03  1    @1 DOERMANN (David)
A11 04  1    @1 OARD (Doug)
A11 05  1    @1 JIANQIANG WANG
A12 01  1    @1 ZOCK (Michael) @9 ed.
A12 02  1    @1 CARROLL (John) @9 ed.
A14 01      @1 Institute for Advanced Computer Studies (UMIACS), University of Maryland @2 College Park, MD 20742 @3 USA @Z 1 aut. @Z 2 aut. @Z 3 aut. @Z 4 aut. @Z 5 aut.
A14 02      @1 College of Information Studies University of Maryland @2 College Park, MD 20742 @3 USA @Z 4 aut. @Z 5 aut.
A15 01      @1 LIMSI-CNRS @3 FRA @Z 1 aut.
A15 02      @1 University of Sussex, Brighton @3 GBR @Z 2 aut.
A20       @1 125-149
A21       @1 2003
A23 01      @0 ENG
A24 01      @0 fre
A43 01      @1 INIST @2 1351 @5 354000115980680060
A44       @0 0000 @1 © 2004 INIST-CNRS. All rights reserved.
A45       @0 2 p.3/4
A47 01  1    @0 524-04-11442
A60       @1 P
A61       @0 A
A64 01  1    @0 TAL. Traitement automatique des langues
A66 01      @0 FRA
A69 01  1  ENG  @1 Electronic dictionaries
C01 01    FRE  @0 Les dictionnaires bilingues ont un grand potentiel comme source de ressources lexicologiques pour l'apprentissage dans les systèmes automatisés tels que OCR, traduction automatique, et recherche documentaire multilangue. Dans cet article, nous décrivons un système pour extraire des lexiques de termes à partir de dictionnaires bilingues imprimés. Notre travail se présente en trois phases - Segmentation de dictionnaire, étiquetage des entrées, et génération. Dans la segmentation, les pages sont divisées en entrées logiques basées sur des caractéristiques structurelles apprises à partir d'exemples choisis. Les entrées extraites liées aux étiquettes fonctionnelles sont passées à un module d'étiquetage qui associe des étiquettes linguistiques à chaque mot ou expression dans l'entrée. Le résultat produit par le système est une structure qui représente les entrées du dictionnaire. Nous avons employé cette approche pour analyser une variété de dictionnaires avec des alphabets latins ou non-latins, et nous démontrons les résultats de la génération de lexiques de termes pour la recherche d'information à partir d'une collection d'articles de journaux français et de requêtes en anglais.
C02 01  L    @0 52478 @1 XV
C02 02  L    @0 524
C03 01  L  FRE  @0 Linguistique appliquée @2 NI @5 01
C03 01  L  ENG  @0 Applied linguistics @2 NI @5 01
C03 02  L  FRE  @0 Linguistique informatique @2 NI @5 02
C03 02  L  ENG  @0 Computational linguistics @2 NI @5 02
C03 03  L  FRE  @0 Dictionnaire bilingue @2 NI @5 03
C03 03  L  ENG  @0 Bilingual dictionary @2 NI @5 03
C03 04  L  FRE  @0 Recherche d'information @2 NI @5 04
C03 04  L  ENG  @0 Information retrieval @2 NI @5 04
C03 05  L  FRE  @0 Dictionnaire électronique @2 NI @5 05
C03 05  L  ENG  @0 Electronic dictionary @2 NI @5 05
C03 06  L  FRE  @0 Etiquetage automatique @2 NI @5 06
C03 06  L  ENG  @0 Tagging @2 NI @5 06
C03 07  L  FRE  @0 Segmentation @2 NI @5 07
C03 07  L  ENG  @0 Segmentation @2 NI @5 07
C03 08  L  FRE  @0 Génération automatique @2 NI @5 08
C03 08  L  ENG  @0 Automatic generation @2 NI @5 08
C03 09  L  FRE  @0 Méthode @2 NI @5 09
C03 09  L  ENG  @0 Method @2 NI @5 09
C03 10  L  FRE  @0 Acquisition de connaissances @2 NI @5 10
C03 10  L  ENG  @0 Knowledge acquisition @2 NI @5 10
C03 11  L  FRE  @0 Etude expérimentale @2 NI @5 11
C03 11  L  ENG  @0 Experimental study @2 NI @5 11
C03 12  L  FRE  @0 Traitement automatique des langues naturelles @2 NI @5 12
C03 12  L  ENG  @0 Natural language processing @2 NI @5 12
C03 13  L  FRE  @0 Ressources linguistiques @2 NI @4 CD @5 96
C03 13  L  ENG  @0 Linguistic resources @2 NI @4 CD @5 96
N21       @1 159
N82       @1 PSI

Format Inist (serveur)

NO : FRANCIS 524-04-11442 INIST
FT : Les dictionnaires électroniques
ET : Parsing and tagging of bilingual dictionaries
ET : (Electronic dictionaries)
AU : HUANFENG MA; KARAGOL-AYAN (Burcu); DOERMANN (David); OARD (Doug); JIANQIANG WANG; ZOCK (Michael); CARROLL (John)
AF : Institute for Advanced Computer Studies (UMIACS), University of Maryland/College Park, MD 20742/Etats-Unis (1 aut., 2 aut., 3 aut., 4 aut., 5 aut.); College of Information Studies University of Maryland/College Park, MD 20742/Etats-Unis (4 aut., 5 aut.); LIMSI-CNRS/France (1 aut.); University of Sussex, Brighton/Royaume-Uni (2 aut.)
DT : Publication en série; Niveau analytique
SO : TAL. Traitement automatique des langues; ISSN 1248-9433; France; Da. 2003; Vol. 44; No. 2; Pp. 125-149; Abs. français; Bibl. 2 p.3/4
LA : Anglais
FA : Les dictionnaires bilingues ont un grand potentiel comme source de ressources lexicologiques pour l'apprentissage dans les systèmes automatisés tels que OCR, traduction automatique, et recherche documentaire multilangue. Dans cet article, nous décrivons un système pour extraire des lexiques de termes à partir de dictionnaires bilingues imprimés. Notre travail se présente en trois phases - Segmentation de dictionnaire, étiquetage des entrées, et génération. Dans la segmentation, les pages sont divisées en entrées logiques basées sur des caractéristiques structurelles apprises à partir d'exemples choisis. Les entrées extraites liées aux étiquettes fonctionnelles sont passées à un module d'étiquetage qui associe des étiquettes linguistiques à chaque mot ou expression dans l'entrée. Le résultat produit par le système est une structure qui représente les entrées du dictionnaire. Nous avons employé cette approche pour analyser une variété de dictionnaires avec des alphabets latins ou non-latins, et nous démontrons les résultats de la génération de lexiques de termes pour la recherche d'information à partir d'une collection d'articles de journaux français et de requêtes en anglais.
CC : 52478; 524
FD : Linguistique appliquée; Linguistique informatique; Dictionnaire bilingue; Recherche d'information; Dictionnaire électronique; Etiquetage automatique; Segmentation; Génération automatique; Méthode; Acquisition de connaissances; Etude expérimentale; Traitement automatique des langues naturelles; Ressources linguistiques
ED : Applied linguistics; Computational linguistics; Bilingual dictionary; Information retrieval; Electronic dictionary; Tagging; Segmentation; Automatic generation; Method; Knowledge acquisition; Experimental study; Natural language processing; Linguistic resources
LO : INIST-1351.354000115980680060
ID : 524

Links to Exploration step

Francis:524-04-11442

Le document en format XML

<record>
<TEI>
<teiHeader>
<fileDesc>
<titleStmt>
<title xml:lang="en" level="a">Parsing and tagging of bilingual dictionaries</title>
<author>
<name sortKey="Huanfeng Ma" sort="Huanfeng Ma" uniqKey="Huanfeng Ma" last="Huanfeng Ma">HUANFENG MA</name>
<affiliation>
<inist:fA14 i1="01">
<s1>Institute for Advanced Computer Studies (UMIACS), University of Maryland</s1>
<s2>College Park, MD 20742</s2>
<s3>USA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
<sZ>3 aut.</sZ>
<sZ>4 aut.</sZ>
<sZ>5 aut.</sZ>
</inist:fA14>
</affiliation>
</author>
<author>
<name sortKey="Karagol Ayan, Burcu" sort="Karagol Ayan, Burcu" uniqKey="Karagol Ayan B" first="Burcu" last="Karagol-Ayan">Burcu Karagol-Ayan</name>
<affiliation>
<inist:fA14 i1="01">
<s1>Institute for Advanced Computer Studies (UMIACS), University of Maryland</s1>
<s2>College Park, MD 20742</s2>
<s3>USA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
<sZ>3 aut.</sZ>
<sZ>4 aut.</sZ>
<sZ>5 aut.</sZ>
</inist:fA14>
</affiliation>
</author>
<author>
<name sortKey="Doermann, David" sort="Doermann, David" uniqKey="Doermann D" first="David" last="Doermann">David Doermann</name>
<affiliation>
<inist:fA14 i1="01">
<s1>Institute for Advanced Computer Studies (UMIACS), University of Maryland</s1>
<s2>College Park, MD 20742</s2>
<s3>USA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
<sZ>3 aut.</sZ>
<sZ>4 aut.</sZ>
<sZ>5 aut.</sZ>
</inist:fA14>
</affiliation>
</author>
<author>
<name sortKey="Oard, Doug" sort="Oard, Doug" uniqKey="Oard D" first="Doug" last="Oard">Doug Oard</name>
<affiliation>
<inist:fA14 i1="01">
<s1>Institute for Advanced Computer Studies (UMIACS), University of Maryland</s1>
<s2>College Park, MD 20742</s2>
<s3>USA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
<sZ>3 aut.</sZ>
<sZ>4 aut.</sZ>
<sZ>5 aut.</sZ>
</inist:fA14>
</affiliation>
<affiliation>
<inist:fA14 i1="02">
<s1>College of Information Studies University of Maryland</s1>
<s2>College Park, MD 20742</s2>
<s3>USA</s3>
<sZ>4 aut.</sZ>
<sZ>5 aut.</sZ>
</inist:fA14>
</affiliation>
</author>
<author>
<name sortKey="Jianqiang Wang" sort="Jianqiang Wang" uniqKey="Jianqiang Wang" last="Jianqiang Wang">JIANQIANG WANG</name>
<affiliation>
<inist:fA14 i1="01">
<s1>Institute for Advanced Computer Studies (UMIACS), University of Maryland</s1>
<s2>College Park, MD 20742</s2>
<s3>USA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
<sZ>3 aut.</sZ>
<sZ>4 aut.</sZ>
<sZ>5 aut.</sZ>
</inist:fA14>
</affiliation>
<affiliation>
<inist:fA14 i1="02">
<s1>College of Information Studies University of Maryland</s1>
<s2>College Park, MD 20742</s2>
<s3>USA</s3>
<sZ>4 aut.</sZ>
<sZ>5 aut.</sZ>
</inist:fA14>
</affiliation>
</author>
</titleStmt>
<publicationStmt>
<idno type="wicri:source">INIST</idno>
<idno type="inist">524-04-11442</idno>
<date when="2003">2003</date>
<idno type="stanalyst">FRANCIS 524-04-11442 INIST</idno>
<idno type="RBID">Francis:524-04-11442</idno>
<idno type="wicri:Area/PascalFrancis/Corpus">000579</idno>
</publicationStmt>
<sourceDesc>
<biblStruct>
<analytic>
<title xml:lang="en" level="a">Parsing and tagging of bilingual dictionaries</title>
<author>
<name sortKey="Huanfeng Ma" sort="Huanfeng Ma" uniqKey="Huanfeng Ma" last="Huanfeng Ma">HUANFENG MA</name>
<affiliation>
<inist:fA14 i1="01">
<s1>Institute for Advanced Computer Studies (UMIACS), University of Maryland</s1>
<s2>College Park, MD 20742</s2>
<s3>USA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
<sZ>3 aut.</sZ>
<sZ>4 aut.</sZ>
<sZ>5 aut.</sZ>
</inist:fA14>
</affiliation>
</author>
<author>
<name sortKey="Karagol Ayan, Burcu" sort="Karagol Ayan, Burcu" uniqKey="Karagol Ayan B" first="Burcu" last="Karagol-Ayan">Burcu Karagol-Ayan</name>
<affiliation>
<inist:fA14 i1="01">
<s1>Institute for Advanced Computer Studies (UMIACS), University of Maryland</s1>
<s2>College Park, MD 20742</s2>
<s3>USA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
<sZ>3 aut.</sZ>
<sZ>4 aut.</sZ>
<sZ>5 aut.</sZ>
</inist:fA14>
</affiliation>
</author>
<author>
<name sortKey="Doermann, David" sort="Doermann, David" uniqKey="Doermann D" first="David" last="Doermann">David Doermann</name>
<affiliation>
<inist:fA14 i1="01">
<s1>Institute for Advanced Computer Studies (UMIACS), University of Maryland</s1>
<s2>College Park, MD 20742</s2>
<s3>USA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
<sZ>3 aut.</sZ>
<sZ>4 aut.</sZ>
<sZ>5 aut.</sZ>
</inist:fA14>
</affiliation>
</author>
<author>
<name sortKey="Oard, Doug" sort="Oard, Doug" uniqKey="Oard D" first="Doug" last="Oard">Doug Oard</name>
<affiliation>
<inist:fA14 i1="01">
<s1>Institute for Advanced Computer Studies (UMIACS), University of Maryland</s1>
<s2>College Park, MD 20742</s2>
<s3>USA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
<sZ>3 aut.</sZ>
<sZ>4 aut.</sZ>
<sZ>5 aut.</sZ>
</inist:fA14>
</affiliation>
<affiliation>
<inist:fA14 i1="02">
<s1>College of Information Studies University of Maryland</s1>
<s2>College Park, MD 20742</s2>
<s3>USA</s3>
<sZ>4 aut.</sZ>
<sZ>5 aut.</sZ>
</inist:fA14>
</affiliation>
</author>
<author>
<name sortKey="Jianqiang Wang" sort="Jianqiang Wang" uniqKey="Jianqiang Wang" last="Jianqiang Wang">JIANQIANG WANG</name>
<affiliation>
<inist:fA14 i1="01">
<s1>Institute for Advanced Computer Studies (UMIACS), University of Maryland</s1>
<s2>College Park, MD 20742</s2>
<s3>USA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
<sZ>3 aut.</sZ>
<sZ>4 aut.</sZ>
<sZ>5 aut.</sZ>
</inist:fA14>
</affiliation>
<affiliation>
<inist:fA14 i1="02">
<s1>College of Information Studies University of Maryland</s1>
<s2>College Park, MD 20742</s2>
<s3>USA</s3>
<sZ>4 aut.</sZ>
<sZ>5 aut.</sZ>
</inist:fA14>
</affiliation>
</author>
</analytic>
<series>
<title level="j" type="main">TAL. Traitement automatique des langues</title>
<title level="j" type="abbreviated">TAL, Trait. autom. lang.</title>
<idno type="ISSN">1248-9433</idno>
<imprint>
<date when="2003">2003</date>
</imprint>
</series>
</biblStruct>
</sourceDesc>
<seriesStmt>
<title level="j" type="main">TAL. Traitement automatique des langues</title>
<title level="j" type="abbreviated">TAL, Trait. autom. lang.</title>
<idno type="ISSN">1248-9433</idno>
</seriesStmt>
</fileDesc>
<profileDesc>
<textClass>
<keywords scheme="KwdEn" xml:lang="en">
<term>Applied linguistics</term>
<term>Automatic generation</term>
<term>Bilingual dictionary</term>
<term>Computational linguistics</term>
<term>Electronic dictionary</term>
<term>Experimental study</term>
<term>Information retrieval</term>
<term>Knowledge acquisition</term>
<term>Linguistic resources</term>
<term>Method</term>
<term>Natural language processing</term>
<term>Segmentation</term>
<term>Tagging</term>
</keywords>
<keywords scheme="Pascal" xml:lang="fr">
<term>Linguistique appliquée</term>
<term>Linguistique informatique</term>
<term>Dictionnaire bilingue</term>
<term>Recherche d'information</term>
<term>Dictionnaire électronique</term>
<term>Etiquetage automatique</term>
<term>Segmentation</term>
<term>Génération automatique</term>
<term>Méthode</term>
<term>Acquisition de connaissances</term>
<term>Etude expérimentale</term>
<term>Traitement automatique des langues naturelles</term>
<term>Ressources linguistiques</term>
</keywords>
</textClass>
</profileDesc>
</teiHeader>
<front>
<div type="abstract" xml:lang="fr">Les dictionnaires bilingues ont un grand potentiel comme source de ressources lexicologiques pour l'apprentissage dans les systèmes automatisés tels que OCR, traduction automatique, et recherche documentaire multilangue. Dans cet article, nous décrivons un système pour extraire des lexiques de termes à partir de dictionnaires bilingues imprimés. Notre travail se présente en trois phases - Segmentation de dictionnaire, étiquetage des entrées, et génération. Dans la segmentation, les pages sont divisées en entrées logiques basées sur des caractéristiques structurelles apprises à partir d'exemples choisis. Les entrées extraites liées aux étiquettes fonctionnelles sont passées à un module d'étiquetage qui associe des étiquettes linguistiques à chaque mot ou expression dans l'entrée. Le résultat produit par le système est une structure qui représente les entrées du dictionnaire. Nous avons employé cette approche pour analyser une variété de dictionnaires avec des alphabets latins ou non-latins, et nous démontrons les résultats de la génération de lexiques de termes pour la recherche d'information à partir d'une collection d'articles de journaux français et de requêtes en anglais.</div>
</front>
</TEI>
<inist>
<standard h6="B">
<pA>
<fA01 i1="01" i2="1">
<s0>1248-9433</s0>
</fA01>
<fA03 i2="1">
<s0>TAL, Trait. autom. lang.</s0>
</fA03>
<fA05>
<s2>44</s2>
</fA05>
<fA06>
<s2>2</s2>
</fA06>
<fA08 i1="01" i2="1" l="ENG">
<s1>Parsing and tagging of bilingual dictionaries</s1>
</fA08>
<fA09 i1="01" i2="1" l="FRE">
<s1>Les dictionnaires électroniques</s1>
</fA09>
<fA11 i1="01" i2="1">
<s1>HUANFENG MA</s1>
</fA11>
<fA11 i1="02" i2="1">
<s1>KARAGOL-AYAN (Burcu)</s1>
</fA11>
<fA11 i1="03" i2="1">
<s1>DOERMANN (David)</s1>
</fA11>
<fA11 i1="04" i2="1">
<s1>OARD (Doug)</s1>
</fA11>
<fA11 i1="05" i2="1">
<s1>JIANQIANG WANG</s1>
</fA11>
<fA12 i1="01" i2="1">
<s1>ZOCK (Michael)</s1>
<s9>ed.</s9>
</fA12>
<fA12 i1="02" i2="1">
<s1>CARROLL (John)</s1>
<s9>ed.</s9>
</fA12>
<fA14 i1="01">
<s1>Institute for Advanced Computer Studies (UMIACS), University of Maryland</s1>
<s2>College Park, MD 20742</s2>
<s3>USA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
<sZ>3 aut.</sZ>
<sZ>4 aut.</sZ>
<sZ>5 aut.</sZ>
</fA14>
<fA14 i1="02">
<s1>College of Information Studies University of Maryland</s1>
<s2>College Park, MD 20742</s2>
<s3>USA</s3>
<sZ>4 aut.</sZ>
<sZ>5 aut.</sZ>
</fA14>
<fA15 i1="01">
<s1>LIMSI-CNRS</s1>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
</fA15>
<fA15 i1="02">
<s1>University of Sussex, Brighton</s1>
<s3>GBR</s3>
<sZ>2 aut.</sZ>
</fA15>
<fA20>
<s1>125-149</s1>
</fA20>
<fA21>
<s1>2003</s1>
</fA21>
<fA23 i1="01">
<s0>ENG</s0>
</fA23>
<fA24 i1="01">
<s0>fre</s0>
</fA24>
<fA43 i1="01">
<s1>INIST</s1>
<s2>1351</s2>
<s5>354000115980680060</s5>
</fA43>
<fA44>
<s0>0000</s0>
<s1>© 2004 INIST-CNRS. All rights reserved.</s1>
</fA44>
<fA45>
<s0>2 p.3/4</s0>
</fA45>
<fA47 i1="01" i2="1">
<s0>524-04-11442</s0>
</fA47>
<fA60>
<s1>P</s1>
</fA60>
<fA61>
<s0>A</s0>
</fA61>
<fA64 i1="01" i2="1">
<s0>TAL. Traitement automatique des langues</s0>
</fA64>
<fA66 i1="01">
<s0>FRA</s0>
</fA66>
<fA69 i1="01" i2="1" l="ENG">
<s1>Electronic dictionaries</s1>
</fA69>
<fC01 i1="01" l="FRE">
<s0>Les dictionnaires bilingues ont un grand potentiel comme source de ressources lexicologiques pour l'apprentissage dans les systèmes automatisés tels que OCR, traduction automatique, et recherche documentaire multilangue. Dans cet article, nous décrivons un système pour extraire des lexiques de termes à partir de dictionnaires bilingues imprimés. Notre travail se présente en trois phases - Segmentation de dictionnaire, étiquetage des entrées, et génération. Dans la segmentation, les pages sont divisées en entrées logiques basées sur des caractéristiques structurelles apprises à partir d'exemples choisis. Les entrées extraites liées aux étiquettes fonctionnelles sont passées à un module d'étiquetage qui associe des étiquettes linguistiques à chaque mot ou expression dans l'entrée. Le résultat produit par le système est une structure qui représente les entrées du dictionnaire. Nous avons employé cette approche pour analyser une variété de dictionnaires avec des alphabets latins ou non-latins, et nous démontrons les résultats de la génération de lexiques de termes pour la recherche d'information à partir d'une collection d'articles de journaux français et de requêtes en anglais.</s0>
</fC01>
<fC02 i1="01" i2="L">
<s0>52478</s0>
<s1>XV</s1>
</fC02>
<fC02 i1="02" i2="L">
<s0>524</s0>
</fC02>
<fC03 i1="01" i2="L" l="FRE">
<s0>Linguistique appliquée</s0>
<s2>NI</s2>
<s5>01</s5>
</fC03>
<fC03 i1="01" i2="L" l="ENG">
<s0>Applied linguistics</s0>
<s2>NI</s2>
<s5>01</s5>
</fC03>
<fC03 i1="02" i2="L" l="FRE">
<s0>Linguistique informatique</s0>
<s2>NI</s2>
<s5>02</s5>
</fC03>
<fC03 i1="02" i2="L" l="ENG">
<s0>Computational linguistics</s0>
<s2>NI</s2>
<s5>02</s5>
</fC03>
<fC03 i1="03" i2="L" l="FRE">
<s0>Dictionnaire bilingue</s0>
<s2>NI</s2>
<s5>03</s5>
</fC03>
<fC03 i1="03" i2="L" l="ENG">
<s0>Bilingual dictionary</s0>
<s2>NI</s2>
<s5>03</s5>
</fC03>
<fC03 i1="04" i2="L" l="FRE">
<s0>Recherche d'information</s0>
<s2>NI</s2>
<s5>04</s5>
</fC03>
<fC03 i1="04" i2="L" l="ENG">
<s0>Information retrieval</s0>
<s2>NI</s2>
<s5>04</s5>
</fC03>
<fC03 i1="05" i2="L" l="FRE">
<s0>Dictionnaire électronique</s0>
<s2>NI</s2>
<s5>05</s5>
</fC03>
<fC03 i1="05" i2="L" l="ENG">
<s0>Electronic dictionary</s0>
<s2>NI</s2>
<s5>05</s5>
</fC03>
<fC03 i1="06" i2="L" l="FRE">
<s0>Etiquetage automatique</s0>
<s2>NI</s2>
<s5>06</s5>
</fC03>
<fC03 i1="06" i2="L" l="ENG">
<s0>Tagging</s0>
<s2>NI</s2>
<s5>06</s5>
</fC03>
<fC03 i1="07" i2="L" l="FRE">
<s0>Segmentation</s0>
<s2>NI</s2>
<s5>07</s5>
</fC03>
<fC03 i1="07" i2="L" l="ENG">
<s0>Segmentation</s0>
<s2>NI</s2>
<s5>07</s5>
</fC03>
<fC03 i1="08" i2="L" l="FRE">
<s0>Génération automatique</s0>
<s2>NI</s2>
<s5>08</s5>
</fC03>
<fC03 i1="08" i2="L" l="ENG">
<s0>Automatic generation</s0>
<s2>NI</s2>
<s5>08</s5>
</fC03>
<fC03 i1="09" i2="L" l="FRE">
<s0>Méthode</s0>
<s2>NI</s2>
<s5>09</s5>
</fC03>
<fC03 i1="09" i2="L" l="ENG">
<s0>Method</s0>
<s2>NI</s2>
<s5>09</s5>
</fC03>
<fC03 i1="10" i2="L" l="FRE">
<s0>Acquisition de connaissances</s0>
<s2>NI</s2>
<s5>10</s5>
</fC03>
<fC03 i1="10" i2="L" l="ENG">
<s0>Knowledge acquisition</s0>
<s2>NI</s2>
<s5>10</s5>
</fC03>
<fC03 i1="11" i2="L" l="FRE">
<s0>Etude expérimentale</s0>
<s2>NI</s2>
<s5>11</s5>
</fC03>
<fC03 i1="11" i2="L" l="ENG">
<s0>Experimental study</s0>
<s2>NI</s2>
<s5>11</s5>
</fC03>
<fC03 i1="12" i2="L" l="FRE">
<s0>Traitement automatique des langues naturelles</s0>
<s2>NI</s2>
<s5>12</s5>
</fC03>
<fC03 i1="12" i2="L" l="ENG">
<s0>Natural language processing</s0>
<s2>NI</s2>
<s5>12</s5>
</fC03>
<fC03 i1="13" i2="L" l="FRE">
<s0>Ressources linguistiques</s0>
<s2>NI</s2>
<s4>CD</s4>
<s5>96</s5>
</fC03>
<fC03 i1="13" i2="L" l="ENG">
<s0>Linguistic resources</s0>
<s2>NI</s2>
<s4>CD</s4>
<s5>96</s5>
</fC03>
<fN21>
<s1>159</s1>
</fN21>
<fN82>
<s1>PSI</s1>
</fN82>
</pA>
</standard>
<server>
<NO>FRANCIS 524-04-11442 INIST</NO>
<FT>Les dictionnaires électroniques</FT>
<ET>Parsing and tagging of bilingual dictionaries</ET>
<ET>(Electronic dictionaries)</ET>
<AU>HUANFENG MA; KARAGOL-AYAN (Burcu); DOERMANN (David); OARD (Doug); JIANQIANG WANG; ZOCK (Michael); CARROLL (John)</AU>
<AF>Institute for Advanced Computer Studies (UMIACS), University of Maryland/College Park, MD 20742/Etats-Unis (1 aut., 2 aut., 3 aut., 4 aut., 5 aut.); College of Information Studies University of Maryland/College Park, MD 20742/Etats-Unis (4 aut., 5 aut.); LIMSI-CNRS/France (1 aut.); University of Sussex, Brighton/Royaume-Uni (2 aut.)</AF>
<DT>Publication en série; Niveau analytique</DT>
<SO>TAL. Traitement automatique des langues; ISSN 1248-9433; France; Da. 2003; Vol. 44; No. 2; Pp. 125-149; Abs. français; Bibl. 2 p.3/4</SO>
<LA>Anglais</LA>
<FA>Les dictionnaires bilingues ont un grand potentiel comme source de ressources lexicologiques pour l'apprentissage dans les systèmes automatisés tels que OCR, traduction automatique, et recherche documentaire multilangue. Dans cet article, nous décrivons un système pour extraire des lexiques de termes à partir de dictionnaires bilingues imprimés. Notre travail se présente en trois phases - Segmentation de dictionnaire, étiquetage des entrées, et génération. Dans la segmentation, les pages sont divisées en entrées logiques basées sur des caractéristiques structurelles apprises à partir d'exemples choisis. Les entrées extraites liées aux étiquettes fonctionnelles sont passées à un module d'étiquetage qui associe des étiquettes linguistiques à chaque mot ou expression dans l'entrée. Le résultat produit par le système est une structure qui représente les entrées du dictionnaire. Nous avons employé cette approche pour analyser une variété de dictionnaires avec des alphabets latins ou non-latins, et nous démontrons les résultats de la génération de lexiques de termes pour la recherche d'information à partir d'une collection d'articles de journaux français et de requêtes en anglais.</FA>
<CC>52478; 524</CC>
<FD>Linguistique appliquée; Linguistique informatique; Dictionnaire bilingue; Recherche d'information; Dictionnaire électronique; Etiquetage automatique; Segmentation; Génération automatique; Méthode; Acquisition de connaissances; Etude expérimentale; Traitement automatique des langues naturelles; Ressources linguistiques</FD>
<ED>Applied linguistics; Computational linguistics; Bilingual dictionary; Information retrieval; Electronic dictionary; Tagging; Segmentation; Automatic generation; Method; Knowledge acquisition; Experimental study; Natural language processing; Linguistic resources</ED>
<LO>INIST-1351.354000115980680060</LO>
<ID>524</ID>
</server>
</inist>
</record>

Pour manipuler ce document sous Unix (Dilib)

EXPLOR_STEP=$WICRI_ROOT/Ticri/CIDE/explor/OcrV1/Data/PascalFrancis/Corpus
HfdSelect -h $EXPLOR_STEP/biblio.hfd -nk 000579 | SxmlIndent | more

Ou

HfdSelect -h $EXPLOR_AREA/Data/PascalFrancis/Corpus/biblio.hfd -nk 000579 | SxmlIndent | more

Pour mettre un lien sur cette page dans le réseau Wicri

{{Explor lien
   |wiki=    Ticri/CIDE
   |area=    OcrV1
   |flux=    PascalFrancis
   |étape=   Corpus
   |type=    RBID
   |clé=     Francis:524-04-11442
   |texte=   Parsing and tagging of bilingual dictionaries
}}

Wicri

This area was generated with Dilib version V0.6.32.
Data generation: Sat Nov 11 16:53:45 2017. Site generation: Mon Mar 11 23:15:16 2024