Une méthode d'étiquetage morpho-syntaxique pour la reconnaissance de tables de matières
Identifieur interne : 000720 ( PascalFrancis/Corpus ); précédent : 000719; suivant : 000721Une méthode d'étiquetage morpho-syntaxique pour la reconnaissance de tables de matières
Auteurs : A. Belaïd ; Y. ToussaintSource :
Descripteurs français
- Pascal (Inist)
English descriptors
- KwdEn :
Abstract
Nous décrivons dans cet article une méthode d'étiquetage linguistique en vue de la reconnaissance de la structure des articles des tables de matières (TdM). Le résultat sert à fournir le serveur de tables de matières de Calliope, un outil de consultation automatique de la documentation à distance, réalisé en collaboration entre Xerox et l'INRIA. La méthode d'étiquetage opère sur un texte ASCII reconnu par OCR (Optical Character Recognition), comprenant des erreurs éventuelles de reconnaissance de caractères et de mise en page. Elle est initialisée par un étiquetage primaire des éléments textuels par référence à des dictionnaires. Les étiquettes significatives sont ensuite regroupées en syntagmes conduisant par réduction à des formes canoniques identifiantes du titre et des auteurs. Cet étiquetage permet de formuler des hypothèses d'extension syntaxique sur les termes inconnus et de les intégrer dans les syntagmes voisins. Pour les articles erronés, nous appliquons le modèle de structuration généré automatiquement à partir des articles bien identifiés. Le prototype étudié opère avec une grande satisfaction sur des TdMs de différentes mises en page et qualités de reconnaissance de caractères. Sans intervention manuelle, nous obtenons un taux de segmentation d'articles de l'ordre de 95.41% sur 38 revues scientifiques comprenant 2703 articles et un taux de 81.74% d'extraction de champs corrects.
Notice en format standard (ISO 2709)
Pour connaître la documentation sur le format Inist Standard.
pA |
|
---|
Format Inist (serveur)
NO : | PASCAL 01-0235226 INIST |
---|---|
FT : | Une méthode d'étiquetage morpho-syntaxique pour la reconnaissance de tables de matières |
ET : | (A morpho-syntactic tagging method for tables of contents recognition) |
AU : | BELAÏD (A.); TOUSSAINT (Y.); EMPTOZ (Hubert); VINCENT (Nicole) |
AF : | LORIA-CNRS, Campus Scientifique, B.P. 239/54506 Vandoeuvre-Lès-Nancy/France (1 aut., 2 aut.) |
DT : | Congrès; Niveau analytique |
SO : | Colloque international francophone sur l'écrit et le document/2000/Lyon FRA; Suisse; Lausanne: Presses polytechniques et universitaires romandes; Da. 2000; Pp. 51-60; ISBN 2-88074-460-1 |
LA : | Français |
FA : | Nous décrivons dans cet article une méthode d'étiquetage linguistique en vue de la reconnaissance de la structure des articles des tables de matières (TdM). Le résultat sert à fournir le serveur de tables de matières de Calliope, un outil de consultation automatique de la documentation à distance, réalisé en collaboration entre Xerox et l'INRIA. La méthode d'étiquetage opère sur un texte ASCII reconnu par OCR (Optical Character Recognition), comprenant des erreurs éventuelles de reconnaissance de caractères et de mise en page. Elle est initialisée par un étiquetage primaire des éléments textuels par référence à des dictionnaires. Les étiquettes significatives sont ensuite regroupées en syntagmes conduisant par réduction à des formes canoniques identifiantes du titre et des auteurs. Cet étiquetage permet de formuler des hypothèses d'extension syntaxique sur les termes inconnus et de les intégrer dans les syntagmes voisins. Pour les articles erronés, nous appliquons le modèle de structuration généré automatiquement à partir des articles bien identifiés. Le prototype étudié opère avec une grande satisfaction sur des TdMs de différentes mises en page et qualités de reconnaissance de caractères. Sans intervention manuelle, nous obtenons un taux de segmentation d'articles de l'ordre de 95.41% sur 38 revues scientifiques comprenant 2703 articles et un taux de 81.74% d'extraction de champs corrects. |
CC : | 001A01F03; 205 |
FD : | Reconnaissance optique caractère; Etiquetage; Méthode; Analyse morphologique; Analyse syntaxique; Sommaire; Article; Segmentation; Extraction information; Structure document; Calliope; Document structuré |
ED : | Optical character recognition; Labelling; Method; Morphological analysis; Syntactic analysis; Table of contents; Article; Segmentation; Information extraction; Document structure; Structured document |
SD : | Reconocimento óptico de caracteres; Etiquetaje; Método; Análisis morfológico; Análisis sintáxico; Sumario; Artículo; Segmentación; Extractión información; Estructura de documento |
LO : | INIST-Y 32899.354000092001980060 |
ID : | 01-0235226 |
Links to Exploration step
Pascal:01-0235226Le document en format XML
<record><TEI><teiHeader><fileDesc><titleStmt><title xml:lang="fr" level="a">Une méthode d'étiquetage morpho-syntaxique pour la reconnaissance de tables de matières</title>
<author><name sortKey="Belaid, A" sort="Belaid, A" uniqKey="Belaid A" first="A." last="Belaïd">A. Belaïd</name>
<affiliation><inist:fA14 i1="01"><s1>LORIA-CNRS, Campus Scientifique, B.P. 239</s1>
<s2>54506 Vandoeuvre-Lès-Nancy</s2>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
</inist:fA14>
</affiliation>
</author>
<author><name sortKey="Toussaint, Y" sort="Toussaint, Y" uniqKey="Toussaint Y" first="Y." last="Toussaint">Y. Toussaint</name>
<affiliation><inist:fA14 i1="01"><s1>LORIA-CNRS, Campus Scientifique, B.P. 239</s1>
<s2>54506 Vandoeuvre-Lès-Nancy</s2>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
</inist:fA14>
</affiliation>
</author>
</titleStmt>
<publicationStmt><idno type="wicri:source">INIST</idno>
<idno type="inist">01-0235226</idno>
<date when="2000">2000</date>
<idno type="stanalyst">PASCAL 01-0235226 INIST</idno>
<idno type="RBID">Pascal:01-0235226</idno>
<idno type="wicri:Area/PascalFrancis/Corpus">000720</idno>
</publicationStmt>
<sourceDesc><biblStruct><analytic><title xml:lang="fr" level="a">Une méthode d'étiquetage morpho-syntaxique pour la reconnaissance de tables de matières</title>
<author><name sortKey="Belaid, A" sort="Belaid, A" uniqKey="Belaid A" first="A." last="Belaïd">A. Belaïd</name>
<affiliation><inist:fA14 i1="01"><s1>LORIA-CNRS, Campus Scientifique, B.P. 239</s1>
<s2>54506 Vandoeuvre-Lès-Nancy</s2>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
</inist:fA14>
</affiliation>
</author>
<author><name sortKey="Toussaint, Y" sort="Toussaint, Y" uniqKey="Toussaint Y" first="Y." last="Toussaint">Y. Toussaint</name>
<affiliation><inist:fA14 i1="01"><s1>LORIA-CNRS, Campus Scientifique, B.P. 239</s1>
<s2>54506 Vandoeuvre-Lès-Nancy</s2>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
</inist:fA14>
</affiliation>
</author>
</analytic>
</biblStruct>
</sourceDesc>
</fileDesc>
<profileDesc><textClass><keywords scheme="KwdEn" xml:lang="en"><term>Article</term>
<term>Document structure</term>
<term>Information extraction</term>
<term>Labelling</term>
<term>Method</term>
<term>Morphological analysis</term>
<term>Optical character recognition</term>
<term>Segmentation</term>
<term>Structured document</term>
<term>Syntactic analysis</term>
<term>Table of contents</term>
</keywords>
<keywords scheme="Pascal" xml:lang="fr"><term>Reconnaissance optique caractère</term>
<term>Etiquetage</term>
<term>Méthode</term>
<term>Analyse morphologique</term>
<term>Analyse syntaxique</term>
<term>Sommaire</term>
<term>Article</term>
<term>Segmentation</term>
<term>Extraction information</term>
<term>Structure document</term>
<term>Calliope</term>
<term>Document structuré</term>
</keywords>
</textClass>
</profileDesc>
</teiHeader>
<front><div type="abstract" xml:lang="fr">Nous décrivons dans cet article une méthode d'étiquetage linguistique en vue de la reconnaissance de la structure des articles des tables de matières (TdM). Le résultat sert à fournir le serveur de tables de matières de Calliope, un outil de consultation automatique de la documentation à distance, réalisé en collaboration entre Xerox et l'INRIA. La méthode d'étiquetage opère sur un texte ASCII reconnu par OCR (Optical Character Recognition), comprenant des erreurs éventuelles de reconnaissance de caractères et de mise en page. Elle est initialisée par un étiquetage primaire des éléments textuels par référence à des dictionnaires. Les étiquettes significatives sont ensuite regroupées en syntagmes conduisant par réduction à des formes canoniques identifiantes du titre et des auteurs. Cet étiquetage permet de formuler des hypothèses d'extension syntaxique sur les termes inconnus et de les intégrer dans les syntagmes voisins. Pour les articles erronés, nous appliquons le modèle de structuration généré automatiquement à partir des articles bien identifiés. Le prototype étudié opère avec une grande satisfaction sur des TdMs de différentes mises en page et qualités de reconnaissance de caractères. Sans intervention manuelle, nous obtenons un taux de segmentation d'articles de l'ordre de 95.41% sur 38 revues scientifiques comprenant 2703 articles et un taux de 81.74% d'extraction de champs corrects.</div>
</front>
</TEI>
<inist><standard h6="B"><pA><fA08 i1="01" i2="1" l="FRE"><s1>Une méthode d'étiquetage morpho-syntaxique pour la reconnaissance de tables de matières</s1>
</fA08>
<fA09 i1="01" i2="1" l="FRE"><s1>CIFED '2000 : colloque international francophone sur l'écrit et le document : Lyon, 2000</s1>
</fA09>
<fA11 i1="01" i2="1"><s1>BELAÏD (A.)</s1>
</fA11>
<fA11 i1="02" i2="1"><s1>TOUSSAINT (Y.)</s1>
</fA11>
<fA12 i1="01" i2="1"><s1>EMPTOZ (Hubert)</s1>
<s9>ed.</s9>
</fA12>
<fA12 i1="02" i2="1"><s1>VINCENT (Nicole)</s1>
<s9>ed.</s9>
</fA12>
<fA14 i1="01"><s1>LORIA-CNRS, Campus Scientifique, B.P. 239</s1>
<s2>54506 Vandoeuvre-Lès-Nancy</s2>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
</fA14>
<fA20><s1>51-60</s1>
</fA20>
<fA21><s1>2000</s1>
</fA21>
<fA23 i1="01"><s0>FRE</s0>
</fA23>
<fA25 i1="01"><s1>Presses polytechniques et universitaires romandes</s1>
<s2>Lausanne</s2>
</fA25>
<fA26 i1="01"><s0>2-88074-460-1</s0>
</fA26>
<fA30 i1="01" i2="1" l="FRE"><s1>Colloque international francophone sur l'écrit et le document</s1>
<s3>Lyon FRA</s3>
<s4>2000</s4>
</fA30>
<fA43 i1="01"><s1>INIST</s1>
<s2>Y 32899</s2>
<s5>354000092001980060</s5>
</fA43>
<fA44><s0>0000</s0>
<s1>© 2001 INIST-CNRS. All rights reserved.</s1>
</fA44>
<fA45><s0>15 ref.</s0>
</fA45>
<fA47 i1="01" i2="1"><s0>01-0235226</s0>
</fA47>
<fA60><s1>C</s1>
</fA60>
<fA61><s0>A</s0>
</fA61>
<fA66 i1="01"><s0>CHE</s0>
</fA66>
<fA68 i1="01" i2="1" l="ENG"><s1>A morpho-syntactic tagging method for tables of contents recognition</s1>
</fA68>
<fC01 i1="01" l="FRE"><s0>Nous décrivons dans cet article une méthode d'étiquetage linguistique en vue de la reconnaissance de la structure des articles des tables de matières (TdM). Le résultat sert à fournir le serveur de tables de matières de Calliope, un outil de consultation automatique de la documentation à distance, réalisé en collaboration entre Xerox et l'INRIA. La méthode d'étiquetage opère sur un texte ASCII reconnu par OCR (Optical Character Recognition), comprenant des erreurs éventuelles de reconnaissance de caractères et de mise en page. Elle est initialisée par un étiquetage primaire des éléments textuels par référence à des dictionnaires. Les étiquettes significatives sont ensuite regroupées en syntagmes conduisant par réduction à des formes canoniques identifiantes du titre et des auteurs. Cet étiquetage permet de formuler des hypothèses d'extension syntaxique sur les termes inconnus et de les intégrer dans les syntagmes voisins. Pour les articles erronés, nous appliquons le modèle de structuration généré automatiquement à partir des articles bien identifiés. Le prototype étudié opère avec une grande satisfaction sur des TdMs de différentes mises en page et qualités de reconnaissance de caractères. Sans intervention manuelle, nous obtenons un taux de segmentation d'articles de l'ordre de 95.41% sur 38 revues scientifiques comprenant 2703 articles et un taux de 81.74% d'extraction de champs corrects.</s0>
</fC01>
<fC02 i1="01" i2="X"><s0>001A01F03</s0>
</fC02>
<fC02 i1="02" i2="X"><s0>205</s0>
</fC02>
<fC03 i1="01" i2="X" l="FRE"><s0>Reconnaissance optique caractère</s0>
<s5>01</s5>
</fC03>
<fC03 i1="01" i2="X" l="ENG"><s0>Optical character recognition</s0>
<s5>01</s5>
</fC03>
<fC03 i1="01" i2="X" l="SPA"><s0>Reconocimento óptico de caracteres</s0>
<s5>01</s5>
</fC03>
<fC03 i1="02" i2="X" l="FRE"><s0>Etiquetage</s0>
<s5>02</s5>
</fC03>
<fC03 i1="02" i2="X" l="ENG"><s0>Labelling</s0>
<s5>02</s5>
</fC03>
<fC03 i1="02" i2="X" l="SPA"><s0>Etiquetaje</s0>
<s5>02</s5>
</fC03>
<fC03 i1="03" i2="X" l="FRE"><s0>Méthode</s0>
<s5>03</s5>
</fC03>
<fC03 i1="03" i2="X" l="ENG"><s0>Method</s0>
<s5>03</s5>
</fC03>
<fC03 i1="03" i2="X" l="SPA"><s0>Método</s0>
<s5>03</s5>
</fC03>
<fC03 i1="04" i2="X" l="FRE"><s0>Analyse morphologique</s0>
<s5>04</s5>
</fC03>
<fC03 i1="04" i2="X" l="ENG"><s0>Morphological analysis</s0>
<s5>04</s5>
</fC03>
<fC03 i1="04" i2="X" l="SPA"><s0>Análisis morfológico</s0>
<s5>04</s5>
</fC03>
<fC03 i1="05" i2="X" l="FRE"><s0>Analyse syntaxique</s0>
<s5>05</s5>
</fC03>
<fC03 i1="05" i2="X" l="ENG"><s0>Syntactic analysis</s0>
<s5>05</s5>
</fC03>
<fC03 i1="05" i2="X" l="SPA"><s0>Análisis sintáxico</s0>
<s5>05</s5>
</fC03>
<fC03 i1="06" i2="X" l="FRE"><s0>Sommaire</s0>
<s5>06</s5>
</fC03>
<fC03 i1="06" i2="X" l="ENG"><s0>Table of contents</s0>
<s5>06</s5>
</fC03>
<fC03 i1="06" i2="X" l="SPA"><s0>Sumario</s0>
<s5>06</s5>
</fC03>
<fC03 i1="07" i2="X" l="FRE"><s0>Article</s0>
<s5>07</s5>
</fC03>
<fC03 i1="07" i2="X" l="ENG"><s0>Article</s0>
<s5>07</s5>
</fC03>
<fC03 i1="07" i2="X" l="SPA"><s0>Artículo</s0>
<s5>07</s5>
</fC03>
<fC03 i1="08" i2="X" l="FRE"><s0>Segmentation</s0>
<s5>08</s5>
</fC03>
<fC03 i1="08" i2="X" l="ENG"><s0>Segmentation</s0>
<s5>08</s5>
</fC03>
<fC03 i1="08" i2="X" l="SPA"><s0>Segmentación</s0>
<s5>08</s5>
</fC03>
<fC03 i1="09" i2="X" l="FRE"><s0>Extraction information</s0>
<s5>09</s5>
</fC03>
<fC03 i1="09" i2="X" l="ENG"><s0>Information extraction</s0>
<s5>09</s5>
</fC03>
<fC03 i1="09" i2="X" l="SPA"><s0>Extractión información</s0>
<s5>09</s5>
</fC03>
<fC03 i1="10" i2="X" l="FRE"><s0>Structure document</s0>
<s5>10</s5>
</fC03>
<fC03 i1="10" i2="X" l="ENG"><s0>Document structure</s0>
<s5>10</s5>
</fC03>
<fC03 i1="10" i2="X" l="SPA"><s0>Estructura de documento</s0>
<s5>10</s5>
</fC03>
<fC03 i1="11" i2="X" l="FRE"><s0>Calliope</s0>
<s2>NI</s2>
<s4>INC</s4>
<s5>27</s5>
</fC03>
<fC03 i1="12" i2="X" l="FRE"><s0>Document structuré</s0>
<s2>NI</s2>
<s4>CD</s4>
<s5>96</s5>
</fC03>
<fC03 i1="12" i2="X" l="ENG"><s0>Structured document</s0>
<s2>NI</s2>
<s4>CD</s4>
<s5>96</s5>
</fC03>
<fN21><s1>162</s1>
</fN21>
</pA>
</standard>
<server><NO>PASCAL 01-0235226 INIST</NO>
<FT>Une méthode d'étiquetage morpho-syntaxique pour la reconnaissance de tables de matières</FT>
<ET>(A morpho-syntactic tagging method for tables of contents recognition)</ET>
<AU>BELAÏD (A.); TOUSSAINT (Y.); EMPTOZ (Hubert); VINCENT (Nicole)</AU>
<AF>LORIA-CNRS, Campus Scientifique, B.P. 239/54506 Vandoeuvre-Lès-Nancy/France (1 aut., 2 aut.)</AF>
<DT>Congrès; Niveau analytique</DT>
<SO>Colloque international francophone sur l'écrit et le document/2000/Lyon FRA; Suisse; Lausanne: Presses polytechniques et universitaires romandes; Da. 2000; Pp. 51-60; ISBN 2-88074-460-1</SO>
<LA>Français</LA>
<FA>Nous décrivons dans cet article une méthode d'étiquetage linguistique en vue de la reconnaissance de la structure des articles des tables de matières (TdM). Le résultat sert à fournir le serveur de tables de matières de Calliope, un outil de consultation automatique de la documentation à distance, réalisé en collaboration entre Xerox et l'INRIA. La méthode d'étiquetage opère sur un texte ASCII reconnu par OCR (Optical Character Recognition), comprenant des erreurs éventuelles de reconnaissance de caractères et de mise en page. Elle est initialisée par un étiquetage primaire des éléments textuels par référence à des dictionnaires. Les étiquettes significatives sont ensuite regroupées en syntagmes conduisant par réduction à des formes canoniques identifiantes du titre et des auteurs. Cet étiquetage permet de formuler des hypothèses d'extension syntaxique sur les termes inconnus et de les intégrer dans les syntagmes voisins. Pour les articles erronés, nous appliquons le modèle de structuration généré automatiquement à partir des articles bien identifiés. Le prototype étudié opère avec une grande satisfaction sur des TdMs de différentes mises en page et qualités de reconnaissance de caractères. Sans intervention manuelle, nous obtenons un taux de segmentation d'articles de l'ordre de 95.41% sur 38 revues scientifiques comprenant 2703 articles et un taux de 81.74% d'extraction de champs corrects.</FA>
<CC>001A01F03; 205</CC>
<FD>Reconnaissance optique caractère; Etiquetage; Méthode; Analyse morphologique; Analyse syntaxique; Sommaire; Article; Segmentation; Extraction information; Structure document; Calliope; Document structuré</FD>
<ED>Optical character recognition; Labelling; Method; Morphological analysis; Syntactic analysis; Table of contents; Article; Segmentation; Information extraction; Document structure; Structured document</ED>
<SD>Reconocimento óptico de caracteres; Etiquetaje; Método; Análisis morfológico; Análisis sintáxico; Sumario; Artículo; Segmentación; Extractión información; Estructura de documento</SD>
<LO>INIST-Y 32899.354000092001980060</LO>
<ID>01-0235226</ID>
</server>
</inist>
</record>
Pour manipuler ce document sous Unix (Dilib)
EXPLOR_STEP=$WICRI_ROOT/Ticri/CIDE/explor/OcrV1/Data/PascalFrancis/Corpus
HfdSelect -h $EXPLOR_STEP/biblio.hfd -nk 000720 | SxmlIndent | more
Ou
HfdSelect -h $EXPLOR_AREA/Data/PascalFrancis/Corpus/biblio.hfd -nk 000720 | SxmlIndent | more
Pour mettre un lien sur cette page dans le réseau Wicri
{{Explor lien |wiki= Ticri/CIDE |area= OcrV1 |flux= PascalFrancis |étape= Corpus |type= RBID |clé= Pascal:01-0235226 |texte= Une méthode d'étiquetage morpho-syntaxique pour la reconnaissance de tables de matières }}
This area was generated with Dilib version V0.6.32. |