Serveur d'exploration sur l'OCR

Attention, ce site est en cours de développement !
Attention, site généré par des moyens informatiques à partir de corpus bruts.
Les informations ne sont donc pas validées.

Une méthode d'étiquetage morpho-syntaxique pour la reconnaissance de tables de matières

Identifieur interne : 000720 ( PascalFrancis/Corpus ); précédent : 000719; suivant : 000721

Une méthode d'étiquetage morpho-syntaxique pour la reconnaissance de tables de matières

Auteurs : A. Belaïd ; Y. Toussaint

Source :

RBID : Pascal:01-0235226

Descripteurs français

English descriptors

Abstract

Nous décrivons dans cet article une méthode d'étiquetage linguistique en vue de la reconnaissance de la structure des articles des tables de matières (TdM). Le résultat sert à fournir le serveur de tables de matières de Calliope, un outil de consultation automatique de la documentation à distance, réalisé en collaboration entre Xerox et l'INRIA. La méthode d'étiquetage opère sur un texte ASCII reconnu par OCR (Optical Character Recognition), comprenant des erreurs éventuelles de reconnaissance de caractères et de mise en page. Elle est initialisée par un étiquetage primaire des éléments textuels par référence à des dictionnaires. Les étiquettes significatives sont ensuite regroupées en syntagmes conduisant par réduction à des formes canoniques identifiantes du titre et des auteurs. Cet étiquetage permet de formuler des hypothèses d'extension syntaxique sur les termes inconnus et de les intégrer dans les syntagmes voisins. Pour les articles erronés, nous appliquons le modèle de structuration généré automatiquement à partir des articles bien identifiés. Le prototype étudié opère avec une grande satisfaction sur des TdMs de différentes mises en page et qualités de reconnaissance de caractères. Sans intervention manuelle, nous obtenons un taux de segmentation d'articles de l'ordre de 95.41% sur 38 revues scientifiques comprenant 2703 articles et un taux de 81.74% d'extraction de champs corrects.

Notice en format standard (ISO 2709)

Pour connaître la documentation sur le format Inist Standard.

pA  
A08 01  1  FRE  @1 Une méthode d'étiquetage morpho-syntaxique pour la reconnaissance de tables de matières
A09 01  1  FRE  @1 CIFED '2000 : colloque international francophone sur l'écrit et le document : Lyon, 2000
A11 01  1    @1 BELAÏD (A.)
A11 02  1    @1 TOUSSAINT (Y.)
A12 01  1    @1 EMPTOZ (Hubert) @9 ed.
A12 02  1    @1 VINCENT (Nicole) @9 ed.
A14 01      @1 LORIA-CNRS, Campus Scientifique, B.P. 239 @2 54506 Vandoeuvre-Lès-Nancy @3 FRA @Z 1 aut. @Z 2 aut.
A20       @1 51-60
A21       @1 2000
A23 01      @0 FRE
A25 01      @1 Presses polytechniques et universitaires romandes @2 Lausanne
A26 01      @0 2-88074-460-1
A30 01  1  FRE  @1 Colloque international francophone sur l'écrit et le document @3 Lyon FRA @4 2000
A43 01      @1 INIST @2 Y 32899 @5 354000092001980060
A44       @0 0000 @1 © 2001 INIST-CNRS. All rights reserved.
A45       @0 15 ref.
A47 01  1    @0 01-0235226
A60       @1 C
A61       @0 A
A66 01      @0 CHE
A68 01  1  ENG  @1 A morpho-syntactic tagging method for tables of contents recognition
C01 01    FRE  @0 Nous décrivons dans cet article une méthode d'étiquetage linguistique en vue de la reconnaissance de la structure des articles des tables de matières (TdM). Le résultat sert à fournir le serveur de tables de matières de Calliope, un outil de consultation automatique de la documentation à distance, réalisé en collaboration entre Xerox et l'INRIA. La méthode d'étiquetage opère sur un texte ASCII reconnu par OCR (Optical Character Recognition), comprenant des erreurs éventuelles de reconnaissance de caractères et de mise en page. Elle est initialisée par un étiquetage primaire des éléments textuels par référence à des dictionnaires. Les étiquettes significatives sont ensuite regroupées en syntagmes conduisant par réduction à des formes canoniques identifiantes du titre et des auteurs. Cet étiquetage permet de formuler des hypothèses d'extension syntaxique sur les termes inconnus et de les intégrer dans les syntagmes voisins. Pour les articles erronés, nous appliquons le modèle de structuration généré automatiquement à partir des articles bien identifiés. Le prototype étudié opère avec une grande satisfaction sur des TdMs de différentes mises en page et qualités de reconnaissance de caractères. Sans intervention manuelle, nous obtenons un taux de segmentation d'articles de l'ordre de 95.41% sur 38 revues scientifiques comprenant 2703 articles et un taux de 81.74% d'extraction de champs corrects.
C02 01  X    @0 001A01F03
C02 02  X    @0 205
C03 01  X  FRE  @0 Reconnaissance optique caractère @5 01
C03 01  X  ENG  @0 Optical character recognition @5 01
C03 01  X  SPA  @0 Reconocimento óptico de caracteres @5 01
C03 02  X  FRE  @0 Etiquetage @5 02
C03 02  X  ENG  @0 Labelling @5 02
C03 02  X  SPA  @0 Etiquetaje @5 02
C03 03  X  FRE  @0 Méthode @5 03
C03 03  X  ENG  @0 Method @5 03
C03 03  X  SPA  @0 Método @5 03
C03 04  X  FRE  @0 Analyse morphologique @5 04
C03 04  X  ENG  @0 Morphological analysis @5 04
C03 04  X  SPA  @0 Análisis morfológico @5 04
C03 05  X  FRE  @0 Analyse syntaxique @5 05
C03 05  X  ENG  @0 Syntactic analysis @5 05
C03 05  X  SPA  @0 Análisis sintáxico @5 05
C03 06  X  FRE  @0 Sommaire @5 06
C03 06  X  ENG  @0 Table of contents @5 06
C03 06  X  SPA  @0 Sumario @5 06
C03 07  X  FRE  @0 Article @5 07
C03 07  X  ENG  @0 Article @5 07
C03 07  X  SPA  @0 Artículo @5 07
C03 08  X  FRE  @0 Segmentation @5 08
C03 08  X  ENG  @0 Segmentation @5 08
C03 08  X  SPA  @0 Segmentación @5 08
C03 09  X  FRE  @0 Extraction information @5 09
C03 09  X  ENG  @0 Information extraction @5 09
C03 09  X  SPA  @0 Extractión información @5 09
C03 10  X  FRE  @0 Structure document @5 10
C03 10  X  ENG  @0 Document structure @5 10
C03 10  X  SPA  @0 Estructura de documento @5 10
C03 11  X  FRE  @0 Calliope @2 NI @4 INC @5 27
C03 12  X  FRE  @0 Document structuré @2 NI @4 CD @5 96
C03 12  X  ENG  @0 Structured document @2 NI @4 CD @5 96
N21       @1 162

Format Inist (serveur)

NO : PASCAL 01-0235226 INIST
FT : Une méthode d'étiquetage morpho-syntaxique pour la reconnaissance de tables de matières
ET : (A morpho-syntactic tagging method for tables of contents recognition)
AU : BELAÏD (A.); TOUSSAINT (Y.); EMPTOZ (Hubert); VINCENT (Nicole)
AF : LORIA-CNRS, Campus Scientifique, B.P. 239/54506 Vandoeuvre-Lès-Nancy/France (1 aut., 2 aut.)
DT : Congrès; Niveau analytique
SO : Colloque international francophone sur l'écrit et le document/2000/Lyon FRA; Suisse; Lausanne: Presses polytechniques et universitaires romandes; Da. 2000; Pp. 51-60; ISBN 2-88074-460-1
LA : Français
FA : Nous décrivons dans cet article une méthode d'étiquetage linguistique en vue de la reconnaissance de la structure des articles des tables de matières (TdM). Le résultat sert à fournir le serveur de tables de matières de Calliope, un outil de consultation automatique de la documentation à distance, réalisé en collaboration entre Xerox et l'INRIA. La méthode d'étiquetage opère sur un texte ASCII reconnu par OCR (Optical Character Recognition), comprenant des erreurs éventuelles de reconnaissance de caractères et de mise en page. Elle est initialisée par un étiquetage primaire des éléments textuels par référence à des dictionnaires. Les étiquettes significatives sont ensuite regroupées en syntagmes conduisant par réduction à des formes canoniques identifiantes du titre et des auteurs. Cet étiquetage permet de formuler des hypothèses d'extension syntaxique sur les termes inconnus et de les intégrer dans les syntagmes voisins. Pour les articles erronés, nous appliquons le modèle de structuration généré automatiquement à partir des articles bien identifiés. Le prototype étudié opère avec une grande satisfaction sur des TdMs de différentes mises en page et qualités de reconnaissance de caractères. Sans intervention manuelle, nous obtenons un taux de segmentation d'articles de l'ordre de 95.41% sur 38 revues scientifiques comprenant 2703 articles et un taux de 81.74% d'extraction de champs corrects.
CC : 001A01F03; 205
FD : Reconnaissance optique caractère; Etiquetage; Méthode; Analyse morphologique; Analyse syntaxique; Sommaire; Article; Segmentation; Extraction information; Structure document; Calliope; Document structuré
ED : Optical character recognition; Labelling; Method; Morphological analysis; Syntactic analysis; Table of contents; Article; Segmentation; Information extraction; Document structure; Structured document
SD : Reconocimento óptico de caracteres; Etiquetaje; Método; Análisis morfológico; Análisis sintáxico; Sumario; Artículo; Segmentación; Extractión información; Estructura de documento
LO : INIST-Y 32899.354000092001980060
ID : 01-0235226

Links to Exploration step

Pascal:01-0235226

Le document en format XML

<record>
<TEI>
<teiHeader>
<fileDesc>
<titleStmt>
<title xml:lang="fr" level="a">Une méthode d'étiquetage morpho-syntaxique pour la reconnaissance de tables de matières</title>
<author>
<name sortKey="Belaid, A" sort="Belaid, A" uniqKey="Belaid A" first="A." last="Belaïd">A. Belaïd</name>
<affiliation>
<inist:fA14 i1="01">
<s1>LORIA-CNRS, Campus Scientifique, B.P. 239</s1>
<s2>54506 Vandoeuvre-Lès-Nancy</s2>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
</inist:fA14>
</affiliation>
</author>
<author>
<name sortKey="Toussaint, Y" sort="Toussaint, Y" uniqKey="Toussaint Y" first="Y." last="Toussaint">Y. Toussaint</name>
<affiliation>
<inist:fA14 i1="01">
<s1>LORIA-CNRS, Campus Scientifique, B.P. 239</s1>
<s2>54506 Vandoeuvre-Lès-Nancy</s2>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
</inist:fA14>
</affiliation>
</author>
</titleStmt>
<publicationStmt>
<idno type="wicri:source">INIST</idno>
<idno type="inist">01-0235226</idno>
<date when="2000">2000</date>
<idno type="stanalyst">PASCAL 01-0235226 INIST</idno>
<idno type="RBID">Pascal:01-0235226</idno>
<idno type="wicri:Area/PascalFrancis/Corpus">000720</idno>
</publicationStmt>
<sourceDesc>
<biblStruct>
<analytic>
<title xml:lang="fr" level="a">Une méthode d'étiquetage morpho-syntaxique pour la reconnaissance de tables de matières</title>
<author>
<name sortKey="Belaid, A" sort="Belaid, A" uniqKey="Belaid A" first="A." last="Belaïd">A. Belaïd</name>
<affiliation>
<inist:fA14 i1="01">
<s1>LORIA-CNRS, Campus Scientifique, B.P. 239</s1>
<s2>54506 Vandoeuvre-Lès-Nancy</s2>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
</inist:fA14>
</affiliation>
</author>
<author>
<name sortKey="Toussaint, Y" sort="Toussaint, Y" uniqKey="Toussaint Y" first="Y." last="Toussaint">Y. Toussaint</name>
<affiliation>
<inist:fA14 i1="01">
<s1>LORIA-CNRS, Campus Scientifique, B.P. 239</s1>
<s2>54506 Vandoeuvre-Lès-Nancy</s2>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
</inist:fA14>
</affiliation>
</author>
</analytic>
</biblStruct>
</sourceDesc>
</fileDesc>
<profileDesc>
<textClass>
<keywords scheme="KwdEn" xml:lang="en">
<term>Article</term>
<term>Document structure</term>
<term>Information extraction</term>
<term>Labelling</term>
<term>Method</term>
<term>Morphological analysis</term>
<term>Optical character recognition</term>
<term>Segmentation</term>
<term>Structured document</term>
<term>Syntactic analysis</term>
<term>Table of contents</term>
</keywords>
<keywords scheme="Pascal" xml:lang="fr">
<term>Reconnaissance optique caractère</term>
<term>Etiquetage</term>
<term>Méthode</term>
<term>Analyse morphologique</term>
<term>Analyse syntaxique</term>
<term>Sommaire</term>
<term>Article</term>
<term>Segmentation</term>
<term>Extraction information</term>
<term>Structure document</term>
<term>Calliope</term>
<term>Document structuré</term>
</keywords>
</textClass>
</profileDesc>
</teiHeader>
<front>
<div type="abstract" xml:lang="fr">Nous décrivons dans cet article une méthode d'étiquetage linguistique en vue de la reconnaissance de la structure des articles des tables de matières (TdM). Le résultat sert à fournir le serveur de tables de matières de Calliope, un outil de consultation automatique de la documentation à distance, réalisé en collaboration entre Xerox et l'INRIA. La méthode d'étiquetage opère sur un texte ASCII reconnu par OCR (Optical Character Recognition), comprenant des erreurs éventuelles de reconnaissance de caractères et de mise en page. Elle est initialisée par un étiquetage primaire des éléments textuels par référence à des dictionnaires. Les étiquettes significatives sont ensuite regroupées en syntagmes conduisant par réduction à des formes canoniques identifiantes du titre et des auteurs. Cet étiquetage permet de formuler des hypothèses d'extension syntaxique sur les termes inconnus et de les intégrer dans les syntagmes voisins. Pour les articles erronés, nous appliquons le modèle de structuration généré automatiquement à partir des articles bien identifiés. Le prototype étudié opère avec une grande satisfaction sur des TdMs de différentes mises en page et qualités de reconnaissance de caractères. Sans intervention manuelle, nous obtenons un taux de segmentation d'articles de l'ordre de 95.41% sur 38 revues scientifiques comprenant 2703 articles et un taux de 81.74% d'extraction de champs corrects.</div>
</front>
</TEI>
<inist>
<standard h6="B">
<pA>
<fA08 i1="01" i2="1" l="FRE">
<s1>Une méthode d'étiquetage morpho-syntaxique pour la reconnaissance de tables de matières</s1>
</fA08>
<fA09 i1="01" i2="1" l="FRE">
<s1>CIFED '2000 : colloque international francophone sur l'écrit et le document : Lyon, 2000</s1>
</fA09>
<fA11 i1="01" i2="1">
<s1>BELAÏD (A.)</s1>
</fA11>
<fA11 i1="02" i2="1">
<s1>TOUSSAINT (Y.)</s1>
</fA11>
<fA12 i1="01" i2="1">
<s1>EMPTOZ (Hubert)</s1>
<s9>ed.</s9>
</fA12>
<fA12 i1="02" i2="1">
<s1>VINCENT (Nicole)</s1>
<s9>ed.</s9>
</fA12>
<fA14 i1="01">
<s1>LORIA-CNRS, Campus Scientifique, B.P. 239</s1>
<s2>54506 Vandoeuvre-Lès-Nancy</s2>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
</fA14>
<fA20>
<s1>51-60</s1>
</fA20>
<fA21>
<s1>2000</s1>
</fA21>
<fA23 i1="01">
<s0>FRE</s0>
</fA23>
<fA25 i1="01">
<s1>Presses polytechniques et universitaires romandes</s1>
<s2>Lausanne</s2>
</fA25>
<fA26 i1="01">
<s0>2-88074-460-1</s0>
</fA26>
<fA30 i1="01" i2="1" l="FRE">
<s1>Colloque international francophone sur l'écrit et le document</s1>
<s3>Lyon FRA</s3>
<s4>2000</s4>
</fA30>
<fA43 i1="01">
<s1>INIST</s1>
<s2>Y 32899</s2>
<s5>354000092001980060</s5>
</fA43>
<fA44>
<s0>0000</s0>
<s1>© 2001 INIST-CNRS. All rights reserved.</s1>
</fA44>
<fA45>
<s0>15 ref.</s0>
</fA45>
<fA47 i1="01" i2="1">
<s0>01-0235226</s0>
</fA47>
<fA60>
<s1>C</s1>
</fA60>
<fA61>
<s0>A</s0>
</fA61>
<fA66 i1="01">
<s0>CHE</s0>
</fA66>
<fA68 i1="01" i2="1" l="ENG">
<s1>A morpho-syntactic tagging method for tables of contents recognition</s1>
</fA68>
<fC01 i1="01" l="FRE">
<s0>Nous décrivons dans cet article une méthode d'étiquetage linguistique en vue de la reconnaissance de la structure des articles des tables de matières (TdM). Le résultat sert à fournir le serveur de tables de matières de Calliope, un outil de consultation automatique de la documentation à distance, réalisé en collaboration entre Xerox et l'INRIA. La méthode d'étiquetage opère sur un texte ASCII reconnu par OCR (Optical Character Recognition), comprenant des erreurs éventuelles de reconnaissance de caractères et de mise en page. Elle est initialisée par un étiquetage primaire des éléments textuels par référence à des dictionnaires. Les étiquettes significatives sont ensuite regroupées en syntagmes conduisant par réduction à des formes canoniques identifiantes du titre et des auteurs. Cet étiquetage permet de formuler des hypothèses d'extension syntaxique sur les termes inconnus et de les intégrer dans les syntagmes voisins. Pour les articles erronés, nous appliquons le modèle de structuration généré automatiquement à partir des articles bien identifiés. Le prototype étudié opère avec une grande satisfaction sur des TdMs de différentes mises en page et qualités de reconnaissance de caractères. Sans intervention manuelle, nous obtenons un taux de segmentation d'articles de l'ordre de 95.41% sur 38 revues scientifiques comprenant 2703 articles et un taux de 81.74% d'extraction de champs corrects.</s0>
</fC01>
<fC02 i1="01" i2="X">
<s0>001A01F03</s0>
</fC02>
<fC02 i1="02" i2="X">
<s0>205</s0>
</fC02>
<fC03 i1="01" i2="X" l="FRE">
<s0>Reconnaissance optique caractère</s0>
<s5>01</s5>
</fC03>
<fC03 i1="01" i2="X" l="ENG">
<s0>Optical character recognition</s0>
<s5>01</s5>
</fC03>
<fC03 i1="01" i2="X" l="SPA">
<s0>Reconocimento óptico de caracteres</s0>
<s5>01</s5>
</fC03>
<fC03 i1="02" i2="X" l="FRE">
<s0>Etiquetage</s0>
<s5>02</s5>
</fC03>
<fC03 i1="02" i2="X" l="ENG">
<s0>Labelling</s0>
<s5>02</s5>
</fC03>
<fC03 i1="02" i2="X" l="SPA">
<s0>Etiquetaje</s0>
<s5>02</s5>
</fC03>
<fC03 i1="03" i2="X" l="FRE">
<s0>Méthode</s0>
<s5>03</s5>
</fC03>
<fC03 i1="03" i2="X" l="ENG">
<s0>Method</s0>
<s5>03</s5>
</fC03>
<fC03 i1="03" i2="X" l="SPA">
<s0>Método</s0>
<s5>03</s5>
</fC03>
<fC03 i1="04" i2="X" l="FRE">
<s0>Analyse morphologique</s0>
<s5>04</s5>
</fC03>
<fC03 i1="04" i2="X" l="ENG">
<s0>Morphological analysis</s0>
<s5>04</s5>
</fC03>
<fC03 i1="04" i2="X" l="SPA">
<s0>Análisis morfológico</s0>
<s5>04</s5>
</fC03>
<fC03 i1="05" i2="X" l="FRE">
<s0>Analyse syntaxique</s0>
<s5>05</s5>
</fC03>
<fC03 i1="05" i2="X" l="ENG">
<s0>Syntactic analysis</s0>
<s5>05</s5>
</fC03>
<fC03 i1="05" i2="X" l="SPA">
<s0>Análisis sintáxico</s0>
<s5>05</s5>
</fC03>
<fC03 i1="06" i2="X" l="FRE">
<s0>Sommaire</s0>
<s5>06</s5>
</fC03>
<fC03 i1="06" i2="X" l="ENG">
<s0>Table of contents</s0>
<s5>06</s5>
</fC03>
<fC03 i1="06" i2="X" l="SPA">
<s0>Sumario</s0>
<s5>06</s5>
</fC03>
<fC03 i1="07" i2="X" l="FRE">
<s0>Article</s0>
<s5>07</s5>
</fC03>
<fC03 i1="07" i2="X" l="ENG">
<s0>Article</s0>
<s5>07</s5>
</fC03>
<fC03 i1="07" i2="X" l="SPA">
<s0>Artículo</s0>
<s5>07</s5>
</fC03>
<fC03 i1="08" i2="X" l="FRE">
<s0>Segmentation</s0>
<s5>08</s5>
</fC03>
<fC03 i1="08" i2="X" l="ENG">
<s0>Segmentation</s0>
<s5>08</s5>
</fC03>
<fC03 i1="08" i2="X" l="SPA">
<s0>Segmentación</s0>
<s5>08</s5>
</fC03>
<fC03 i1="09" i2="X" l="FRE">
<s0>Extraction information</s0>
<s5>09</s5>
</fC03>
<fC03 i1="09" i2="X" l="ENG">
<s0>Information extraction</s0>
<s5>09</s5>
</fC03>
<fC03 i1="09" i2="X" l="SPA">
<s0>Extractión información</s0>
<s5>09</s5>
</fC03>
<fC03 i1="10" i2="X" l="FRE">
<s0>Structure document</s0>
<s5>10</s5>
</fC03>
<fC03 i1="10" i2="X" l="ENG">
<s0>Document structure</s0>
<s5>10</s5>
</fC03>
<fC03 i1="10" i2="X" l="SPA">
<s0>Estructura de documento</s0>
<s5>10</s5>
</fC03>
<fC03 i1="11" i2="X" l="FRE">
<s0>Calliope</s0>
<s2>NI</s2>
<s4>INC</s4>
<s5>27</s5>
</fC03>
<fC03 i1="12" i2="X" l="FRE">
<s0>Document structuré</s0>
<s2>NI</s2>
<s4>CD</s4>
<s5>96</s5>
</fC03>
<fC03 i1="12" i2="X" l="ENG">
<s0>Structured document</s0>
<s2>NI</s2>
<s4>CD</s4>
<s5>96</s5>
</fC03>
<fN21>
<s1>162</s1>
</fN21>
</pA>
</standard>
<server>
<NO>PASCAL 01-0235226 INIST</NO>
<FT>Une méthode d'étiquetage morpho-syntaxique pour la reconnaissance de tables de matières</FT>
<ET>(A morpho-syntactic tagging method for tables of contents recognition)</ET>
<AU>BELAÏD (A.); TOUSSAINT (Y.); EMPTOZ (Hubert); VINCENT (Nicole)</AU>
<AF>LORIA-CNRS, Campus Scientifique, B.P. 239/54506 Vandoeuvre-Lès-Nancy/France (1 aut., 2 aut.)</AF>
<DT>Congrès; Niveau analytique</DT>
<SO>Colloque international francophone sur l'écrit et le document/2000/Lyon FRA; Suisse; Lausanne: Presses polytechniques et universitaires romandes; Da. 2000; Pp. 51-60; ISBN 2-88074-460-1</SO>
<LA>Français</LA>
<FA>Nous décrivons dans cet article une méthode d'étiquetage linguistique en vue de la reconnaissance de la structure des articles des tables de matières (TdM). Le résultat sert à fournir le serveur de tables de matières de Calliope, un outil de consultation automatique de la documentation à distance, réalisé en collaboration entre Xerox et l'INRIA. La méthode d'étiquetage opère sur un texte ASCII reconnu par OCR (Optical Character Recognition), comprenant des erreurs éventuelles de reconnaissance de caractères et de mise en page. Elle est initialisée par un étiquetage primaire des éléments textuels par référence à des dictionnaires. Les étiquettes significatives sont ensuite regroupées en syntagmes conduisant par réduction à des formes canoniques identifiantes du titre et des auteurs. Cet étiquetage permet de formuler des hypothèses d'extension syntaxique sur les termes inconnus et de les intégrer dans les syntagmes voisins. Pour les articles erronés, nous appliquons le modèle de structuration généré automatiquement à partir des articles bien identifiés. Le prototype étudié opère avec une grande satisfaction sur des TdMs de différentes mises en page et qualités de reconnaissance de caractères. Sans intervention manuelle, nous obtenons un taux de segmentation d'articles de l'ordre de 95.41% sur 38 revues scientifiques comprenant 2703 articles et un taux de 81.74% d'extraction de champs corrects.</FA>
<CC>001A01F03; 205</CC>
<FD>Reconnaissance optique caractère; Etiquetage; Méthode; Analyse morphologique; Analyse syntaxique; Sommaire; Article; Segmentation; Extraction information; Structure document; Calliope; Document structuré</FD>
<ED>Optical character recognition; Labelling; Method; Morphological analysis; Syntactic analysis; Table of contents; Article; Segmentation; Information extraction; Document structure; Structured document</ED>
<SD>Reconocimento óptico de caracteres; Etiquetaje; Método; Análisis morfológico; Análisis sintáxico; Sumario; Artículo; Segmentación; Extractión información; Estructura de documento</SD>
<LO>INIST-Y 32899.354000092001980060</LO>
<ID>01-0235226</ID>
</server>
</inist>
</record>

Pour manipuler ce document sous Unix (Dilib)

EXPLOR_STEP=$WICRI_ROOT/Ticri/CIDE/explor/OcrV1/Data/PascalFrancis/Corpus
HfdSelect -h $EXPLOR_STEP/biblio.hfd -nk 000720 | SxmlIndent | more

Ou

HfdSelect -h $EXPLOR_AREA/Data/PascalFrancis/Corpus/biblio.hfd -nk 000720 | SxmlIndent | more

Pour mettre un lien sur cette page dans le réseau Wicri

{{Explor lien
   |wiki=    Ticri/CIDE
   |area=    OcrV1
   |flux=    PascalFrancis
   |étape=   Corpus
   |type=    RBID
   |clé=     Pascal:01-0235226
   |texte=   Une méthode d'étiquetage morpho-syntaxique pour la reconnaissance de tables de matières
}}

Wicri

This area was generated with Dilib version V0.6.32.
Data generation: Sat Nov 11 16:53:45 2017. Site generation: Mon Mar 11 23:15:16 2024