OcrV1, PascalFrancis, Corpus, bibRecord, 000720

Une méthode d'étiquetage morpho-syntaxique pour la reconnaissance de tables de matières

Identifieur interne : 000720 ( PascalFrancis/Corpus ); précédent : 000719; suivant : 000721

Une méthode d'étiquetage morpho-syntaxique pour la reconnaissance de tables de matières

Auteurs : A. Belaïd ; Y. Toussaint

Source :

RBID : Pascal:01-0235226

Descripteurs français

Pascal (Inist)
- Reconnaissance optique caractère, Etiquetage, Méthode, Analyse morphologique, Analyse syntaxique, Sommaire, Article, Segmentation, Extraction information, Structure document, Calliope, Document structuré.

English descriptors

KwdEn :
- Article, Document structure, Information extraction, Labelling, Method, Morphological analysis, Optical character recognition, Segmentation, Structured document, Syntactic analysis, Table of contents.

Abstract

Nous décrivons dans cet article une méthode d'étiquetage linguistique en vue de la reconnaissance de la structure des articles des tables de matières (TdM). Le résultat sert à fournir le serveur de tables de matières de Calliope, un outil de consultation automatique de la documentation à distance, réalisé en collaboration entre Xerox et l'INRIA. La méthode d'étiquetage opère sur un texte ASCII reconnu par OCR (Optical Character Recognition), comprenant des erreurs éventuelles de reconnaissance de caractères et de mise en page. Elle est initialisée par un étiquetage primaire des éléments textuels par référence à des dictionnaires. Les étiquettes significatives sont ensuite regroupées en syntagmes conduisant par réduction à des formes canoniques identifiantes du titre et des auteurs. Cet étiquetage permet de formuler des hypothèses d'extension syntaxique sur les termes inconnus et de les intégrer dans les syntagmes voisins. Pour les articles erronés, nous appliquons le modèle de structuration généré automatiquement à partir des articles bien identifiés. Le prototype étudié opère avec une grande satisfaction sur des TdMs de différentes mises en page et qualités de reconnaissance de caractères. Sans intervention manuelle, nous obtenons un taux de segmentation d'articles de l'ordre de 95.41% sur 38 revues scientifiques comprenant 2703 articles et un taux de 81.74% d'extraction de champs corrects.

Notice en format standard (ISO 2709)

Pour connaître la documentation sur le format Inist Standard.

A08	`01`	`1`	`FRE`	`@1 Une méthode d'étiquetage morpho-syntaxique pour la reconnaissance de tables de matières`
A09	`01`	`1`	`FRE`	`@1 CIFED '2000 : colloque international francophone sur l'écrit et le document : Lyon, 2000`
A11	`01`	`1`		`@1 BELAÏD (A.)`
A11	`02`	`1`		`@1 TOUSSAINT (Y.)`
A12	`01`	`1`		`@1 EMPTOZ (Hubert) @9 ed.`
A12	`02`	`1`		`@1 VINCENT (Nicole) @9 ed.`
A14	`01`			`@1 LORIA-CNRS, Campus Scientifique, B.P. 239 @2 54506 Vandoeuvre-Lès-Nancy @3 FRA @Z 1 aut. @Z 2 aut.`
A20				`@1 51-60`
A21				`@1 2000`
A23	`01`			`@0 FRE`
A25	`01`			`@1 Presses polytechniques et universitaires romandes @2 Lausanne`
A26	`01`			`@0 2-88074-460-1`
A30	`01`	`1`	`FRE`	`@1 Colloque international francophone sur l'écrit et le document @3 Lyon FRA @4 2000`
A43	`01`			`@1 INIST @2 Y 32899 @5 354000092001980060`
A44				`@0 0000 @1 © 2001 INIST-CNRS. All rights reserved.`
A45				`@0 15 ref.`
A47	`01`	`1`		`@0 01-0235226`
A60				`@1 C`
A61				`@0 A`
A66	`01`			`@0 CHE`
A68	`01`	`1`	`ENG`	`@1 A morpho-syntactic tagging method for tables of contents recognition`
C01	`01`		`FRE`	@0 Nous décrivons dans cet article une méthode d'étiquetage linguistique en vue de la reconnaissance de la structure des articles des tables de matières (TdM). Le résultat sert à fournir le serveur de tables de matières de Calliope, un outil de consultation automatique de la documentation à distance, réalisé en collaboration entre Xerox et l'INRIA. La méthode d'étiquetage opère sur un texte ASCII reconnu par OCR (Optical Character Recognition), comprenant des erreurs éventuelles de reconnaissance de caractères et de mise en page. Elle est initialisée par un étiquetage primaire des éléments textuels par référence à des dictionnaires. Les étiquettes significatives sont ensuite regroupées en syntagmes conduisant par réduction à des formes canoniques identifiantes du titre et des auteurs. Cet étiquetage permet de formuler des hypothèses d'extension syntaxique sur les termes inconnus et de les intégrer dans les syntagmes voisins. Pour les articles erronés, nous appliquons le modèle de structuration généré automatiquement à partir des articles bien identifiés. Le prototype étudié opère avec une grande satisfaction sur des TdMs de différentes mises en page et qualités de reconnaissance de caractères. Sans intervention manuelle, nous obtenons un taux de segmentation d'articles de l'ordre de 95.41% sur 38 revues scientifiques comprenant 2703 articles et un taux de 81.74% d'extraction de champs corrects.
C02	`01`	`X`		`@0 001A01F03`
C02	`02`	`X`		`@0 205`
C03	`01`	`X`	`FRE`	`@0 Reconnaissance optique caractère @5 01`
C03	`01`	`X`	`ENG`	`@0 Optical character recognition @5 01`
C03	`01`	`X`	`SPA`	`@0 Reconocimento óptico de caracteres @5 01`
C03	`02`	`X`	`FRE`	`@0 Etiquetage @5 02`
C03	`02`	`X`	`ENG`	`@0 Labelling @5 02`
C03	`02`	`X`	`SPA`	`@0 Etiquetaje @5 02`
C03	`03`	`X`	`FRE`	`@0 Méthode @5 03`
C03	`03`	`X`	`ENG`	`@0 Method @5 03`
C03	`03`	`X`	`SPA`	`@0 Método @5 03`
C03	`04`	`X`	`FRE`	`@0 Analyse morphologique @5 04`
C03	`04`	`X`	`ENG`	`@0 Morphological analysis @5 04`
C03	`04`	`X`	`SPA`	`@0 Análisis morfológico @5 04`
C03	`05`	`X`	`FRE`	`@0 Analyse syntaxique @5 05`
C03	`05`	`X`	`ENG`	`@0 Syntactic analysis @5 05`
C03	`05`	`X`	`SPA`	`@0 Análisis sintáxico @5 05`
C03	`06`	`X`	`FRE`	`@0 Sommaire @5 06`
C03	`06`	`X`	`ENG`	`@0 Table of contents @5 06`
C03	`06`	`X`	`SPA`	`@0 Sumario @5 06`
C03	`07`	`X`	`FRE`	`@0 Article @5 07`
C03	`07`	`X`	`ENG`	`@0 Article @5 07`
C03	`07`	`X`	`SPA`	`@0 Artículo @5 07`
C03	`08`	`X`	`FRE`	`@0 Segmentation @5 08`
C03	`08`	`X`	`ENG`	`@0 Segmentation @5 08`
C03	`08`	`X`	`SPA`	`@0 Segmentación @5 08`
C03	`09`	`X`	`FRE`	`@0 Extraction information @5 09`
C03	`09`	`X`	`ENG`	`@0 Information extraction @5 09`
C03	`09`	`X`	`SPA`	`@0 Extractión información @5 09`
C03	`10`	`X`	`FRE`	`@0 Structure document @5 10`
C03	`10`	`X`	`ENG`	`@0 Document structure @5 10`
C03	`10`	`X`	`SPA`	`@0 Estructura de documento @5 10`
C03	`11`	`X`	`FRE`	`@0 Calliope @2 NI @4 INC @5 27`
C03	`12`	`X`	`FRE`	`@0 Document structuré @2 NI @4 CD @5 96`
C03	`12`	`X`	`ENG`	`@0 Structured document @2 NI @4 CD @5 96`
N21				`@1 162`

Format Inist (serveur)

NO :	PASCAL 01-0235226 INIST
FT :	Une méthode d'étiquetage morpho-syntaxique pour la reconnaissance de tables de matières
ET :	(A morpho-syntactic tagging method for tables of contents recognition)
AU :	BELAÏD (A.); TOUSSAINT (Y.); EMPTOZ (Hubert); VINCENT (Nicole)
AF :	LORIA-CNRS, Campus Scientifique, B.P. 239/54506 Vandoeuvre-Lès-Nancy/France (1 aut., 2 aut.)
DT :	Congrès; Niveau analytique
SO :	Colloque international francophone sur l'écrit et le document/2000/Lyon FRA; Suisse; Lausanne: Presses polytechniques et universitaires romandes; Da. 2000; Pp. 51-60; ISBN 2-88074-460-1
LA :	Français
FA :	Nous décrivons dans cet article une méthode d'étiquetage linguistique en vue de la reconnaissance de la structure des articles des tables de matières (TdM). Le résultat sert à fournir le serveur de tables de matières de Calliope, un outil de consultation automatique de la documentation à distance, réalisé en collaboration entre Xerox et l'INRIA. La méthode d'étiquetage opère sur un texte ASCII reconnu par OCR (Optical Character Recognition), comprenant des erreurs éventuelles de reconnaissance de caractères et de mise en page. Elle est initialisée par un étiquetage primaire des éléments textuels par référence à des dictionnaires. Les étiquettes significatives sont ensuite regroupées en syntagmes conduisant par réduction à des formes canoniques identifiantes du titre et des auteurs. Cet étiquetage permet de formuler des hypothèses d'extension syntaxique sur les termes inconnus et de les intégrer dans les syntagmes voisins. Pour les articles erronés, nous appliquons le modèle de structuration généré automatiquement à partir des articles bien identifiés. Le prototype étudié opère avec une grande satisfaction sur des TdMs de différentes mises en page et qualités de reconnaissance de caractères. Sans intervention manuelle, nous obtenons un taux de segmentation d'articles de l'ordre de 95.41% sur 38 revues scientifiques comprenant 2703 articles et un taux de 81.74% d'extraction de champs corrects.
CC :	001A01F03; 205
FD :	Reconnaissance optique caractère; Etiquetage; Méthode; Analyse morphologique; Analyse syntaxique; Sommaire; Article; Segmentation; Extraction information; Structure document; Calliope; Document structuré
ED :	Optical character recognition; Labelling; Method; Morphological analysis; Syntactic analysis; Table of contents; Article; Segmentation; Information extraction; Document structure; Structured document
SD :	Reconocimento óptico de caracteres; Etiquetaje; Método; Análisis morfológico; Análisis sintáxico; Sumario; Artículo; Segmentación; Extractión información; Estructura de documento
LO :	INIST-Y 32899.354000092001980060
ID :	01-0235226

Links to Exploration step

Pascal:01-0235226

Le document en format XML

<record><TEI><teiHeader><fileDesc><titleStmt><title xml:lang="fr" level="a">Une méthode d'étiquetage morpho-syntaxique pour la reconnaissance de tables de matières</title>
<author><name sortKey="Belaid, A" sort="Belaid, A" uniqKey="Belaid A" first="A." last="Belaïd">A. Belaïd</name>
<affiliation><inist:fA14 i1="01"><s1>LORIA-CNRS, Campus Scientifique, B.P. 239</s1>
<s2>54506 Vandoeuvre-Lès-Nancy</s2>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
</inist:fA14>
</affiliation>
</author>
<author><name sortKey="Toussaint, Y" sort="Toussaint, Y" uniqKey="Toussaint Y" first="Y." last="Toussaint">Y. Toussaint</name>
<affiliation><inist:fA14 i1="01"><s1>LORIA-CNRS, Campus Scientifique, B.P. 239</s1>
<s2>54506 Vandoeuvre-Lès-Nancy</s2>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
</inist:fA14>
</affiliation>
</author>
</titleStmt>
<publicationStmt><idno type="wicri:source">INIST</idno>
<idno type="inist">01-0235226</idno>
<date when="2000">2000</date>
<idno type="stanalyst">PASCAL 01-0235226 INIST</idno>
<idno type="RBID">Pascal:01-0235226</idno>
<idno type="wicri:Area/PascalFrancis/Corpus">000720</idno>
</publicationStmt>
<sourceDesc><biblStruct><analytic><title xml:lang="fr" level="a">Une méthode d'étiquetage morpho-syntaxique pour la reconnaissance de tables de matières</title>
<author><name sortKey="Belaid, A" sort="Belaid, A" uniqKey="Belaid A" first="A." last="Belaïd">A. Belaïd</name>
<affiliation><inist:fA14 i1="01"><s1>LORIA-CNRS, Campus Scientifique, B.P. 239</s1>
<s2>54506 Vandoeuvre-Lès-Nancy</s2>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
</inist:fA14>
</affiliation>
</author>
<author><name sortKey="Toussaint, Y" sort="Toussaint, Y" uniqKey="Toussaint Y" first="Y." last="Toussaint">Y. Toussaint</name>
<affiliation><inist:fA14 i1="01"><s1>LORIA-CNRS, Campus Scientifique, B.P. 239</s1>
<s2>54506 Vandoeuvre-Lès-Nancy</s2>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
</inist:fA14>
</affiliation>
</author>
</analytic>
</biblStruct>
</sourceDesc>
</fileDesc>
<profileDesc><textClass><keywords scheme="KwdEn" xml:lang="en"><term>Article</term>
<term>Document structure</term>
<term>Information extraction</term>
<term>Labelling</term>
<term>Method</term>
<term>Morphological analysis</term>
<term>Optical character recognition</term>
<term>Segmentation</term>
<term>Structured document</term>
<term>Syntactic analysis</term>
<term>Table of contents</term>
</keywords>
<keywords scheme="Pascal" xml:lang="fr"><term>Reconnaissance optique caractère</term>
<term>Etiquetage</term>
<term>Méthode</term>
<term>Analyse morphologique</term>
<term>Analyse syntaxique</term>
<term>Sommaire</term>
<term>Article</term>
<term>Segmentation</term>
<term>Extraction information</term>
<term>Structure document</term>
<term>Calliope</term>
<term>Document structuré</term>
</keywords>
</textClass>
</profileDesc>
</teiHeader>
<front><div type="abstract" xml:lang="fr">Nous décrivons dans cet article une méthode d'étiquetage linguistique en vue de la reconnaissance de la structure des articles des tables de matières (TdM). Le résultat sert à fournir le serveur de tables de matières de Calliope, un outil de consultation automatique de la documentation à distance, réalisé en collaboration entre Xerox et l'INRIA. La méthode d'étiquetage opère sur un texte ASCII reconnu par OCR (Optical Character Recognition), comprenant des erreurs éventuelles de reconnaissance de caractères et de mise en page. Elle est initialisée par un étiquetage primaire des éléments textuels par référence à des dictionnaires. Les étiquettes significatives sont ensuite regroupées en syntagmes conduisant par réduction à des formes canoniques identifiantes du titre et des auteurs. Cet étiquetage permet de formuler des hypothèses d'extension syntaxique sur les termes inconnus et de les intégrer dans les syntagmes voisins. Pour les articles erronés, nous appliquons le modèle de structuration généré automatiquement à partir des articles bien identifiés. Le prototype étudié opère avec une grande satisfaction sur des TdMs de différentes mises en page et qualités de reconnaissance de caractères. Sans intervention manuelle, nous obtenons un taux de segmentation d'articles de l'ordre de 95.41% sur 38 revues scientifiques comprenant 2703 articles et un taux de 81.74% d'extraction de champs corrects.</div>
</front>
</TEI>
<inist><standard h6="B"><pA><fA08 i1="01" i2="1" l="FRE"><s1>Une méthode d'étiquetage morpho-syntaxique pour la reconnaissance de tables de matières</s1>
</fA08>
<fA09 i1="01" i2="1" l="FRE"><s1>CIFED '2000 : colloque international francophone sur l'écrit et le document : Lyon, 2000</s1>
</fA09>
<fA11 i1="01" i2="1"><s1>BELAÏD (A.)</s1>
</fA11>
<fA11 i1="02" i2="1"><s1>TOUSSAINT (Y.)</s1>
</fA11>
<fA12 i1="01" i2="1"><s1>EMPTOZ (Hubert)</s1>
<s9>ed.</s9>
</fA12>
<fA12 i1="02" i2="1"><s1>VINCENT (Nicole)</s1>
<s9>ed.</s9>
</fA12>
<fA14 i1="01"><s1>LORIA-CNRS, Campus Scientifique, B.P. 239</s1>
<s2>54506 Vandoeuvre-Lès-Nancy</s2>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
</fA14>
<fA20><s1>51-60</s1>
</fA20>
<fA21><s1>2000</s1>
</fA21>
<fA23 i1="01"><s0>FRE</s0>
</fA23>
<fA25 i1="01"><s1>Presses polytechniques et universitaires romandes</s1>
<s2>Lausanne</s2>
</fA25>
<fA26 i1="01"><s0>2-88074-460-1</s0>
</fA26>
<fA30 i1="01" i2="1" l="FRE"><s1>Colloque international francophone sur l'écrit et le document</s1>
<s3>Lyon FRA</s3>
<s4>2000</s4>
</fA30>
<fA43 i1="01"><s1>INIST</s1>
<s2>Y 32899</s2>
<s5>354000092001980060</s5>
</fA43>
<fA44><s0>0000</s0>
<s1>© 2001 INIST-CNRS. All rights reserved.</s1>
</fA44>
<fA45><s0>15 ref.</s0>
</fA45>
<fA47 i1="01" i2="1"><s0>01-0235226</s0>
</fA47>
<fA60><s1>C</s1>
</fA60>
<fA61><s0>A</s0>
</fA61>
<fA66 i1="01"><s0>CHE</s0>
</fA66>
<fA68 i1="01" i2="1" l="ENG"><s1>A morpho-syntactic tagging method for tables of contents recognition</s1>
</fA68>
<fC01 i1="01" l="FRE"><s0>Nous décrivons dans cet article une méthode d'étiquetage linguistique en vue de la reconnaissance de la structure des articles des tables de matières (TdM). Le résultat sert à fournir le serveur de tables de matières de Calliope, un outil de consultation automatique de la documentation à distance, réalisé en collaboration entre Xerox et l'INRIA. La méthode d'étiquetage opère sur un texte ASCII reconnu par OCR (Optical Character Recognition), comprenant des erreurs éventuelles de reconnaissance de caractères et de mise en page. Elle est initialisée par un étiquetage primaire des éléments textuels par référence à des dictionnaires. Les étiquettes significatives sont ensuite regroupées en syntagmes conduisant par réduction à des formes canoniques identifiantes du titre et des auteurs. Cet étiquetage permet de formuler des hypothèses d'extension syntaxique sur les termes inconnus et de les intégrer dans les syntagmes voisins. Pour les articles erronés, nous appliquons le modèle de structuration généré automatiquement à partir des articles bien identifiés. Le prototype étudié opère avec une grande satisfaction sur des TdMs de différentes mises en page et qualités de reconnaissance de caractères. Sans intervention manuelle, nous obtenons un taux de segmentation d'articles de l'ordre de 95.41% sur 38 revues scientifiques comprenant 2703 articles et un taux de 81.74% d'extraction de champs corrects.</s0>
</fC01>
<fC02 i1="01" i2="X"><s0>001A01F03</s0>
</fC02>
<fC02 i1="02" i2="X"><s0>205</s0>
</fC02>
<fC03 i1="01" i2="X" l="FRE"><s0>Reconnaissance optique caractère</s0>
<s5>01</s5>
</fC03>
<fC03 i1="01" i2="X" l="ENG"><s0>Optical character recognition</s0>
<s5>01</s5>
</fC03>
<fC03 i1="01" i2="X" l="SPA"><s0>Reconocimento óptico de caracteres</s0>
<s5>01</s5>
</fC03>
<fC03 i1="02" i2="X" l="FRE"><s0>Etiquetage</s0>
<s5>02</s5>
</fC03>
<fC03 i1="02" i2="X" l="ENG"><s0>Labelling</s0>
<s5>02</s5>
</fC03>
<fC03 i1="02" i2="X" l="SPA"><s0>Etiquetaje</s0>
<s5>02</s5>
</fC03>
<fC03 i1="03" i2="X" l="FRE"><s0>Méthode</s0>
<s5>03</s5>
</fC03>
<fC03 i1="03" i2="X" l="ENG"><s0>Method</s0>
<s5>03</s5>
</fC03>
<fC03 i1="03" i2="X" l="SPA"><s0>Método</s0>
<s5>03</s5>
</fC03>
<fC03 i1="04" i2="X" l="FRE"><s0>Analyse morphologique</s0>
<s5>04</s5>
</fC03>
<fC03 i1="04" i2="X" l="ENG"><s0>Morphological analysis</s0>
<s5>04</s5>
</fC03>
<fC03 i1="04" i2="X" l="SPA"><s0>Análisis morfológico</s0>
<s5>04</s5>
</fC03>
<fC03 i1="05" i2="X" l="FRE"><s0>Analyse syntaxique</s0>
<s5>05</s5>
</fC03>
<fC03 i1="05" i2="X" l="ENG"><s0>Syntactic analysis</s0>
<s5>05</s5>
</fC03>
<fC03 i1="05" i2="X" l="SPA"><s0>Análisis sintáxico</s0>
<s5>05</s5>
</fC03>
<fC03 i1="06" i2="X" l="FRE"><s0>Sommaire</s0>
<s5>06</s5>
</fC03>
<fC03 i1="06" i2="X" l="ENG"><s0>Table of contents</s0>
<s5>06</s5>
</fC03>
<fC03 i1="06" i2="X" l="SPA"><s0>Sumario</s0>
<s5>06</s5>
</fC03>
<fC03 i1="07" i2="X" l="FRE"><s0>Article</s0>
<s5>07</s5>
</fC03>
<fC03 i1="07" i2="X" l="ENG"><s0>Article</s0>
<s5>07</s5>
</fC03>
<fC03 i1="07" i2="X" l="SPA"><s0>Artículo</s0>
<s5>07</s5>
</fC03>
<fC03 i1="08" i2="X" l="FRE"><s0>Segmentation</s0>
<s5>08</s5>
</fC03>
<fC03 i1="08" i2="X" l="ENG"><s0>Segmentation</s0>
<s5>08</s5>
</fC03>
<fC03 i1="08" i2="X" l="SPA"><s0>Segmentación</s0>
<s5>08</s5>
</fC03>
<fC03 i1="09" i2="X" l="FRE"><s0>Extraction information</s0>
<s5>09</s5>
</fC03>
<fC03 i1="09" i2="X" l="ENG"><s0>Information extraction</s0>
<s5>09</s5>
</fC03>
<fC03 i1="09" i2="X" l="SPA"><s0>Extractión información</s0>
<s5>09</s5>
</fC03>
<fC03 i1="10" i2="X" l="FRE"><s0>Structure document</s0>
<s5>10</s5>
</fC03>
<fC03 i1="10" i2="X" l="ENG"><s0>Document structure</s0>
<s5>10</s5>
</fC03>
<fC03 i1="10" i2="X" l="SPA"><s0>Estructura de documento</s0>
<s5>10</s5>
</fC03>
<fC03 i1="11" i2="X" l="FRE"><s0>Calliope</s0>
<s2>NI</s2>
<s4>INC</s4>
<s5>27</s5>
</fC03>
<fC03 i1="12" i2="X" l="FRE"><s0>Document structuré</s0>
<s2>NI</s2>
<s4>CD</s4>
<s5>96</s5>
</fC03>
<fC03 i1="12" i2="X" l="ENG"><s0>Structured document</s0>
<s2>NI</s2>
<s4>CD</s4>
<s5>96</s5>
</fC03>
<fN21><s1>162</s1>
</fN21>
</pA>
</standard>
<server><NO>PASCAL 01-0235226 INIST</NO>
<FT>Une méthode d'étiquetage morpho-syntaxique pour la reconnaissance de tables de matières</FT>
<ET>(A morpho-syntactic tagging method for tables of contents recognition)</ET>
<AU>BELAÏD (A.); TOUSSAINT (Y.); EMPTOZ (Hubert); VINCENT (Nicole)</AU>
<AF>LORIA-CNRS, Campus Scientifique, B.P. 239/54506 Vandoeuvre-Lès-Nancy/France (1 aut., 2 aut.)</AF>
<DT>Congrès; Niveau analytique</DT>
<SO>Colloque international francophone sur l'écrit et le document/2000/Lyon FRA; Suisse; Lausanne: Presses polytechniques et universitaires romandes; Da. 2000; Pp. 51-60; ISBN 2-88074-460-1</SO>
<LA>Français</LA>
<FA>Nous décrivons dans cet article une méthode d'étiquetage linguistique en vue de la reconnaissance de la structure des articles des tables de matières (TdM). Le résultat sert à fournir le serveur de tables de matières de Calliope, un outil de consultation automatique de la documentation à distance, réalisé en collaboration entre Xerox et l'INRIA. La méthode d'étiquetage opère sur un texte ASCII reconnu par OCR (Optical Character Recognition), comprenant des erreurs éventuelles de reconnaissance de caractères et de mise en page. Elle est initialisée par un étiquetage primaire des éléments textuels par référence à des dictionnaires. Les étiquettes significatives sont ensuite regroupées en syntagmes conduisant par réduction à des formes canoniques identifiantes du titre et des auteurs. Cet étiquetage permet de formuler des hypothèses d'extension syntaxique sur les termes inconnus et de les intégrer dans les syntagmes voisins. Pour les articles erronés, nous appliquons le modèle de structuration généré automatiquement à partir des articles bien identifiés. Le prototype étudié opère avec une grande satisfaction sur des TdMs de différentes mises en page et qualités de reconnaissance de caractères. Sans intervention manuelle, nous obtenons un taux de segmentation d'articles de l'ordre de 95.41% sur 38 revues scientifiques comprenant 2703 articles et un taux de 81.74% d'extraction de champs corrects.</FA>
<CC>001A01F03; 205</CC>
<FD>Reconnaissance optique caractère; Etiquetage; Méthode; Analyse morphologique; Analyse syntaxique; Sommaire; Article; Segmentation; Extraction information; Structure document; Calliope; Document structuré</FD>
<ED>Optical character recognition; Labelling; Method; Morphological analysis; Syntactic analysis; Table of contents; Article; Segmentation; Information extraction; Document structure; Structured document</ED>
<SD>Reconocimento óptico de caracteres; Etiquetaje; Método; Análisis morfológico; Análisis sintáxico; Sumario; Artículo; Segmentación; Extractión información; Estructura de documento</SD>
<LO>INIST-Y 32899.354000092001980060</LO>
<ID>01-0235226</ID>
</server>
</inist>
</record>

Pour manipuler ce document sous Unix (Dilib)

EXPLOR_STEP=$WICRI_ROOT/Ticri/CIDE/explor/OcrV1/Data/PascalFrancis/Corpus

HfdSelect -h $EXPLOR_STEP/biblio.hfd -nk 000720 | SxmlIndent | more

HfdSelect -h $EXPLOR_AREA/Data/PascalFrancis/Corpus/biblio.hfd -nk 000720 | SxmlIndent | more

Pour mettre un lien sur cette page dans le réseau Wicri

{{Explor lien
   |wiki=    Ticri/CIDE
   |area=    OcrV1
   |flux=    PascalFrancis
   |étape=   Corpus
   |type=    RBID
   |clé=     Pascal:01-0235226
   |texte=   Une méthode d'étiquetage morpho-syntaxique pour la reconnaissance de tables de matières
}}

This area was generated with Dilib version V0.6.32.
Data generation: Sat Nov 11 16:53:45 2017. Site generation: Mon Mar 11 23:15:16 2024

	Serveur d'exploration sur l'OCR
	Attention, ce site est en cours de développement ! Attention, site généré par des moyens informatiques à partir de corpus bruts. Les informations ne sont donc pas validées.

Serveur d'exploration sur l'OCR

Une méthode d'étiquetage morpho-syntaxique pour la reconnaissance de tables de matières

Une méthode d'étiquetage morpho-syntaxique pour la reconnaissance de tables de matières

Source :

Descripteurs français

English descriptors

Abstract

Notice en format standard (ISO 2709)

Format Inist (serveur)

Links to Exploration step

Le document en format XML

Pour manipuler ce document sous Unix (Dilib)

Pour mettre un lien sur cette page dans le réseau Wicri