Serveur d'exploration sur l'OCR

Attention, ce site est en cours de développement !
Attention, site généré par des moyens informatiques à partir de corpus bruts.
Les informations ne sont donc pas validées.

Vers un système de construction automatique de modèles génériques de structures de documents

Identifieur interne : 000942 ( PascalFrancis/Curation ); précédent : 000941; suivant : 000943

Vers un système de construction automatique de modèles génériques de structures de documents

Auteurs :

Source :

RBID : Pascal:95-0410865

Descripteurs français

English descriptors

Abstract

Cette thèse traite de l'apprentissage des modèles génériques de structures de documents. L'intérêt du système conçu et développé est double: il permet de simplifier la tâche de construction manuelle du modèle souvent pénible et de contrôler les connaissances a priori données au modèle. Un travail préliminaire sur l'analyse de documents consistait en l'étude des différents formalismes existant pour représenter les structures de documents. En se basant sur le formalisme ODA, nous avons défini un modèle de structures adapté à la lecture optique de documents. Etant donné que l'architecture du modèle est arborescente, nous nous sommes dirigés naturellement vers les méthodes d'inférence de grammaires d'arbres. Chaque document est segmenté puis représenté par une structure spécifique. Afin de contrôler ce processus (ne pas altérer la structure par celles de mauvais échantillons) et d'introduire la structure logique, un modèle de base est d'abord construit à partir de quelques échantillons de documents et avec toute la vaillance de l'utilisateur. A l'étape d'inférence, la structure spécifique de chaque échantillon est d'abord comparée au modèle de base. Puis, en cas de validité, elle est utilisée pour l'inférence du modèle générique. Cette inférence est effectuée par la méthode d'inférence de grammaires d'arbres. Une dernière étape de réduction est utilisée pour éliminer les répétitions et les redondances. Le résultat de ce système est un ensemble de règles décrivant le modèle générique de la classe de documents à laquelle appartiennent les échantillons utilisés pour l'apprentissage. Le système a été testé sur une base complète de documents correspondant aux pages de titre des articles des actes des conférences ICPR (International Conference on Pattern Recognition) et les résultats sont concluants
pA  
A07       @0 95NAN10002
A09 01  1  FRE  @1 Vers un système de construction automatique de modèles génériques de structures de documents
A12 01  1    @1 AKINDELE (Oluwatoyin T)
A12 02  1    @1 BELAID (A.) @9 dir.
A18 01  1    @1 Université de Nancy 1 @2 Nancy @3 FRA @9 tutelle
A21       @1 1995-01 @4 1995
A23 01      @0 FRE
A24 01      @0 fre
A24 02      @0 eng
A29       @1 192 p.
A41       @1 Université de Nancy 1. Nancy. FRA
A42       @0 Th. doct.
A43 01      @1 INIST @2 T 98578 @5 T95NAN10002
A44       @0 0000
A45       @0 130 ref.
A47 01  1    @0 95-0410865
A60       @1 T
A61       @0 M
A66 01      @0 FRA
A69 01  1  ENG  @1 Towards a system for automatic construction of generic models of document structures
C01 01    FRE  @0 Cette thèse traite de l'apprentissage des modèles génériques de structures de documents. L'intérêt du système conçu et développé est double: il permet de simplifier la tâche de construction manuelle du modèle souvent pénible et de contrôler les connaissances a priori données au modèle. Un travail préliminaire sur l'analyse de documents consistait en l'étude des différents formalismes existant pour représenter les structures de documents. En se basant sur le formalisme ODA, nous avons défini un modèle de structures adapté à la lecture optique de documents. Etant donné que l'architecture du modèle est arborescente, nous nous sommes dirigés naturellement vers les méthodes d'inférence de grammaires d'arbres. Chaque document est segmenté puis représenté par une structure spécifique. Afin de contrôler ce processus (ne pas altérer la structure par celles de mauvais échantillons) et d'introduire la structure logique, un modèle de base est d'abord construit à partir de quelques échantillons de documents et avec toute la vaillance de l'utilisateur. A l'étape d'inférence, la structure spécifique de chaque échantillon est d'abord comparée au modèle de base. Puis, en cas de validité, elle est utilisée pour l'inférence du modèle générique. Cette inférence est effectuée par la méthode d'inférence de grammaires d'arbres. Une dernière étape de réduction est utilisée pour éliminer les répétitions et les redondances. Le résultat de ce système est un ensemble de règles décrivant le modèle générique de la classe de documents à laquelle appartiennent les échantillons utilisés pour l'apprentissage. Le système a été testé sur une base complète de documents correspondant aux pages de titre des articles des actes des conférences ICPR (International Conference on Pattern Recognition) et les résultats sont concluants
C02 01  X    @0 001D02C02
C02 02  X    @0 001D02C03
C02 03  X    @0 001D02B07D
C03 01  X  FRE  @0 Apprentissage
C03 01  X  ENG  @0 Learning
C03 01  X  SPA  @0 Aprendizaje
C03 02  X  FRE  @0 Reconnaissance forme
C03 02  X  ENG  @0 Pattern recognition
C03 02  X  GER  @0 Mustererkennung
C03 02  X  SPA  @0 Reconocimiento patrón
C03 03  X  FRE  @0 Document
C03 03  X  ENG  @0 Document
C03 03  X  SPA  @0 Documento
C03 04  X  FRE  @0 Inférence
C03 04  X  ENG  @0 Inference
C03 04  X  SPA  @0 Inferencia
C03 05  X  FRE  @0 Grammaire
C03 05  X  ENG  @0 Grammar
C03 05  X  SPA  @0 Gramática
C03 06  X  FRE  @0 Analyse documentaire
C03 06  X  ENG  @0 Document analysis
C03 06  X  SPA  @0 Análisis documental
C03 07  X  FRE  @0 Formalisation
C03 07  X  ENG  @0 Formalization
C03 07  X  SPA  @0 Formalización
C03 08  X  FRE  @0 Réduction
C03 08  X  ENG  @0 Reduction
C03 08  X  SPA  @0 Reducción
C03 09  X  FRE  @0 Modèle générique @4 INC
C03 10  X  FRE  @0 Formalisme ODA @4 INC
C03 11  X  FRE  @0 Structure document @4 CD
C03 11  X  ENG  @0 Document structure @4 CD
C03 12  X  FRE  @0 OCR @4 CD
C03 12  X  ENG  @0 OCR @4 CD
N21       @1 225

Links toward previous steps (curation, corpus...)


Links to Exploration step

Pascal:95-0410865

Le document en format XML

<record>
<TEI>
<teiHeader>
<fileDesc>
<titleStmt>
<title xml:lang="fr" level="m">Vers un système de construction automatique de modèles génériques de structures de documents</title>
<author>
<name sortKey="Akindele, Oluwatoyin T" sort="Akindele, Oluwatoyin T" uniqKey="Akindele O" first="Oluwatoyin T" last="Akindele">Oluwatoyin T. Akindele</name>
<affiliation wicri:level="1">
<inist:fA14 i1="01" i2="1">
<s1>Université de Nancy 1</s1>
<s2>Nancy</s2>
<s3>FRA</s3>
<s9>tutelle</s9>
</inist:fA14>
<country>France</country>
</affiliation>
</author>
<author>
<name sortKey="Belaid, A" sort="Belaid, A" uniqKey="Belaid A" first="A." last="Belaid">A. Belaid</name>
</author>
</titleStmt>
<publicationStmt>
<idno type="wicri:source">INIST</idno>
<idno type="inist">95-0410865</idno>
<date when="1995-01">1995-01</date>
<idno type="stanalyst">PASCAL 95-0410865 INIST</idno>
<idno type="RBID">Pascal:95-0410865</idno>
<idno type="wicri:Area/PascalFrancis/Corpus">000A57</idno>
<idno type="wicri:Area/PascalFrancis/Curation">000942</idno>
</publicationStmt>
<sourceDesc>
<biblStruct>
<analytic></analytic>
</biblStruct>
</sourceDesc>
</fileDesc>
<profileDesc>
<textClass>
<keywords scheme="KwdEn" xml:lang="en">
<term>Document</term>
<term>Document analysis</term>
<term>Document structure</term>
<term>Formalization</term>
<term>Grammar</term>
<term>Inference</term>
<term>Learning</term>
<term>OCR</term>
<term>Pattern recognition</term>
<term>Reduction</term>
</keywords>
<keywords scheme="Pascal" xml:lang="fr">
<term>Apprentissage</term>
<term>Reconnaissance forme</term>
<term>Document</term>
<term>Inférence</term>
<term>Grammaire</term>
<term>Analyse documentaire</term>
<term>Formalisation</term>
<term>Réduction</term>
<term>Modèle générique</term>
<term>Formalisme ODA</term>
<term>Structure document</term>
<term>OCR</term>
</keywords>
<keywords scheme="Wicri" type="topic" xml:lang="fr">
<term>Document</term>
</keywords>
</textClass>
</profileDesc>
</teiHeader>
<front>
<div type="abstract" xml:lang="fr">Cette thèse traite de l'apprentissage des modèles génériques de structures de documents. L'intérêt du système conçu et développé est double: il permet de simplifier la tâche de construction manuelle du modèle souvent pénible et de contrôler les connaissances a priori données au modèle. Un travail préliminaire sur l'analyse de documents consistait en l'étude des différents formalismes existant pour représenter les structures de documents. En se basant sur le formalisme ODA, nous avons défini un modèle de structures adapté à la lecture optique de documents. Etant donné que l'architecture du modèle est arborescente, nous nous sommes dirigés naturellement vers les méthodes d'inférence de grammaires d'arbres. Chaque document est segmenté puis représenté par une structure spécifique. Afin de contrôler ce processus (ne pas altérer la structure par celles de mauvais échantillons) et d'introduire la structure logique, un modèle de base est d'abord construit à partir de quelques échantillons de documents et avec toute la vaillance de l'utilisateur. A l'étape d'inférence, la structure spécifique de chaque échantillon est d'abord comparée au modèle de base. Puis, en cas de validité, elle est utilisée pour l'inférence du modèle générique. Cette inférence est effectuée par la méthode d'inférence de grammaires d'arbres. Une dernière étape de réduction est utilisée pour éliminer les répétitions et les redondances. Le résultat de ce système est un ensemble de règles décrivant le modèle générique de la classe de documents à laquelle appartiennent les échantillons utilisés pour l'apprentissage. Le système a été testé sur une base complète de documents correspondant aux pages de titre des articles des actes des conférences ICPR (International Conference on Pattern Recognition) et les résultats sont concluants</div>
</front>
</TEI>
<inist>
<standard h6="B">
<pA>
<fA07>
<s0>95NAN10002</s0>
</fA07>
<fA09 i1="01" i2="1" l="FRE">
<s1>Vers un système de construction automatique de modèles génériques de structures de documents</s1>
</fA09>
<fA12 i1="01" i2="1">
<s1>AKINDELE (Oluwatoyin T)</s1>
</fA12>
<fA12 i1="02" i2="1">
<s1>BELAID (A.)</s1>
<s9>dir.</s9>
</fA12>
<fA18 i1="01" i2="1">
<s1>Université de Nancy 1</s1>
<s2>Nancy</s2>
<s3>FRA</s3>
<s9>tutelle</s9>
</fA18>
<fA21>
<s1>1995-01</s1>
<s4>1995</s4>
</fA21>
<fA23 i1="01">
<s0>FRE</s0>
</fA23>
<fA24 i1="01">
<s0>fre</s0>
</fA24>
<fA24 i1="02">
<s0>eng</s0>
</fA24>
<fA29>
<s1>192 p.</s1>
</fA29>
<fA41>
<s1>Université de Nancy 1. Nancy. FRA</s1>
</fA41>
<fA42>
<s0>Th. doct.</s0>
</fA42>
<fA43 i1="01">
<s1>INIST</s1>
<s2>T 98578</s2>
<s5>T95NAN10002</s5>
</fA43>
<fA44>
<s0>0000</s0>
</fA44>
<fA45>
<s0>130 ref.</s0>
</fA45>
<fA47 i1="01" i2="1">
<s0>95-0410865</s0>
</fA47>
<fA60>
<s1>T</s1>
</fA60>
<fA61>
<s0>M</s0>
</fA61>
<fA66 i1="01">
<s0>FRA</s0>
</fA66>
<fA69 i1="01" i2="1" l="ENG">
<s1>Towards a system for automatic construction of generic models of document structures</s1>
</fA69>
<fC01 i1="01" l="FRE">
<s0>Cette thèse traite de l'apprentissage des modèles génériques de structures de documents. L'intérêt du système conçu et développé est double: il permet de simplifier la tâche de construction manuelle du modèle souvent pénible et de contrôler les connaissances a priori données au modèle. Un travail préliminaire sur l'analyse de documents consistait en l'étude des différents formalismes existant pour représenter les structures de documents. En se basant sur le formalisme ODA, nous avons défini un modèle de structures adapté à la lecture optique de documents. Etant donné que l'architecture du modèle est arborescente, nous nous sommes dirigés naturellement vers les méthodes d'inférence de grammaires d'arbres. Chaque document est segmenté puis représenté par une structure spécifique. Afin de contrôler ce processus (ne pas altérer la structure par celles de mauvais échantillons) et d'introduire la structure logique, un modèle de base est d'abord construit à partir de quelques échantillons de documents et avec toute la vaillance de l'utilisateur. A l'étape d'inférence, la structure spécifique de chaque échantillon est d'abord comparée au modèle de base. Puis, en cas de validité, elle est utilisée pour l'inférence du modèle générique. Cette inférence est effectuée par la méthode d'inférence de grammaires d'arbres. Une dernière étape de réduction est utilisée pour éliminer les répétitions et les redondances. Le résultat de ce système est un ensemble de règles décrivant le modèle générique de la classe de documents à laquelle appartiennent les échantillons utilisés pour l'apprentissage. Le système a été testé sur une base complète de documents correspondant aux pages de titre des articles des actes des conférences ICPR (International Conference on Pattern Recognition) et les résultats sont concluants</s0>
</fC01>
<fC02 i1="01" i2="X">
<s0>001D02C02</s0>
</fC02>
<fC02 i1="02" i2="X">
<s0>001D02C03</s0>
</fC02>
<fC02 i1="03" i2="X">
<s0>001D02B07D</s0>
</fC02>
<fC03 i1="01" i2="X" l="FRE">
<s0>Apprentissage</s0>
</fC03>
<fC03 i1="01" i2="X" l="ENG">
<s0>Learning</s0>
</fC03>
<fC03 i1="01" i2="X" l="SPA">
<s0>Aprendizaje</s0>
</fC03>
<fC03 i1="02" i2="X" l="FRE">
<s0>Reconnaissance forme</s0>
</fC03>
<fC03 i1="02" i2="X" l="ENG">
<s0>Pattern recognition</s0>
</fC03>
<fC03 i1="02" i2="X" l="GER">
<s0>Mustererkennung</s0>
</fC03>
<fC03 i1="02" i2="X" l="SPA">
<s0>Reconocimiento patrón</s0>
</fC03>
<fC03 i1="03" i2="X" l="FRE">
<s0>Document</s0>
</fC03>
<fC03 i1="03" i2="X" l="ENG">
<s0>Document</s0>
</fC03>
<fC03 i1="03" i2="X" l="SPA">
<s0>Documento</s0>
</fC03>
<fC03 i1="04" i2="X" l="FRE">
<s0>Inférence</s0>
</fC03>
<fC03 i1="04" i2="X" l="ENG">
<s0>Inference</s0>
</fC03>
<fC03 i1="04" i2="X" l="SPA">
<s0>Inferencia</s0>
</fC03>
<fC03 i1="05" i2="X" l="FRE">
<s0>Grammaire</s0>
</fC03>
<fC03 i1="05" i2="X" l="ENG">
<s0>Grammar</s0>
</fC03>
<fC03 i1="05" i2="X" l="SPA">
<s0>Gramática</s0>
</fC03>
<fC03 i1="06" i2="X" l="FRE">
<s0>Analyse documentaire</s0>
</fC03>
<fC03 i1="06" i2="X" l="ENG">
<s0>Document analysis</s0>
</fC03>
<fC03 i1="06" i2="X" l="SPA">
<s0>Análisis documental</s0>
</fC03>
<fC03 i1="07" i2="X" l="FRE">
<s0>Formalisation</s0>
</fC03>
<fC03 i1="07" i2="X" l="ENG">
<s0>Formalization</s0>
</fC03>
<fC03 i1="07" i2="X" l="SPA">
<s0>Formalización</s0>
</fC03>
<fC03 i1="08" i2="X" l="FRE">
<s0>Réduction</s0>
</fC03>
<fC03 i1="08" i2="X" l="ENG">
<s0>Reduction</s0>
</fC03>
<fC03 i1="08" i2="X" l="SPA">
<s0>Reducción</s0>
</fC03>
<fC03 i1="09" i2="X" l="FRE">
<s0>Modèle générique</s0>
<s4>INC</s4>
</fC03>
<fC03 i1="10" i2="X" l="FRE">
<s0>Formalisme ODA</s0>
<s4>INC</s4>
</fC03>
<fC03 i1="11" i2="X" l="FRE">
<s0>Structure document</s0>
<s4>CD</s4>
</fC03>
<fC03 i1="11" i2="X" l="ENG">
<s0>Document structure</s0>
<s4>CD</s4>
</fC03>
<fC03 i1="12" i2="X" l="FRE">
<s0>OCR</s0>
<s4>CD</s4>
</fC03>
<fC03 i1="12" i2="X" l="ENG">
<s0>OCR</s0>
<s4>CD</s4>
</fC03>
<fN21>
<s1>225</s1>
</fN21>
</pA>
</standard>
</inist>
</record>

Pour manipuler ce document sous Unix (Dilib)

EXPLOR_STEP=$WICRI_ROOT/Ticri/CIDE/explor/OcrV1/Data/PascalFrancis/Curation
HfdSelect -h $EXPLOR_STEP/biblio.hfd -nk 000942 | SxmlIndent | more

Ou

HfdSelect -h $EXPLOR_AREA/Data/PascalFrancis/Curation/biblio.hfd -nk 000942 | SxmlIndent | more

Pour mettre un lien sur cette page dans le réseau Wicri

{{Explor lien
   |wiki=    Ticri/CIDE
   |area=    OcrV1
   |flux=    PascalFrancis
   |étape=   Curation
   |type=    RBID
   |clé=     Pascal:95-0410865
   |texte=   Vers un système de construction automatique de modèles génériques de structures de documents
}}

Wicri

This area was generated with Dilib version V0.6.32.
Data generation: Sat Nov 11 16:53:45 2017. Site generation: Mon Mar 11 23:15:16 2024