Serveur d'exploration sur la recherche en informatique en Lorraine

Attention, ce site est en cours de développement !
Attention, site généré par des moyens informatiques à partir de corpus bruts.
Les informations ne sont donc pas validées.

The retroconversion in Digital Libraries

Identifieur interne : 006540 ( Hal/Checkpoint ); précédent : 006539; suivant : 006541

The retroconversion in Digital Libraries

Auteurs : Abdel Belaïd [France]

Source :

RBID : Hal:inria-00098924

Abstract

Ce travail s'inscrit dans le cadre du projet de bibliothèque virtuelle Calliope dont l'objectif est de permettre l'accès à la documentation scientifique physiquement stockée sur des sites distants. Calliope développe le concept de télé-photocopie, c'est-à-dire la numérisation à la demande d'articles scientifiques et leur impression à distance. La sélection des articles se fait à travers un serveur de tables des matières fournies sous forme électronique par une entité tierce. Aussi importante que soit cette base de données de tables des matières, de nombreux périodiques n'y figurent pas et ne peuvent être intégrés à Calliope à moins de procéder à une ressaisie manuelle toujours longue et fastidieuse. C'est le cas des actes de congrès dont les tables de matières sont souvent longues et leur structure non normalisée. La solution retenue a été de disposer d'outils adaptés à la reconnaissance de ces tables des matières. Le travail proposé consiste à numériser les tables de matières et à reconnaître automatiquement leurs articles. Le résultat est affiché sous forme d'un fichier HTML permettant, en cliquant sur les articles, d'ouvrir ceux-ci à la page indiquée. La méthode de reconnaissance utilisée est basée sur un étiquetage morphologique du texte (reconnu par OCR) et sa réduction en formes canoniques représentant les champs des articles. La méthode d'étiquetage, de type partie du discours, permet de corriger les mots mal reconnus par OCR et de les intégrer dans leur voisinage par analyse du contexte. La méthode s'adapte automatiquement à chaque nouvelle structure, évitant ainsi l'emploi d'un modèle a priori figé, et l'ouvrant de fait à l'analyse de structures variables comme celles des actes de congrès. Le but de cet article est de décrire le principe de cette méthode d'étiquetage et de montrer à travers des exemples, les différentes étapes de marquage, de correction et de reconnaissance de tables de matières.

Url:

Links toward previous steps (curation, corpus...)


Links to Exploration step

Hal:inria-00098924

Le document en format XML

<record>
<TEI>
<teiHeader>
<fileDesc>
<titleStmt>
<title xml:lang="en">The retroconversion in Digital Libraries</title>
<author>
<name sortKey="Belaid, Abdel" sort="Belaid, Abdel" uniqKey="Belaid A" first="Abdel" last="Belaïd">Abdel Belaïd</name>
<affiliation wicri:level="1">
<hal:affiliation type="researchteam" xml:id="struct-2352" status="OLD">
<idno type="RNSR">200022116U</idno>
<orgName>Loria in the Society of Information</orgName>
<orgName type="acronym">LORIASI</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
<ref type="url">http://www.inria.fr/equipes/loriasi</ref>
</desc>
<listRelation>
<relation active="#struct-160" type="direct"></relation>
<relation name="UMR7503" active="#struct-441569" type="indirect"></relation>
<relation active="#struct-300009" type="indirect"></relation>
<relation active="#struct-300291" type="indirect"></relation>
<relation active="#struct-300292" type="indirect"></relation>
<relation active="#struct-300293" type="indirect"></relation>
</listRelation>
<tutelles>
<tutelle active="#struct-160" type="direct">
<org type="laboratory" xml:id="struct-160" status="OLD">
<orgName>Laboratoire Lorrain de Recherche en Informatique et ses Applications</orgName>
<orgName type="acronym">LORIA</orgName>
<desc>
<address>
<addrLine>Campus Scientifique BP 239 54506 Vandoeuvre-lès-Nancy Cedex</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.loria.fr</ref>
</desc>
<listRelation>
<relation name="UMR7503" active="#struct-441569" type="direct"></relation>
<relation active="#struct-300009" type="direct"></relation>
<relation active="#struct-300291" type="direct"></relation>
<relation active="#struct-300292" type="direct"></relation>
<relation active="#struct-300293" type="direct"></relation>
</listRelation>
</org>
</tutelle>
<tutelle name="UMR7503" active="#struct-441569" type="indirect">
<org type="institution" xml:id="struct-441569" status="VALID">
<idno type="ISNI">0000000122597504</idno>
<idno type="IdRef">02636817X</idno>
<orgName>Centre National de la Recherche Scientifique</orgName>
<orgName type="acronym">CNRS</orgName>
<date type="start">1939-10-19</date>
<desc>
<address>
<country key="FR"></country>
</address>
<ref type="url">http://www.cnrs.fr/</ref>
</desc>
</org>
</tutelle>
<tutelle active="#struct-300009" type="indirect">
<org type="institution" xml:id="struct-300009" status="VALID">
<orgName>Institut National de Recherche en Informatique et en Automatique</orgName>
<orgName type="acronym">Inria</orgName>
<desc>
<address>
<addrLine>Domaine de VoluceauRocquencourt - BP 10578153 Le Chesnay Cedex</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.inria.fr/en/</ref>
</desc>
</org>
</tutelle>
<tutelle active="#struct-300291" type="indirect">
<org type="institution" xml:id="struct-300291" status="OLD">
<orgName>Université Henri Poincaré - Nancy 1</orgName>
<orgName type="acronym">UHP</orgName>
<date type="end">2011-12-31</date>
<desc>
<address>
<addrLine>24-30 rue Lionnois, BP 60120, 54 003 NANCY cedex, France</addrLine>
<country key="FR"></country>
</address>
</desc>
</org>
</tutelle>
<tutelle active="#struct-300292" type="indirect">
<org type="institution" xml:id="struct-300292" status="OLD">
<orgName>Université Nancy 2</orgName>
<date type="end">2011-12-31</date>
<desc>
<address>
<addrLine>91 avenue de la Libération, BP 454, 54001 Nancy cedex</addrLine>
<country key="FR"></country>
</address>
</desc>
</org>
</tutelle>
<tutelle active="#struct-300293" type="indirect">
<org type="institution" xml:id="struct-300293" status="OLD">
<orgName>Institut National Polytechnique de Lorraine</orgName>
<orgName type="acronym">INPL</orgName>
<date type="end">2011-12-31</date>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
</org>
</tutelle>
</tutelles>
</hal:affiliation>
<country>France</country>
<placeName>
<settlement type="city">Nancy</settlement>
<region type="region" nuts="2">Grand Est</region>
<region type="old region" nuts="2">Lorraine (région)</region>
</placeName>
<orgName type="university">Université Nancy 2</orgName>
<orgName type="institution" wicri:auto="newGroup">Université de Lorraine</orgName>
<placeName>
<settlement type="city">Nancy</settlement>
<region type="region" nuts="2">Grand Est</region>
<region type="old region" nuts="2">Lorraine (région)</region>
</placeName>
<orgName type="university">Institut national polytechnique de Lorraine</orgName>
<orgName type="institution" wicri:auto="newGroup">Université de Lorraine</orgName>
</affiliation>
</author>
</titleStmt>
<publicationStmt>
<idno type="wicri:source">HAL</idno>
<idno type="RBID">Hal:inria-00098924</idno>
<idno type="halId">inria-00098924</idno>
<idno type="halUri">https://hal.inria.fr/inria-00098924</idno>
<idno type="url">https://hal.inria.fr/inria-00098924</idno>
<date when="1999">1999</date>
<idno type="wicri:Area/Hal/Corpus">004C76</idno>
<idno type="wicri:Area/Hal/Curation">004C76</idno>
<idno type="wicri:Area/Hal/Checkpoint">006540</idno>
<idno type="wicri:explorRef" wicri:stream="Hal" wicri:step="Checkpoint">006540</idno>
</publicationStmt>
<sourceDesc>
<biblStruct>
<analytic>
<title xml:lang="en">The retroconversion in Digital Libraries</title>
<author>
<name sortKey="Belaid, Abdel" sort="Belaid, Abdel" uniqKey="Belaid A" first="Abdel" last="Belaïd">Abdel Belaïd</name>
<affiliation wicri:level="1">
<hal:affiliation type="researchteam" xml:id="struct-2352" status="OLD">
<idno type="RNSR">200022116U</idno>
<orgName>Loria in the Society of Information</orgName>
<orgName type="acronym">LORIASI</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
<ref type="url">http://www.inria.fr/equipes/loriasi</ref>
</desc>
<listRelation>
<relation active="#struct-160" type="direct"></relation>
<relation name="UMR7503" active="#struct-441569" type="indirect"></relation>
<relation active="#struct-300009" type="indirect"></relation>
<relation active="#struct-300291" type="indirect"></relation>
<relation active="#struct-300292" type="indirect"></relation>
<relation active="#struct-300293" type="indirect"></relation>
</listRelation>
<tutelles>
<tutelle active="#struct-160" type="direct">
<org type="laboratory" xml:id="struct-160" status="OLD">
<orgName>Laboratoire Lorrain de Recherche en Informatique et ses Applications</orgName>
<orgName type="acronym">LORIA</orgName>
<desc>
<address>
<addrLine>Campus Scientifique BP 239 54506 Vandoeuvre-lès-Nancy Cedex</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.loria.fr</ref>
</desc>
<listRelation>
<relation name="UMR7503" active="#struct-441569" type="direct"></relation>
<relation active="#struct-300009" type="direct"></relation>
<relation active="#struct-300291" type="direct"></relation>
<relation active="#struct-300292" type="direct"></relation>
<relation active="#struct-300293" type="direct"></relation>
</listRelation>
</org>
</tutelle>
<tutelle name="UMR7503" active="#struct-441569" type="indirect">
<org type="institution" xml:id="struct-441569" status="VALID">
<idno type="ISNI">0000000122597504</idno>
<idno type="IdRef">02636817X</idno>
<orgName>Centre National de la Recherche Scientifique</orgName>
<orgName type="acronym">CNRS</orgName>
<date type="start">1939-10-19</date>
<desc>
<address>
<country key="FR"></country>
</address>
<ref type="url">http://www.cnrs.fr/</ref>
</desc>
</org>
</tutelle>
<tutelle active="#struct-300009" type="indirect">
<org type="institution" xml:id="struct-300009" status="VALID">
<orgName>Institut National de Recherche en Informatique et en Automatique</orgName>
<orgName type="acronym">Inria</orgName>
<desc>
<address>
<addrLine>Domaine de VoluceauRocquencourt - BP 10578153 Le Chesnay Cedex</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.inria.fr/en/</ref>
</desc>
</org>
</tutelle>
<tutelle active="#struct-300291" type="indirect">
<org type="institution" xml:id="struct-300291" status="OLD">
<orgName>Université Henri Poincaré - Nancy 1</orgName>
<orgName type="acronym">UHP</orgName>
<date type="end">2011-12-31</date>
<desc>
<address>
<addrLine>24-30 rue Lionnois, BP 60120, 54 003 NANCY cedex, France</addrLine>
<country key="FR"></country>
</address>
</desc>
</org>
</tutelle>
<tutelle active="#struct-300292" type="indirect">
<org type="institution" xml:id="struct-300292" status="OLD">
<orgName>Université Nancy 2</orgName>
<date type="end">2011-12-31</date>
<desc>
<address>
<addrLine>91 avenue de la Libération, BP 454, 54001 Nancy cedex</addrLine>
<country key="FR"></country>
</address>
</desc>
</org>
</tutelle>
<tutelle active="#struct-300293" type="indirect">
<org type="institution" xml:id="struct-300293" status="OLD">
<orgName>Institut National Polytechnique de Lorraine</orgName>
<orgName type="acronym">INPL</orgName>
<date type="end">2011-12-31</date>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
</org>
</tutelle>
</tutelles>
</hal:affiliation>
<country>France</country>
<placeName>
<settlement type="city">Nancy</settlement>
<region type="region" nuts="2">Grand Est</region>
<region type="old region" nuts="2">Lorraine (région)</region>
</placeName>
<orgName type="university">Université Nancy 2</orgName>
<orgName type="institution" wicri:auto="newGroup">Université de Lorraine</orgName>
<placeName>
<settlement type="city">Nancy</settlement>
<region type="region" nuts="2">Grand Est</region>
<region type="old region" nuts="2">Lorraine (région)</region>
</placeName>
<orgName type="university">Institut national polytechnique de Lorraine</orgName>
<orgName type="institution" wicri:auto="newGroup">Université de Lorraine</orgName>
</affiliation>
</author>
</analytic>
</biblStruct>
</sourceDesc>
</fileDesc>
<profileDesc>
<textClass></textClass>
</profileDesc>
</teiHeader>
<front>
<div type="abstract" xml:lang="fr">Ce travail s'inscrit dans le cadre du projet de bibliothèque virtuelle Calliope dont l'objectif est de permettre l'accès à la documentation scientifique physiquement stockée sur des sites distants. Calliope développe le concept de télé-photocopie, c'est-à-dire la numérisation à la demande d'articles scientifiques et leur impression à distance. La sélection des articles se fait à travers un serveur de tables des matières fournies sous forme électronique par une entité tierce. Aussi importante que soit cette base de données de tables des matières, de nombreux périodiques n'y figurent pas et ne peuvent être intégrés à Calliope à moins de procéder à une ressaisie manuelle toujours longue et fastidieuse. C'est le cas des actes de congrès dont les tables de matières sont souvent longues et leur structure non normalisée. La solution retenue a été de disposer d'outils adaptés à la reconnaissance de ces tables des matières. Le travail proposé consiste à numériser les tables de matières et à reconnaître automatiquement leurs articles. Le résultat est affiché sous forme d'un fichier HTML permettant, en cliquant sur les articles, d'ouvrir ceux-ci à la page indiquée. La méthode de reconnaissance utilisée est basée sur un étiquetage morphologique du texte (reconnu par OCR) et sa réduction en formes canoniques représentant les champs des articles. La méthode d'étiquetage, de type partie du discours, permet de corriger les mots mal reconnus par OCR et de les intégrer dans leur voisinage par analyse du contexte. La méthode s'adapte automatiquement à chaque nouvelle structure, évitant ainsi l'emploi d'un modèle a priori figé, et l'ouvrant de fait à l'analyse de structures variables comme celles des actes de congrès. Le but de cet article est de décrire le principe de cette méthode d'étiquetage et de montrer à travers des exemples, les différentes étapes de marquage, de correction et de reconnaissance de tables de matières.</div>
</front>
</TEI>
<hal api="V3">
<titleStmt>
<title xml:lang="en">The retroconversion in Digital Libraries</title>
<author role="aut">
<persName>
<forename type="first">Abdel</forename>
<surname>Belaïd</surname>
</persName>
<email></email>
<idno type="halauthor">129619</idno>
<orgName ref="#struct-441569"></orgName>
<affiliation ref="#struct-2352"></affiliation>
</author>
<editor role="depositor">
<persName>
<forename>Publications</forename>
<surname>Loria</surname>
</persName>
<email>publications@loria.fr</email>
</editor>
</titleStmt>
<editionStmt>
<edition n="v1" type="current">
<date type="whenSubmitted">2006-09-26 08:40:22</date>
<date type="whenModified">2016-05-19 01:04:46</date>
<date type="whenReleased">2006-09-28 15:22:45</date>
<date type="whenProduced">1999</date>
</edition>
<respStmt>
<resp>contributor</resp>
<name key="108626">
<persName>
<forename>Publications</forename>
<surname>Loria</surname>
</persName>
<email>publications@loria.fr</email>
</name>
</respStmt>
</editionStmt>
<publicationStmt>
<distributor>CCSD</distributor>
<idno type="halId">inria-00098924</idno>
<idno type="halUri">https://hal.inria.fr/inria-00098924</idno>
<idno type="halBibtex">belaid:inria-00098924</idno>
<idno type="halRefHtml">Conférence internationale sur les Sciences de l'information - CISI'1999, 1999, Tunis, Tunisia. 1999</idno>
<idno type="halRef">Conférence internationale sur les Sciences de l'information - CISI'1999, 1999, Tunis, Tunisia. 1999</idno>
</publicationStmt>
<seriesStmt>
<idno type="stamp" n="INRIA">INRIA - Institut National de Recherche en Informatique et en Automatique</idno>
<idno type="stamp" n="CNRS">CNRS - Centre national de la recherche scientifique</idno>
<idno type="stamp" n="INPL">Institut National Polytechnique de Lorraine</idno>
<idno type="stamp" n="LORIA2">Publications du LORIA</idno>
<idno type="stamp" n="LABO-LORIA-SET" p="LORIA">LABO-LORIA-SET</idno>
<idno type="stamp" n="LORIA">LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications</idno>
<idno type="stamp" n="UNIV-LORRAINE">Université de Lorraine</idno>
</seriesStmt>
<notesStmt>
<note type="commentary">Colloque sur invitation.</note>
<note type="audience" n="2">International</note>
<note type="invited" n="1">Yes</note>
<note type="popular" n="0">No</note>
<note type="peer" n="1">Yes</note>
<note type="proceedings" n="1">Yes</note>
</notesStmt>
<sourceDesc>
<biblStruct>
<analytic>
<title xml:lang="en">The retroconversion in Digital Libraries</title>
<author role="aut">
<persName>
<forename type="first">Abdel</forename>
<surname>Belaïd</surname>
</persName>
<idno type="halAuthorId">129619</idno>
<orgName ref="#struct-441569"></orgName>
<affiliation ref="#struct-2352"></affiliation>
</author>
</analytic>
<monogr>
<idno type="localRef">99-R-445 || belaid99c</idno>
<meeting>
<title>Conférence internationale sur les Sciences de l'information - CISI'1999</title>
<date type="start">1999</date>
<settlement>Tunis</settlement>
<country key="TN">Tunisia</country>
</meeting>
<imprint>
<date type="datePub">1999</date>
</imprint>
</monogr>
</biblStruct>
</sourceDesc>
<profileDesc>
<langUsage>
<language ident="en">English</language>
</langUsage>
<textClass>
<classCode scheme="halDomain" n="info.info-oh">Computer Science [cs]/Other [cs.OH]</classCode>
<classCode scheme="halTypology" n="COMM">Conference papers</classCode>
</textClass>
<abstract xml:lang="fr">Ce travail s'inscrit dans le cadre du projet de bibliothèque virtuelle Calliope dont l'objectif est de permettre l'accès à la documentation scientifique physiquement stockée sur des sites distants. Calliope développe le concept de télé-photocopie, c'est-à-dire la numérisation à la demande d'articles scientifiques et leur impression à distance. La sélection des articles se fait à travers un serveur de tables des matières fournies sous forme électronique par une entité tierce. Aussi importante que soit cette base de données de tables des matières, de nombreux périodiques n'y figurent pas et ne peuvent être intégrés à Calliope à moins de procéder à une ressaisie manuelle toujours longue et fastidieuse. C'est le cas des actes de congrès dont les tables de matières sont souvent longues et leur structure non normalisée. La solution retenue a été de disposer d'outils adaptés à la reconnaissance de ces tables des matières. Le travail proposé consiste à numériser les tables de matières et à reconnaître automatiquement leurs articles. Le résultat est affiché sous forme d'un fichier HTML permettant, en cliquant sur les articles, d'ouvrir ceux-ci à la page indiquée. La méthode de reconnaissance utilisée est basée sur un étiquetage morphologique du texte (reconnu par OCR) et sa réduction en formes canoniques représentant les champs des articles. La méthode d'étiquetage, de type partie du discours, permet de corriger les mots mal reconnus par OCR et de les intégrer dans leur voisinage par analyse du contexte. La méthode s'adapte automatiquement à chaque nouvelle structure, évitant ainsi l'emploi d'un modèle a priori figé, et l'ouvrant de fait à l'analyse de structures variables comme celles des actes de congrès. Le but de cet article est de décrire le principe de cette méthode d'étiquetage et de montrer à travers des exemples, les différentes étapes de marquage, de correction et de reconnaissance de tables de matières.</abstract>
</profileDesc>
</hal>
</record>

Pour manipuler ce document sous Unix (Dilib)

EXPLOR_STEP=$WICRI_ROOT/Wicri/Lorraine/explor/InforLorV4/Data/Hal/Checkpoint
HfdSelect -h $EXPLOR_STEP/biblio.hfd -nk 006540 | SxmlIndent | more

Ou

HfdSelect -h $EXPLOR_AREA/Data/Hal/Checkpoint/biblio.hfd -nk 006540 | SxmlIndent | more

Pour mettre un lien sur cette page dans le réseau Wicri

{{Explor lien
   |wiki=    Wicri/Lorraine
   |area=    InforLorV4
   |flux=    Hal
   |étape=   Checkpoint
   |type=    RBID
   |clé=     Hal:inria-00098924
   |texte=   The retroconversion in Digital Libraries
}}

Wicri

This area was generated with Dilib version V0.6.33.
Data generation: Mon Jun 10 21:56:28 2019. Site generation: Fri Feb 25 15:29:27 2022