Serveur d'exploration sur la visibilité du Havre

Attention, ce site est en cours de développement !
Attention, site généré par des moyens informatiques à partir de corpus bruts.
Les informations ne sont donc pas validées.

Segmentation logique d'images de journaux anciens

Identifieur interne : 000745 ( Hal/Corpus ); précédent : 000744; suivant : 000746

Segmentation logique d'images de journaux anciens

Auteurs : Thomas Palfray ; David Hébert ; Pierrick Tranouez ; Stéphane Nicolas ; Thierry Paquet

Source :

RBID : Hal:hal-00723925

Abstract

Les journaux anciens sont des documents riches et complexes, représentant un gisement d'informations pour le lecteur, ainsi qu'un défi pour la communauté des chercheurs en analyse de document. En effet leur structure complexe nécessite de mettre en place des techniques avancées afin de mieux valoriser leur valeur documentaire. Outre les multiples dégradations et déformations du support, ces documents possèdent une grande variabilité de mise en page. Nous tentons d'apporter une réponse à ces difficultés en présentant dans cet article une méthode destinée à la segmentation d'articles dans des journaux anciens. Cette tâche est accomplie à l'aide d'un modèle de Champs Aléatoires Conditionnels permettant d'étiqueter les zones d'intérêt avec un attribut logique. Ces éléments d'intérêt sont ensuite analysés afin de déterminer la structure et l'ordre logique des articles. La méthode repose sur la génération d'une grille de séparation inter articles que l'on applique sur le document de manière récursive, ce qui permet d'appréhender n'importe quel type de mise en page. Les résultats de cette méthode sont évalués sur une base d'images issues du fond du Journal de Rouen. Cette méthode est intégrée dans une chaîne de traitement capable de traiter de grandes quantités de documents et permettant de générer des objets numériques au format METS/ALTO décrivant le contenu physique et l'organisation logique de ceux-ci. Nous souhaitons ainsi ouvrir de nouvelles perspectives de parcours des corpus de journaux anciens.

Url:

Links to Exploration step

Hal:hal-00723925

Le document en format XML

<record>
<TEI>
<teiHeader>
<fileDesc>
<titleStmt>
<title xml:lang="fr">Segmentation logique d'images de journaux anciens</title>
<author>
<name sortKey="Palfray, Thomas" sort="Palfray, Thomas" uniqKey="Palfray T" first="Thomas" last="Palfray">Thomas Palfray</name>
<affiliation>
<hal:affiliation type="researchteam" xml:id="struct-389520" status="INCOMING">
<orgName>DOCAPP</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
<listRelation>
<relation active="#struct-23832" type="direct"></relation>
<relation active="#struct-300317" type="indirect"></relation>
<relation name="EA4108" active="#struct-300318" type="indirect"></relation>
<relation active="#struct-301288" type="indirect"></relation>
<relation active="#struct-301232" type="indirect"></relation>
</listRelation>
<tutelles>
<tutelle active="#struct-23832" type="direct">
<org type="laboratory" xml:id="struct-23832" status="VALID">
<orgName>Laboratoire d'Informatique, de Traitement de l'Information et des Systèmes</orgName>
<orgName type="acronym">LITIS</orgName>
<desc>
<address>
<addrLine>Avenue de l'Université UFR des Sciences et Techniques 76800 Saint-Etienne du Rouvray</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.litislab.eu</ref>
</desc>
<listRelation>
<relation active="#struct-300317" type="direct"></relation>
<relation name="EA4108" active="#struct-300318" type="direct"></relation>
<relation active="#struct-301288" type="direct"></relation>
<relation active="#struct-301232" type="indirect"></relation>
</listRelation>
</org>
</tutelle>
<tutelle active="#struct-300317" type="indirect">
<org type="institution" xml:id="struct-300317" status="VALID">
<orgName>Université du Havre</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
</org>
</tutelle>
<tutelle name="EA4108" active="#struct-300318" type="indirect">
<org type="institution" xml:id="struct-300318" status="VALID">
<orgName>Université de Rouen</orgName>
<desc>
<address>
<addrLine> 1 rue Thomas Becket - 76821 Mont-Saint-Aignan</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.univ-rouen.fr/</ref>
</desc>
</org>
</tutelle>
<tutelle active="#struct-301288" type="indirect">
<org type="department" xml:id="struct-301288" status="VALID">
<orgName>Institut National des Sciences Appliquées - Rouen</orgName>
<orgName type="acronym">INSA Rouen</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
<listRelation>
<relation active="#struct-301232" type="direct"></relation>
</listRelation>
</org>
</tutelle>
<tutelle active="#struct-301232" type="indirect">
<org type="institution" xml:id="struct-301232" status="VALID">
<orgName>Institut National des Sciences Appliquées</orgName>
<orgName type="acronym">INSA</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
</org>
</tutelle>
</tutelles>
</hal:affiliation>
</affiliation>
</author>
<author>
<name sortKey="Hebert, David" sort="Hebert, David" uniqKey="Hebert D" first="David" last="Hébert">David Hébert</name>
<affiliation>
<hal:affiliation type="laboratory" xml:id="struct-23832" status="VALID">
<orgName>Laboratoire d'Informatique, de Traitement de l'Information et des Systèmes</orgName>
<orgName type="acronym">LITIS</orgName>
<desc>
<address>
<addrLine>Avenue de l'Université UFR des Sciences et Techniques 76800 Saint-Etienne du Rouvray</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.litislab.eu</ref>
</desc>
<listRelation>
<relation active="#struct-300317" type="direct"></relation>
<relation name="EA4108" active="#struct-300318" type="direct"></relation>
<relation active="#struct-301288" type="direct"></relation>
<relation active="#struct-301232" type="indirect"></relation>
</listRelation>
<tutelles>
<tutelle active="#struct-300317" type="direct">
<org type="institution" xml:id="struct-300317" status="VALID">
<orgName>Université du Havre</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
</org>
</tutelle>
<tutelle name="EA4108" active="#struct-300318" type="direct">
<org type="institution" xml:id="struct-300318" status="VALID">
<orgName>Université de Rouen</orgName>
<desc>
<address>
<addrLine> 1 rue Thomas Becket - 76821 Mont-Saint-Aignan</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.univ-rouen.fr/</ref>
</desc>
</org>
</tutelle>
<tutelle active="#struct-301288" type="direct">
<org type="department" xml:id="struct-301288" status="VALID">
<orgName>Institut National des Sciences Appliquées - Rouen</orgName>
<orgName type="acronym">INSA Rouen</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
<listRelation>
<relation active="#struct-301232" type="direct"></relation>
</listRelation>
</org>
</tutelle>
<tutelle active="#struct-301232" type="indirect">
<org type="institution" xml:id="struct-301232" status="VALID">
<orgName>Institut National des Sciences Appliquées</orgName>
<orgName type="acronym">INSA</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
</org>
</tutelle>
</tutelles>
</hal:affiliation>
</affiliation>
</author>
<author>
<name sortKey="Tranouez, Pierrick" sort="Tranouez, Pierrick" uniqKey="Tranouez P" first="Pierrick" last="Tranouez">Pierrick Tranouez</name>
<affiliation>
<hal:affiliation type="researchteam" xml:id="struct-389520" status="INCOMING">
<orgName>DOCAPP</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
<listRelation>
<relation active="#struct-23832" type="direct"></relation>
<relation active="#struct-300317" type="indirect"></relation>
<relation name="EA4108" active="#struct-300318" type="indirect"></relation>
<relation active="#struct-301288" type="indirect"></relation>
<relation active="#struct-301232" type="indirect"></relation>
</listRelation>
<tutelles>
<tutelle active="#struct-23832" type="direct">
<org type="laboratory" xml:id="struct-23832" status="VALID">
<orgName>Laboratoire d'Informatique, de Traitement de l'Information et des Systèmes</orgName>
<orgName type="acronym">LITIS</orgName>
<desc>
<address>
<addrLine>Avenue de l'Université UFR des Sciences et Techniques 76800 Saint-Etienne du Rouvray</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.litislab.eu</ref>
</desc>
<listRelation>
<relation active="#struct-300317" type="direct"></relation>
<relation name="EA4108" active="#struct-300318" type="direct"></relation>
<relation active="#struct-301288" type="direct"></relation>
<relation active="#struct-301232" type="indirect"></relation>
</listRelation>
</org>
</tutelle>
<tutelle active="#struct-300317" type="indirect">
<org type="institution" xml:id="struct-300317" status="VALID">
<orgName>Université du Havre</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
</org>
</tutelle>
<tutelle name="EA4108" active="#struct-300318" type="indirect">
<org type="institution" xml:id="struct-300318" status="VALID">
<orgName>Université de Rouen</orgName>
<desc>
<address>
<addrLine> 1 rue Thomas Becket - 76821 Mont-Saint-Aignan</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.univ-rouen.fr/</ref>
</desc>
</org>
</tutelle>
<tutelle active="#struct-301288" type="indirect">
<org type="department" xml:id="struct-301288" status="VALID">
<orgName>Institut National des Sciences Appliquées - Rouen</orgName>
<orgName type="acronym">INSA Rouen</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
<listRelation>
<relation active="#struct-301232" type="direct"></relation>
</listRelation>
</org>
</tutelle>
<tutelle active="#struct-301232" type="indirect">
<org type="institution" xml:id="struct-301232" status="VALID">
<orgName>Institut National des Sciences Appliquées</orgName>
<orgName type="acronym">INSA</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
</org>
</tutelle>
</tutelles>
</hal:affiliation>
</affiliation>
</author>
<author>
<name sortKey="Nicolas, Stephane" sort="Nicolas, Stephane" uniqKey="Nicolas S" first="Stéphane" last="Nicolas">Stéphane Nicolas</name>
<affiliation>
<hal:affiliation type="laboratory" xml:id="struct-23832" status="VALID">
<orgName>Laboratoire d'Informatique, de Traitement de l'Information et des Systèmes</orgName>
<orgName type="acronym">LITIS</orgName>
<desc>
<address>
<addrLine>Avenue de l'Université UFR des Sciences et Techniques 76800 Saint-Etienne du Rouvray</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.litislab.eu</ref>
</desc>
<listRelation>
<relation active="#struct-300317" type="direct"></relation>
<relation name="EA4108" active="#struct-300318" type="direct"></relation>
<relation active="#struct-301288" type="direct"></relation>
<relation active="#struct-301232" type="indirect"></relation>
</listRelation>
<tutelles>
<tutelle active="#struct-300317" type="direct">
<org type="institution" xml:id="struct-300317" status="VALID">
<orgName>Université du Havre</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
</org>
</tutelle>
<tutelle name="EA4108" active="#struct-300318" type="direct">
<org type="institution" xml:id="struct-300318" status="VALID">
<orgName>Université de Rouen</orgName>
<desc>
<address>
<addrLine> 1 rue Thomas Becket - 76821 Mont-Saint-Aignan</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.univ-rouen.fr/</ref>
</desc>
</org>
</tutelle>
<tutelle active="#struct-301288" type="direct">
<org type="department" xml:id="struct-301288" status="VALID">
<orgName>Institut National des Sciences Appliquées - Rouen</orgName>
<orgName type="acronym">INSA Rouen</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
<listRelation>
<relation active="#struct-301232" type="direct"></relation>
</listRelation>
</org>
</tutelle>
<tutelle active="#struct-301232" type="indirect">
<org type="institution" xml:id="struct-301232" status="VALID">
<orgName>Institut National des Sciences Appliquées</orgName>
<orgName type="acronym">INSA</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
</org>
</tutelle>
</tutelles>
</hal:affiliation>
</affiliation>
</author>
<author>
<name sortKey="Paquet, Thierry" sort="Paquet, Thierry" uniqKey="Paquet T" first="Thierry" last="Paquet">Thierry Paquet</name>
<affiliation>
<hal:affiliation type="laboratory" xml:id="struct-23832" status="VALID">
<orgName>Laboratoire d'Informatique, de Traitement de l'Information et des Systèmes</orgName>
<orgName type="acronym">LITIS</orgName>
<desc>
<address>
<addrLine>Avenue de l'Université UFR des Sciences et Techniques 76800 Saint-Etienne du Rouvray</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.litislab.eu</ref>
</desc>
<listRelation>
<relation active="#struct-300317" type="direct"></relation>
<relation name="EA4108" active="#struct-300318" type="direct"></relation>
<relation active="#struct-301288" type="direct"></relation>
<relation active="#struct-301232" type="indirect"></relation>
</listRelation>
<tutelles>
<tutelle active="#struct-300317" type="direct">
<org type="institution" xml:id="struct-300317" status="VALID">
<orgName>Université du Havre</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
</org>
</tutelle>
<tutelle name="EA4108" active="#struct-300318" type="direct">
<org type="institution" xml:id="struct-300318" status="VALID">
<orgName>Université de Rouen</orgName>
<desc>
<address>
<addrLine> 1 rue Thomas Becket - 76821 Mont-Saint-Aignan</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.univ-rouen.fr/</ref>
</desc>
</org>
</tutelle>
<tutelle active="#struct-301288" type="direct">
<org type="department" xml:id="struct-301288" status="VALID">
<orgName>Institut National des Sciences Appliquées - Rouen</orgName>
<orgName type="acronym">INSA Rouen</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
<listRelation>
<relation active="#struct-301232" type="direct"></relation>
</listRelation>
</org>
</tutelle>
<tutelle active="#struct-301232" type="indirect">
<org type="institution" xml:id="struct-301232" status="VALID">
<orgName>Institut National des Sciences Appliquées</orgName>
<orgName type="acronym">INSA</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
</org>
</tutelle>
</tutelles>
</hal:affiliation>
</affiliation>
</author>
</titleStmt>
<publicationStmt>
<idno type="wicri:source">HAL</idno>
<idno type="RBID">Hal:hal-00723925</idno>
<idno type="halId">hal-00723925</idno>
<idno type="halUri">https://hal.archives-ouvertes.fr/hal-00723925</idno>
<idno type="url">https://hal.archives-ouvertes.fr/hal-00723925</idno>
<date when="2012-03-21">2012-03-21</date>
<idno type="wicri:Area/Hal/Corpus">000745</idno>
</publicationStmt>
<sourceDesc>
<biblStruct>
<analytic>
<title xml:lang="fr">Segmentation logique d'images de journaux anciens</title>
<author>
<name sortKey="Palfray, Thomas" sort="Palfray, Thomas" uniqKey="Palfray T" first="Thomas" last="Palfray">Thomas Palfray</name>
<affiliation>
<hal:affiliation type="researchteam" xml:id="struct-389520" status="INCOMING">
<orgName>DOCAPP</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
<listRelation>
<relation active="#struct-23832" type="direct"></relation>
<relation active="#struct-300317" type="indirect"></relation>
<relation name="EA4108" active="#struct-300318" type="indirect"></relation>
<relation active="#struct-301288" type="indirect"></relation>
<relation active="#struct-301232" type="indirect"></relation>
</listRelation>
<tutelles>
<tutelle active="#struct-23832" type="direct">
<org type="laboratory" xml:id="struct-23832" status="VALID">
<orgName>Laboratoire d'Informatique, de Traitement de l'Information et des Systèmes</orgName>
<orgName type="acronym">LITIS</orgName>
<desc>
<address>
<addrLine>Avenue de l'Université UFR des Sciences et Techniques 76800 Saint-Etienne du Rouvray</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.litislab.eu</ref>
</desc>
<listRelation>
<relation active="#struct-300317" type="direct"></relation>
<relation name="EA4108" active="#struct-300318" type="direct"></relation>
<relation active="#struct-301288" type="direct"></relation>
<relation active="#struct-301232" type="indirect"></relation>
</listRelation>
</org>
</tutelle>
<tutelle active="#struct-300317" type="indirect">
<org type="institution" xml:id="struct-300317" status="VALID">
<orgName>Université du Havre</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
</org>
</tutelle>
<tutelle name="EA4108" active="#struct-300318" type="indirect">
<org type="institution" xml:id="struct-300318" status="VALID">
<orgName>Université de Rouen</orgName>
<desc>
<address>
<addrLine> 1 rue Thomas Becket - 76821 Mont-Saint-Aignan</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.univ-rouen.fr/</ref>
</desc>
</org>
</tutelle>
<tutelle active="#struct-301288" type="indirect">
<org type="department" xml:id="struct-301288" status="VALID">
<orgName>Institut National des Sciences Appliquées - Rouen</orgName>
<orgName type="acronym">INSA Rouen</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
<listRelation>
<relation active="#struct-301232" type="direct"></relation>
</listRelation>
</org>
</tutelle>
<tutelle active="#struct-301232" type="indirect">
<org type="institution" xml:id="struct-301232" status="VALID">
<orgName>Institut National des Sciences Appliquées</orgName>
<orgName type="acronym">INSA</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
</org>
</tutelle>
</tutelles>
</hal:affiliation>
</affiliation>
</author>
<author>
<name sortKey="Hebert, David" sort="Hebert, David" uniqKey="Hebert D" first="David" last="Hébert">David Hébert</name>
<affiliation>
<hal:affiliation type="laboratory" xml:id="struct-23832" status="VALID">
<orgName>Laboratoire d'Informatique, de Traitement de l'Information et des Systèmes</orgName>
<orgName type="acronym">LITIS</orgName>
<desc>
<address>
<addrLine>Avenue de l'Université UFR des Sciences et Techniques 76800 Saint-Etienne du Rouvray</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.litislab.eu</ref>
</desc>
<listRelation>
<relation active="#struct-300317" type="direct"></relation>
<relation name="EA4108" active="#struct-300318" type="direct"></relation>
<relation active="#struct-301288" type="direct"></relation>
<relation active="#struct-301232" type="indirect"></relation>
</listRelation>
<tutelles>
<tutelle active="#struct-300317" type="direct">
<org type="institution" xml:id="struct-300317" status="VALID">
<orgName>Université du Havre</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
</org>
</tutelle>
<tutelle name="EA4108" active="#struct-300318" type="direct">
<org type="institution" xml:id="struct-300318" status="VALID">
<orgName>Université de Rouen</orgName>
<desc>
<address>
<addrLine> 1 rue Thomas Becket - 76821 Mont-Saint-Aignan</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.univ-rouen.fr/</ref>
</desc>
</org>
</tutelle>
<tutelle active="#struct-301288" type="direct">
<org type="department" xml:id="struct-301288" status="VALID">
<orgName>Institut National des Sciences Appliquées - Rouen</orgName>
<orgName type="acronym">INSA Rouen</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
<listRelation>
<relation active="#struct-301232" type="direct"></relation>
</listRelation>
</org>
</tutelle>
<tutelle active="#struct-301232" type="indirect">
<org type="institution" xml:id="struct-301232" status="VALID">
<orgName>Institut National des Sciences Appliquées</orgName>
<orgName type="acronym">INSA</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
</org>
</tutelle>
</tutelles>
</hal:affiliation>
</affiliation>
</author>
<author>
<name sortKey="Tranouez, Pierrick" sort="Tranouez, Pierrick" uniqKey="Tranouez P" first="Pierrick" last="Tranouez">Pierrick Tranouez</name>
<affiliation>
<hal:affiliation type="researchteam" xml:id="struct-389520" status="INCOMING">
<orgName>DOCAPP</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
<listRelation>
<relation active="#struct-23832" type="direct"></relation>
<relation active="#struct-300317" type="indirect"></relation>
<relation name="EA4108" active="#struct-300318" type="indirect"></relation>
<relation active="#struct-301288" type="indirect"></relation>
<relation active="#struct-301232" type="indirect"></relation>
</listRelation>
<tutelles>
<tutelle active="#struct-23832" type="direct">
<org type="laboratory" xml:id="struct-23832" status="VALID">
<orgName>Laboratoire d'Informatique, de Traitement de l'Information et des Systèmes</orgName>
<orgName type="acronym">LITIS</orgName>
<desc>
<address>
<addrLine>Avenue de l'Université UFR des Sciences et Techniques 76800 Saint-Etienne du Rouvray</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.litislab.eu</ref>
</desc>
<listRelation>
<relation active="#struct-300317" type="direct"></relation>
<relation name="EA4108" active="#struct-300318" type="direct"></relation>
<relation active="#struct-301288" type="direct"></relation>
<relation active="#struct-301232" type="indirect"></relation>
</listRelation>
</org>
</tutelle>
<tutelle active="#struct-300317" type="indirect">
<org type="institution" xml:id="struct-300317" status="VALID">
<orgName>Université du Havre</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
</org>
</tutelle>
<tutelle name="EA4108" active="#struct-300318" type="indirect">
<org type="institution" xml:id="struct-300318" status="VALID">
<orgName>Université de Rouen</orgName>
<desc>
<address>
<addrLine> 1 rue Thomas Becket - 76821 Mont-Saint-Aignan</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.univ-rouen.fr/</ref>
</desc>
</org>
</tutelle>
<tutelle active="#struct-301288" type="indirect">
<org type="department" xml:id="struct-301288" status="VALID">
<orgName>Institut National des Sciences Appliquées - Rouen</orgName>
<orgName type="acronym">INSA Rouen</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
<listRelation>
<relation active="#struct-301232" type="direct"></relation>
</listRelation>
</org>
</tutelle>
<tutelle active="#struct-301232" type="indirect">
<org type="institution" xml:id="struct-301232" status="VALID">
<orgName>Institut National des Sciences Appliquées</orgName>
<orgName type="acronym">INSA</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
</org>
</tutelle>
</tutelles>
</hal:affiliation>
</affiliation>
</author>
<author>
<name sortKey="Nicolas, Stephane" sort="Nicolas, Stephane" uniqKey="Nicolas S" first="Stéphane" last="Nicolas">Stéphane Nicolas</name>
<affiliation>
<hal:affiliation type="laboratory" xml:id="struct-23832" status="VALID">
<orgName>Laboratoire d'Informatique, de Traitement de l'Information et des Systèmes</orgName>
<orgName type="acronym">LITIS</orgName>
<desc>
<address>
<addrLine>Avenue de l'Université UFR des Sciences et Techniques 76800 Saint-Etienne du Rouvray</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.litislab.eu</ref>
</desc>
<listRelation>
<relation active="#struct-300317" type="direct"></relation>
<relation name="EA4108" active="#struct-300318" type="direct"></relation>
<relation active="#struct-301288" type="direct"></relation>
<relation active="#struct-301232" type="indirect"></relation>
</listRelation>
<tutelles>
<tutelle active="#struct-300317" type="direct">
<org type="institution" xml:id="struct-300317" status="VALID">
<orgName>Université du Havre</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
</org>
</tutelle>
<tutelle name="EA4108" active="#struct-300318" type="direct">
<org type="institution" xml:id="struct-300318" status="VALID">
<orgName>Université de Rouen</orgName>
<desc>
<address>
<addrLine> 1 rue Thomas Becket - 76821 Mont-Saint-Aignan</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.univ-rouen.fr/</ref>
</desc>
</org>
</tutelle>
<tutelle active="#struct-301288" type="direct">
<org type="department" xml:id="struct-301288" status="VALID">
<orgName>Institut National des Sciences Appliquées - Rouen</orgName>
<orgName type="acronym">INSA Rouen</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
<listRelation>
<relation active="#struct-301232" type="direct"></relation>
</listRelation>
</org>
</tutelle>
<tutelle active="#struct-301232" type="indirect">
<org type="institution" xml:id="struct-301232" status="VALID">
<orgName>Institut National des Sciences Appliquées</orgName>
<orgName type="acronym">INSA</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
</org>
</tutelle>
</tutelles>
</hal:affiliation>
</affiliation>
</author>
<author>
<name sortKey="Paquet, Thierry" sort="Paquet, Thierry" uniqKey="Paquet T" first="Thierry" last="Paquet">Thierry Paquet</name>
<affiliation>
<hal:affiliation type="laboratory" xml:id="struct-23832" status="VALID">
<orgName>Laboratoire d'Informatique, de Traitement de l'Information et des Systèmes</orgName>
<orgName type="acronym">LITIS</orgName>
<desc>
<address>
<addrLine>Avenue de l'Université UFR des Sciences et Techniques 76800 Saint-Etienne du Rouvray</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.litislab.eu</ref>
</desc>
<listRelation>
<relation active="#struct-300317" type="direct"></relation>
<relation name="EA4108" active="#struct-300318" type="direct"></relation>
<relation active="#struct-301288" type="direct"></relation>
<relation active="#struct-301232" type="indirect"></relation>
</listRelation>
<tutelles>
<tutelle active="#struct-300317" type="direct">
<org type="institution" xml:id="struct-300317" status="VALID">
<orgName>Université du Havre</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
</org>
</tutelle>
<tutelle name="EA4108" active="#struct-300318" type="direct">
<org type="institution" xml:id="struct-300318" status="VALID">
<orgName>Université de Rouen</orgName>
<desc>
<address>
<addrLine> 1 rue Thomas Becket - 76821 Mont-Saint-Aignan</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.univ-rouen.fr/</ref>
</desc>
</org>
</tutelle>
<tutelle active="#struct-301288" type="direct">
<org type="department" xml:id="struct-301288" status="VALID">
<orgName>Institut National des Sciences Appliquées - Rouen</orgName>
<orgName type="acronym">INSA Rouen</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
<listRelation>
<relation active="#struct-301232" type="direct"></relation>
</listRelation>
</org>
</tutelle>
<tutelle active="#struct-301232" type="indirect">
<org type="institution" xml:id="struct-301232" status="VALID">
<orgName>Institut National des Sciences Appliquées</orgName>
<orgName type="acronym">INSA</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
</org>
</tutelle>
</tutelles>
</hal:affiliation>
</affiliation>
</author>
</analytic>
</biblStruct>
</sourceDesc>
</fileDesc>
<profileDesc>
<textClass>
<keywords scheme="mix" xml:lang="it">
<term>article</term>
<term>conditional random fields</term>
<term>identification</term>
<term>logical segmentation</term>
<term>newspapers</term>
</keywords>
</textClass>
</profileDesc>
</teiHeader>
<front>
<div type="abstract" xml:lang="fr">Les journaux anciens sont des documents riches et complexes, représentant un gisement d'informations pour le lecteur, ainsi qu'un défi pour la communauté des chercheurs en analyse de document. En effet leur structure complexe nécessite de mettre en place des techniques avancées afin de mieux valoriser leur valeur documentaire. Outre les multiples dégradations et déformations du support, ces documents possèdent une grande variabilité de mise en page. Nous tentons d'apporter une réponse à ces difficultés en présentant dans cet article une méthode destinée à la segmentation d'articles dans des journaux anciens. Cette tâche est accomplie à l'aide d'un modèle de Champs Aléatoires Conditionnels permettant d'étiqueter les zones d'intérêt avec un attribut logique. Ces éléments d'intérêt sont ensuite analysés afin de déterminer la structure et l'ordre logique des articles. La méthode repose sur la génération d'une grille de séparation inter articles que l'on applique sur le document de manière récursive, ce qui permet d'appréhender n'importe quel type de mise en page. Les résultats de cette méthode sont évalués sur une base d'images issues du fond du Journal de Rouen. Cette méthode est intégrée dans une chaîne de traitement capable de traiter de grandes quantités de documents et permettant de générer des objets numériques au format METS/ALTO décrivant le contenu physique et l'organisation logique de ceux-ci. Nous souhaitons ainsi ouvrir de nouvelles perspectives de parcours des corpus de journaux anciens.</div>
</front>
</TEI>
<hal api="V3">
<titleStmt>
<title xml:lang="fr">Segmentation logique d'images de journaux anciens</title>
<author role="aut">
<persName>
<forename type="first">Thomas</forename>
<surname>Palfray</surname>
</persName>
<email>thomas.palfray@litislab.eu</email>
<ptr type="url" target="http://www.litislab.eu/Members/tpalfray/presentation-publique/"></ptr>
<idno type="halauthor">753066</idno>
<affiliation ref="#struct-389520"></affiliation>
</author>
<author role="aut">
<persName>
<forename type="first">David</forename>
<surname>Hébert</surname>
</persName>
<email>david.hebert@univ-rouen.fr</email>
<idno type="halauthor">694053</idno>
<affiliation ref="#struct-23832"></affiliation>
</author>
<author role="aut">
<persName>
<forename type="first">Pierrick</forename>
<surname>Tranouez</surname>
</persName>
<email>pierrick.tranouez@litislab.eu</email>
<idno type="idhal">pierrick-tranouez</idno>
<idno type="halauthor">236155</idno>
<affiliation ref="#struct-389520"></affiliation>
</author>
<author role="aut">
<persName>
<forename type="first">Stéphane</forename>
<surname>Nicolas</surname>
</persName>
<email>Stephane.Nicolas@univ-rouen.fr</email>
<idno type="halauthor">136089</idno>
<affiliation ref="#struct-23832"></affiliation>
</author>
<author role="aut">
<persName>
<forename type="first">Thierry</forename>
<surname>Paquet</surname>
</persName>
<email>thierry.paquet@univ-rouen.fr</email>
<idno type="halauthor">134993</idno>
<affiliation ref="#struct-23832"></affiliation>
</author>
<editor role="depositor">
<persName>
<forename>Thomas</forename>
<surname>Palfray</surname>
</persName>
<email>thomas.palfray@litislab.eu</email>
</editor>
<funder>FEDER</funder>
</titleStmt>
<editionStmt>
<edition n="v1" type="current">
<date type="whenSubmitted">2012-08-15 17:38:08</date>
<date type="whenWritten">2012-03-21</date>
<date type="whenModified">2014-10-28 17:58:25</date>
<date type="whenReleased">2012-08-16 11:00:17</date>
<date type="whenProduced">2012-03-21</date>
<date type="whenEndEmbargoed">2012-08-15</date>
<ref type="file" target="https://hal.archives-ouvertes.fr/hal-00723925/document">
<date notBefore="2012-08-15"></date>
</ref>
<ref type="file" subtype="author" n="1" target="https://hal.archives-ouvertes.fr/hal-00723925/file/cifed2012_submission_19.pdf">
<date notBefore="2012-08-15"></date>
</ref>
</edition>
<respStmt>
<resp>contributor</resp>
<name key="174924">
<persName>
<forename>Thomas</forename>
<surname>Palfray</surname>
</persName>
<email>thomas.palfray@litislab.eu</email>
</name>
</respStmt>
</editionStmt>
<publicationStmt>
<distributor>CCSD</distributor>
<idno type="halId">hal-00723925</idno>
<idno type="halUri">https://hal.archives-ouvertes.fr/hal-00723925</idno>
<idno type="halBibtex">palfray:hal-00723925</idno>
<idno type="halRefHtml">Conference Internationale Francophone sur l'Ecrit et le Document, Mar 2012, Bordeaux, France. pp.317, 2012</idno>
<idno type="halRef">Conference Internationale Francophone sur l'Ecrit et le Document, Mar 2012, Bordeaux, France. pp.317, 2012</idno>
</publicationStmt>
<seriesStmt>
<idno type="stamp" n="UNIV-LEHAVRE">Université du Havre</idno>
<idno type="stamp" n="UNIV-ROUEN">Université de Rouen</idno>
<idno type="stamp" n="LITIS">Laboratoire d'Informatique, de Traitement de l'Information et des Systèmes</idno>
</seriesStmt>
<notesStmt>
<note type="audience" n="2">International</note>
<note type="invited" n="0">No</note>
<note type="popular" n="0">No</note>
<note type="peer" n="1">Yes</note>
<note type="proceedings" n="1">Yes</note>
</notesStmt>
<sourceDesc>
<biblStruct>
<analytic>
<title xml:lang="fr">Segmentation logique d'images de journaux anciens</title>
<author role="aut">
<persName>
<forename type="first">Thomas</forename>
<surname>Palfray</surname>
</persName>
<email>thomas.palfray@litislab.eu</email>
<ptr type="url" target="http://www.litislab.eu/Members/tpalfray/presentation-publique/"></ptr>
<idno type="halAuthorId">753066</idno>
<affiliation ref="#struct-389520"></affiliation>
</author>
<author role="aut">
<persName>
<forename type="first">David</forename>
<surname>Hébert</surname>
</persName>
<email>david.hebert@univ-rouen.fr</email>
<idno type="halAuthorId">694053</idno>
<affiliation ref="#struct-23832"></affiliation>
</author>
<author role="aut">
<persName>
<forename type="first">Pierrick</forename>
<surname>Tranouez</surname>
</persName>
<email>pierrick.tranouez@litislab.eu</email>
<idno type="idHal">pierrick-tranouez</idno>
<idno type="halAuthorId">236155</idno>
<affiliation ref="#struct-389520"></affiliation>
</author>
<author role="aut">
<persName>
<forename type="first">Stéphane</forename>
<surname>Nicolas</surname>
</persName>
<email>Stephane.Nicolas@univ-rouen.fr</email>
<idno type="halAuthorId">136089</idno>
<affiliation ref="#struct-23832"></affiliation>
</author>
<author role="aut">
<persName>
<forename type="first">Thierry</forename>
<surname>Paquet</surname>
</persName>
<email>thierry.paquet@univ-rouen.fr</email>
<idno type="halAuthorId">134993</idno>
<affiliation ref="#struct-23832"></affiliation>
</author>
</analytic>
<monogr>
<title level="m">Actes du douzième colloque international francophone sur l'écrit et le document</title>
<meeting>
<title>Conference Internationale Francophone sur l'Ecrit et le Document</title>
<date type="start">2012-03-21</date>
<date type="end">2012-03-23</date>
<settlement>Bordeaux</settlement>
<country key="FR">France</country>
</meeting>
<imprint>
<biblScope unit="pp">317</biblScope>
<date type="datePub">2012-03-21</date>
</imprint>
</monogr>
</biblStruct>
</sourceDesc>
<profileDesc>
<langUsage>
<language ident="fr">French</language>
</langUsage>
<textClass>
<keywords scheme="author">
<term xml:lang="it">logical segmentation</term>
<term xml:lang="it">newspapers</term>
<term xml:lang="it">conditional random fields</term>
<term xml:lang="it">article</term>
<term xml:lang="it">identification</term>
</keywords>
<classCode scheme="halDomain" n="info.info-tt">Computer Science [cs]/Document and Text Processing</classCode>
<classCode scheme="halTypology" n="COMM">Conference papers</classCode>
</textClass>
<abstract xml:lang="fr">Les journaux anciens sont des documents riches et complexes, représentant un gisement d'informations pour le lecteur, ainsi qu'un défi pour la communauté des chercheurs en analyse de document. En effet leur structure complexe nécessite de mettre en place des techniques avancées afin de mieux valoriser leur valeur documentaire. Outre les multiples dégradations et déformations du support, ces documents possèdent une grande variabilité de mise en page. Nous tentons d'apporter une réponse à ces difficultés en présentant dans cet article une méthode destinée à la segmentation d'articles dans des journaux anciens. Cette tâche est accomplie à l'aide d'un modèle de Champs Aléatoires Conditionnels permettant d'étiqueter les zones d'intérêt avec un attribut logique. Ces éléments d'intérêt sont ensuite analysés afin de déterminer la structure et l'ordre logique des articles. La méthode repose sur la génération d'une grille de séparation inter articles que l'on applique sur le document de manière récursive, ce qui permet d'appréhender n'importe quel type de mise en page. Les résultats de cette méthode sont évalués sur une base d'images issues du fond du Journal de Rouen. Cette méthode est intégrée dans une chaîne de traitement capable de traiter de grandes quantités de documents et permettant de générer des objets numériques au format METS/ALTO décrivant le contenu physique et l'organisation logique de ceux-ci. Nous souhaitons ainsi ouvrir de nouvelles perspectives de parcours des corpus de journaux anciens.</abstract>
<particDesc>
<org type="consortium">http://www.plair.org</org>
</particDesc>
</profileDesc>
</hal>
</record>

Pour manipuler ce document sous Unix (Dilib)

EXPLOR_STEP=$WICRI_ROOT/Wicri/France/explor/LeHavreV1/Data/Hal/Corpus
HfdSelect -h $EXPLOR_STEP/biblio.hfd -nk 000745 | SxmlIndent | more

Ou

HfdSelect -h $EXPLOR_AREA/Data/Hal/Corpus/biblio.hfd -nk 000745 | SxmlIndent | more

Pour mettre un lien sur cette page dans le réseau Wicri

{{Explor lien
   |wiki=    Wicri/France
   |area=    LeHavreV1
   |flux=    Hal
   |étape=   Corpus
   |type=    RBID
   |clé=     Hal:hal-00723925
   |texte=   Segmentation logique d'images de journaux anciens
}}

Wicri

This area was generated with Dilib version V0.6.25.
Data generation: Sat Dec 3 14:37:02 2016. Site generation: Tue Mar 5 08:25:07 2024