Serveur d'exploration sur la recherche en informatique en Lorraine

Attention, ce site est en cours de développement !
Attention, site généré par des moyens informatiques à partir de corpus bruts.
Les informations ne sont donc pas validées.

Classification et extension automatique d’annotations d’images en utilisant un réseau Bayésien

Identifieur interne : 001492 ( Istex/Corpus ); précédent : 001491; suivant : 001493

Classification et extension automatique d’annotations d’images en utilisant un réseau Bayésien

Auteurs : Sabine Barrat ; Salvatore Tabbone

Source :

RBID : ISTEX:5A1B1DD7760D752A6EF4596901BA8FFBB4DC6C57

Abstract

Nous proposons, dans cet article, d'améliorer la classification d'images, en utilisant une approche de classification visuo-textuelle (à base de caractéristiques visuelles et textuelles), et en étendant automatiquement les annotations existantes aux images non annotées. L'approche proposée est dérivée de la théorie des modèles graphiques probabilistes et dédiée aux deux tâches de classification et d'annotation d'images partiellement annotées. Nous considérons une image comme partiellement annotée si elle ne possède pas le nombre maximal de mots-clés disponibles par image dans la vérité-terrain. Grâce à leur capacité à fonctionner en présence de données manquantes, un modèle graphique probabiliste a été proposé pour représenter les images partiellement annotées. Ce modèle est basé sur un mélange de lois multinomiales et de mélanges de Gaussiennes. La distribution des caractéristiques visuelles est estimée par des mélanges de Gaussiennes et celle des mots-clés par une loi multinomiale. Par conséquent, le modèle proposé ne requiert pas que toutes les images soient annotées : lorsqu'une image est partiellement annotées, les mots-clés manquants sont considérés comme des valeurs manquantes. De plus, notre modèle peut automatiquement étendre des annotations existantes à des images partiellement annotées, sans l'intervention de l'utilisateur. L'incertitude autour de l'association entre un ensemble de mots-clés et une image est capturée par une distribution de probabilité jointe (définie par un mélange de lois multinomiales et de mélanges de Gaussiennes) sur le dictionnaire de mots-clés et les caractéristiques visuelles extraites de notre collection d'images. De plus, de façon à résoudre le problème de dimensionnalité dû à la grande dimension des caractéristiques visuelles, nous avons adapté une méthode de sélection de variables. Les résultats de la classification visuo-textuelle, obtenus sur une base d'images collectées sur Internet, partiellement et manuellement annotée, montrent une amélioration de 32.3 % en terme de taux de reconnaissance, par rapport à la classification basée sur l'information visuelle uniquement. Par ailleurs, l'extension automatique d'annotations, avec notre modèle, sur des images avec mots-clés manquants, améliore encore la classification visuo-textuelle de 6.8 %. Enfin, la méthode proposée s'est montrée compétitive avec des classificateurs de l'état de l'art.
The rapid growth of Internet and multimedia information has shown a need in the development of multimedia information retrieval techniques, especially in image retrieval. We can distinguish two main trends. The first one, called “text-based image retrieval”, consists in applying text-retrieval techniques from fully annotated images. The text describes high-level concepts but this technique presents some drawbacks: it requires a tedious work of annotation. Moreover, annotations could be ambiguous because two users can use different keywords to describe a same image. Consequently some approaches have proposed to useWordnet in order to reduce these potential ambiguities. The second approach, called “content-based image retrieval” is a younger field. These methods rely on visual features (color, texture or shape) computed automatically, and retrieve images using a similarity measure. However, the obtained performances are not really acceptable, except in the case of well-focused corpus. In order to improve the recognition, a solution consists in combining visual and semantic information. In many vision problems, instead of having fully annotated training data, it is easier to obtain just a subset of data with annotations, because it is less restrictive for the user. This paper deals with modeling, classifying, and annotating weakly annotated images. More precisely, we propose a scheme for image classification optimization, using a joint visual-text clustering approach and automatically extending image annotations. The proposed approach is derived from the probabilistic graphical model theory and dedicated for both tasks of weakly-annotated image classification and annotation. We consider an image as weakly annotated if the number of keywords defined for it is less than the maximum defined in the ground truth. Thanks to their ability to manage missing values, a probabilistic graphical model has been proposed to represent weakly annotated images. We propose a probabilistic graphical model based on a Gaussian-Mixtures and Multinomial mixture. The visual features are estimated by the Gaussian mixtures and the keywords by a Multinomial distribution. Therefore, the proposed model does not require that all images be annotated: when an image is weakly annotated, the missing keywords are considered as missing values. Besides, our model can automatically extend existing annotations to weakly-annotated images, without user intervention. The uncertainty around the association between a set of keywords and an image is tackled by a joint probability distribution (defined from Gaussian-Mixtures and Multinomial mixture) over the dictionary of keywords and the visual features extracted from our collection of images. Moreover, in order to solve the dimensionality problem due to the large dimensions of visual features, we have adapted a variable selection method. Results of visual-textual classification, reported on a database of images collected from the Web, partially and manually annotated, show an improvement of about 32.3% in terms of recognition rate against only visual information classification. Besides the automatic annotation extension with our model for images with missing keywords outperforms the visual-textual classification of about 6.8%. Finally the proposed method is experimentally competitive with the state-of-art classifiers.

Url:
DOI: 10.3166/ts.26.339-352

Links to Exploration step

ISTEX:5A1B1DD7760D752A6EF4596901BA8FFBB4DC6C57

Le document en format XML

<record>
<TEI wicri:istexFullTextTei="biblStruct">
<teiHeader>
<fileDesc>
<titleStmt>
<title xml:lang="fr">Classification et extension automatique d’annotations d’images en utilisant un réseau Bayésien</title>
<author>
<name sortKey="Barrat, Sabine" sort="Barrat, Sabine" uniqKey="Barrat S" first="Sabine" last="Barrat">Sabine Barrat</name>
<affiliation>
<mods:affiliation>LORIA-UMR7503, Université Nancy 2, BP 239, 54506 Vandœuvre-les-Nancy Cedex</mods:affiliation>
</affiliation>
<affiliation>
<mods:affiliation>E-mail: barrat@loria.fr</mods:affiliation>
</affiliation>
</author>
<author>
<name sortKey="Tabbone, Salvatore" sort="Tabbone, Salvatore" uniqKey="Tabbone S" first="Salvatore" last="Tabbone">Salvatore Tabbone</name>
<affiliation>
<mods:affiliation>LORIA-UMR7503, Université Nancy 2, BP 239, 54506 Vandœuvre-les-Nancy Cedex</mods:affiliation>
</affiliation>
<affiliation>
<mods:affiliation>E-mail: tabbone@loria.fr</mods:affiliation>
</affiliation>
</author>
</titleStmt>
<publicationStmt>
<idno type="wicri:source">ISTEX</idno>
<idno type="RBID">ISTEX:5A1B1DD7760D752A6EF4596901BA8FFBB4DC6C57</idno>
<date when="2009" year="2009">2009</date>
<idno type="doi">10.3166/ts.26.339-352</idno>
<idno type="url">https://api.istex.fr/ark:/67375/HT0-VJNGX2P7-X/fulltext.pdf</idno>
<idno type="wicri:Area/Istex/Corpus">001492</idno>
<idno type="wicri:explorRef" wicri:stream="Istex" wicri:step="Corpus" wicri:corpus="ISTEX">001492</idno>
</publicationStmt>
<sourceDesc>
<biblStruct>
<analytic>
<title level="a" type="main" xml:lang="fr">Classification et extension automatique d’annotations d’images en utilisant un réseau Bayésien</title>
<author>
<name sortKey="Barrat, Sabine" sort="Barrat, Sabine" uniqKey="Barrat S" first="Sabine" last="Barrat">Sabine Barrat</name>
<affiliation>
<mods:affiliation>LORIA-UMR7503, Université Nancy 2, BP 239, 54506 Vandœuvre-les-Nancy Cedex</mods:affiliation>
</affiliation>
<affiliation>
<mods:affiliation>E-mail: barrat@loria.fr</mods:affiliation>
</affiliation>
</author>
<author>
<name sortKey="Tabbone, Salvatore" sort="Tabbone, Salvatore" uniqKey="Tabbone S" first="Salvatore" last="Tabbone">Salvatore Tabbone</name>
<affiliation>
<mods:affiliation>LORIA-UMR7503, Université Nancy 2, BP 239, 54506 Vandœuvre-les-Nancy Cedex</mods:affiliation>
</affiliation>
<affiliation>
<mods:affiliation>E-mail: tabbone@loria.fr</mods:affiliation>
</affiliation>
</author>
</analytic>
<monogr></monogr>
<series>
<title level="j" type="main">Traitement du Signal</title>
<title level="j" type="abbrev">Trait. Signal</title>
<idno type="ISSN">0765-0019</idno>
<idno type="eISSN">1958-5608</idno>
<imprint>
<publisher>Lavoisier</publisher>
<date type="published" when="2009-09">2009</date>
<biblScope unit="vol">26</biblScope>
<biblScope unit="issue">5</biblScope>
<biblScope unit="page" from="339">339</biblScope>
<biblScope unit="page" to="352">352</biblScope>
<biblScope unit="page-count">14</biblScope>
<biblScope unit="ref-count">0</biblScope>
<biblScope unit="fig-count">0</biblScope>
<biblScope unit="table-count">0</biblScope>
</imprint>
<idno type="ISSN">0765-0019</idno>
</series>
</biblStruct>
</sourceDesc>
<seriesStmt>
<idno type="ISSN">0765-0019</idno>
</seriesStmt>
</fileDesc>
<profileDesc>
<textClass></textClass>
</profileDesc>
</teiHeader>
<front>
<div type="abstract" xml:lang="fr">Nous proposons, dans cet article, d'améliorer la classification d'images, en utilisant une approche de classification visuo-textuelle (à base de caractéristiques visuelles et textuelles), et en étendant automatiquement les annotations existantes aux images non annotées. L'approche proposée est dérivée de la théorie des modèles graphiques probabilistes et dédiée aux deux tâches de classification et d'annotation d'images partiellement annotées. Nous considérons une image comme partiellement annotée si elle ne possède pas le nombre maximal de mots-clés disponibles par image dans la vérité-terrain. Grâce à leur capacité à fonctionner en présence de données manquantes, un modèle graphique probabiliste a été proposé pour représenter les images partiellement annotées. Ce modèle est basé sur un mélange de lois multinomiales et de mélanges de Gaussiennes. La distribution des caractéristiques visuelles est estimée par des mélanges de Gaussiennes et celle des mots-clés par une loi multinomiale. Par conséquent, le modèle proposé ne requiert pas que toutes les images soient annotées : lorsqu'une image est partiellement annotées, les mots-clés manquants sont considérés comme des valeurs manquantes. De plus, notre modèle peut automatiquement étendre des annotations existantes à des images partiellement annotées, sans l'intervention de l'utilisateur. L'incertitude autour de l'association entre un ensemble de mots-clés et une image est capturée par une distribution de probabilité jointe (définie par un mélange de lois multinomiales et de mélanges de Gaussiennes) sur le dictionnaire de mots-clés et les caractéristiques visuelles extraites de notre collection d'images. De plus, de façon à résoudre le problème de dimensionnalité dû à la grande dimension des caractéristiques visuelles, nous avons adapté une méthode de sélection de variables. Les résultats de la classification visuo-textuelle, obtenus sur une base d'images collectées sur Internet, partiellement et manuellement annotée, montrent une amélioration de 32.3 % en terme de taux de reconnaissance, par rapport à la classification basée sur l'information visuelle uniquement. Par ailleurs, l'extension automatique d'annotations, avec notre modèle, sur des images avec mots-clés manquants, améliore encore la classification visuo-textuelle de 6.8 %. Enfin, la méthode proposée s'est montrée compétitive avec des classificateurs de l'état de l'art.</div>
<div type="abstract" xml:lang="en">The rapid growth of Internet and multimedia information has shown a need in the development of multimedia information retrieval techniques, especially in image retrieval. We can distinguish two main trends. The first one, called “text-based image retrieval”, consists in applying text-retrieval techniques from fully annotated images. The text describes high-level concepts but this technique presents some drawbacks: it requires a tedious work of annotation. Moreover, annotations could be ambiguous because two users can use different keywords to describe a same image. Consequently some approaches have proposed to useWordnet in order to reduce these potential ambiguities. The second approach, called “content-based image retrieval” is a younger field. These methods rely on visual features (color, texture or shape) computed automatically, and retrieve images using a similarity measure. However, the obtained performances are not really acceptable, except in the case of well-focused corpus. In order to improve the recognition, a solution consists in combining visual and semantic information. In many vision problems, instead of having fully annotated training data, it is easier to obtain just a subset of data with annotations, because it is less restrictive for the user. This paper deals with modeling, classifying, and annotating weakly annotated images. More precisely, we propose a scheme for image classification optimization, using a joint visual-text clustering approach and automatically extending image annotations. The proposed approach is derived from the probabilistic graphical model theory and dedicated for both tasks of weakly-annotated image classification and annotation. We consider an image as weakly annotated if the number of keywords defined for it is less than the maximum defined in the ground truth. Thanks to their ability to manage missing values, a probabilistic graphical model has been proposed to represent weakly annotated images. We propose a probabilistic graphical model based on a Gaussian-Mixtures and Multinomial mixture. The visual features are estimated by the Gaussian mixtures and the keywords by a Multinomial distribution. Therefore, the proposed model does not require that all images be annotated: when an image is weakly annotated, the missing keywords are considered as missing values. Besides, our model can automatically extend existing annotations to weakly-annotated images, without user intervention. The uncertainty around the association between a set of keywords and an image is tackled by a joint probability distribution (defined from Gaussian-Mixtures and Multinomial mixture) over the dictionary of keywords and the visual features extracted from our collection of images. Moreover, in order to solve the dimensionality problem due to the large dimensions of visual features, we have adapted a variable selection method. Results of visual-textual classification, reported on a database of images collected from the Web, partially and manually annotated, show an improvement of about 32.3% in terms of recognition rate against only visual information classification. Besides the automatic annotation extension with our model for images with missing keywords outperforms the visual-textual classification of about 6.8%. Finally the proposed method is experimentally competitive with the state-of-art classifiers.</div>
</front>
</TEI>
<istex>
<corpusName>lavoisier</corpusName>
<author>
<json:item>
<name>Sabine Barrat</name>
<affiliations>
<json:string>LORIA-UMR7503, Université Nancy 2, BP 239, 54506 Vandœuvre-les-Nancy Cedex</json:string>
<json:string>E-mail: barrat@loria.fr</json:string>
</affiliations>
</json:item>
<json:item>
<name>Salvatore Tabbone</name>
<affiliations>
<json:string>LORIA-UMR7503, Université Nancy 2, BP 239, 54506 Vandœuvre-les-Nancy Cedex</json:string>
<json:string>E-mail: tabbone@loria.fr</json:string>
</affiliations>
</json:item>
</author>
<subject>
<json:item>
<lang>
<json:string>fre</json:string>
</lang>
<value>Modèles graphiques probabilistes</value>
</json:item>
<json:item>
<lang>
<json:string>fre</json:string>
</lang>
<value>réseaux Bayésiens</value>
</json:item>
<json:item>
<lang>
<json:string>fre</json:string>
</lang>
<value>sélection de variables</value>
</json:item>
<json:item>
<lang>
<json:string>fre</json:string>
</lang>
<value>classification</value>
</json:item>
<json:item>
<lang>
<json:string>fre</json:string>
</lang>
<value>annotation automatique</value>
</json:item>
<json:item>
<lang>
<json:string>fre</json:string>
</lang>
<value>Probabilistic graphical models</value>
</json:item>
<json:item>
<lang>
<json:string>fre</json:string>
</lang>
<value>Bayesian networks</value>
</json:item>
<json:item>
<lang>
<json:string>fre</json:string>
</lang>
<value>variable selection</value>
</json:item>
<json:item>
<lang>
<json:string>fre</json:string>
</lang>
<value>image classification</value>
</json:item>
<json:item>
<lang>
<json:string>fre</json:string>
</lang>
<value>image annotation</value>
</json:item>
</subject>
<arkIstex>ark:/67375/HT0-VJNGX2P7-X</arkIstex>
<language>
<json:string>fre</json:string>
</language>
<originalGenre>
<json:string>research-article</json:string>
</originalGenre>
<abstract>Nous proposons, dans cet article, d'améliorer la classification d'images, en utilisant une approche de classification visuo-textuelle (à base de caractéristiques visuelles et textuelles), et en étendant automatiquement les annotations existantes aux images non annotées. L'approche proposée est dérivée de la théorie des modèles graphiques probabilistes et dédiée aux deux tâches de classification et d'annotation d'images partiellement annotées. Nous considérons une image comme partiellement annotée si elle ne possède pas le nombre maximal de mots-clés disponibles par image dans la vérité-terrain. Grâce à leur capacité à fonctionner en présence de données manquantes, un modèle graphique probabiliste a été proposé pour représenter les images partiellement annotées. Ce modèle est basé sur un mélange de lois multinomiales et de mélanges de Gaussiennes. La distribution des caractéristiques visuelles est estimée par des mélanges de Gaussiennes et celle des mots-clés par une loi multinomiale. Par conséquent, le modèle proposé ne requiert pas que toutes les images soient annotées : lorsqu'une image est partiellement annotées, les mots-clés manquants sont considérés comme des valeurs manquantes. De plus, notre modèle peut automatiquement étendre des annotations existantes à des images partiellement annotées, sans l'intervention de l'utilisateur. L'incertitude autour de l'association entre un ensemble de mots-clés et une image est capturée par une distribution de probabilité jointe (définie par un mélange de lois multinomiales et de mélanges de Gaussiennes) sur le dictionnaire de mots-clés et les caractéristiques visuelles extraites de notre collection d'images. De plus, de façon à résoudre le problème de dimensionnalité dû à la grande dimension des caractéristiques visuelles, nous avons adapté une méthode de sélection de variables. Les résultats de la classification visuo-textuelle, obtenus sur une base d'images collectées sur Internet, partiellement et manuellement annotée, montrent une amélioration de 32.3 % en terme de taux de reconnaissance, par rapport à la classification basée sur l'information visuelle uniquement. Par ailleurs, l'extension automatique d'annotations, avec notre modèle, sur des images avec mots-clés manquants, améliore encore la classification visuo-textuelle de 6.8 %. Enfin, la méthode proposée s'est montrée compétitive avec des classificateurs de l'état de l'art.</abstract>
<qualityIndicators>
<score>10</score>
<pdfWordCount>9609</pdfWordCount>
<pdfCharCount>59110</pdfCharCount>
<pdfVersion>1.3</pdfVersion>
<pdfPageCount>14</pdfPageCount>
<pdfPageSize>595 x 842 pts (A4)</pdfPageSize>
<refBibsNative>false</refBibsNative>
<abstractWordCount>336</abstractWordCount>
<abstractCharCount>2418</abstractCharCount>
<keywordCount>10</keywordCount>
</qualityIndicators>
<title>Classification et extension automatique d’annotations d’images en utilisant un réseau Bayésien</title>
<genre>
<json:string>research-article</json:string>
</genre>
<host>
<title>Traitement du Signal</title>
<language>
<json:string>unknown</json:string>
</language>
<issn>
<json:string>0765-0019</json:string>
</issn>
<eissn>
<json:string>1958-5608</json:string>
</eissn>
<publisherId>
<json:string>ts</json:string>
</publisherId>
<volume>26</volume>
<issue>5</issue>
<pages>
<first>339</first>
<last>352</last>
<total>14</total>
</pages>
<genre>
<json:string>journal</json:string>
</genre>
</host>
<ark>
<json:string>ark:/67375/HT0-VJNGX2P7-X</json:string>
</ark>
<publicationDate>2009</publicationDate>
<copyrightDate>2009</copyrightDate>
<doi>
<json:string>10.3166/ts.26.339-352</json:string>
</doi>
<id>5A1B1DD7760D752A6EF4596901BA8FFBB4DC6C57</id>
<score>1</score>
<fulltext>
<json:item>
<extension>pdf</extension>
<original>true</original>
<mimetype>application/pdf</mimetype>
<uri>https://api.istex.fr/ark:/67375/HT0-VJNGX2P7-X/fulltext.pdf</uri>
</json:item>
<json:item>
<extension>zip</extension>
<original>false</original>
<mimetype>application/zip</mimetype>
<uri>https://api.istex.fr/ark:/67375/HT0-VJNGX2P7-X/bundle.zip</uri>
</json:item>
<istex:fulltextTEI uri="https://api.istex.fr/ark:/67375/HT0-VJNGX2P7-X/fulltext.tei">
<teiHeader>
<fileDesc>
<titleStmt>
<title level="a" type="main">Classification et extension automatique d’annotations d’images en utilisant un réseau Bayésien</title>
<respStmt>
<resp>Références bibliographiques récupérées via GROBID</resp>
<name resp="ISTEX-API">ISTEX-API (INIST-CNRS)</name>
</respStmt>
</titleStmt>
<publicationStmt>
<authority>ISTEX</authority>
<publisher>Lavoisier</publisher>
<availability>
<licence>© Lavoisier SAS 2009</licence>
<p>Lavoisier SAS</p>
</availability>
<date type="published" when="2009-09">2009</date>
<date type="Copyright" when="2009">2009</date>
</publicationStmt>
<notesStmt>
<note type="content-type" source="research-article" scheme="https://content-type.data.istex.fr/ark:/67375/XTP-1JC4F85T-7">research-article</note>
<note type="publication-type" scheme="https://publication-type.data.istex.fr/ark:/67375/JMC-0GLKJH51-B">journal</note>
</notesStmt>
<sourceDesc>
<biblStruct type="article">
<analytic>
<title level="a" type="main" xml:lang="fr">Classification et extension automatique d’annotations d’images en utilisant un réseau Bayésien</title>
<title level="a" type="alt" xml:lang="en">Classification and automatic annotation extension of images using a Bayesian network</title>
<author xml:id="author-0000" role="corresp">
<persName>
<surname>Barrat</surname>
<forename type="first">Sabine</forename>
</persName>
<affiliation>
<address>
<orgName type="institution">LORIA-UMR7503, Université Nancy 2</orgName>
<name type="postbox">BP 239</name>
<postCode>54506</postCode>
<settlement>Vandœuvre-les-Nancy Cedex</settlement>
</address>
</affiliation>
<email>barrat@loria.fr</email>
<email>tabbone@loria.fr</email>
</author>
<author xml:id="author-0001" role="corresp">
<persName>
<surname>Tabbone</surname>
<forename type="first">Salvatore</forename>
</persName>
<affiliation>
<address>
<orgName type="institution">LORIA-UMR7503, Université Nancy 2</orgName>
<name type="postbox">BP 239</name>
<postCode>54506</postCode>
<settlement>Vandœuvre-les-Nancy Cedex</settlement>
</address>
</affiliation>
<email>barrat@loria.fr</email>
<email>tabbone@loria.fr</email>
</author>
<idno type="istex">5A1B1DD7760D752A6EF4596901BA8FFBB4DC6C57</idno>
<idno type="ark">ark:/67375/HT0-VJNGX2P7-X</idno>
<idno type="DOI">10.3166/ts.26.339-352</idno>
<idno type="publisher-id">ts265p339</idno>
</analytic>
<monogr>
<title level="j" type="main">Traitement du Signal</title>
<title level="j" type="abbrev">Trait. Signal</title>
<idno type="publisher-id">ts</idno>
<idno type="pISSN">0765-0019</idno>
<idno type="eISSN">1958-5608</idno>
<imprint>
<publisher>Lavoisier</publisher>
<date type="published" when="2009-09">2009</date>
<biblScope unit="vol">26</biblScope>
<biblScope unit="issue">5</biblScope>
<biblScope unit="page" from="339">339</biblScope>
<biblScope unit="page" to="352">352</biblScope>
<biblScope unit="page-count">14</biblScope>
<biblScope unit="ref-count">0</biblScope>
<biblScope unit="fig-count">0</biblScope>
<biblScope unit="table-count">0</biblScope>
</imprint>
</monogr>
</biblStruct>
</sourceDesc>
</fileDesc>
<profileDesc>
<abstract xml:lang="fr">
<p>Nous proposons, dans cet article, d'améliorer la classification d'images, en utilisant une approche de classification visuo-textuelle (à base de caractéristiques visuelles et textuelles), et en étendant automatiquement les annotations existantes aux images non annotées. L'approche proposée est dérivée de la théorie des modèles graphiques probabilistes et dédiée aux deux tâches de classification et d'annotation d'images partiellement annotées. Nous considérons une image comme
<hi rend="italic">partiellement annotée</hi>
si elle ne possède pas le nombre maximal de mots-clés disponibles par image dans la vérité-terrain. Grâce à leur capacité à fonctionner en présence de données manquantes, un modèle graphique probabiliste a été proposé pour représenter les images partiellement annotées. Ce modèle est basé sur un mélange de lois multinomiales et de mélanges de Gaussiennes. La distribution des caractéristiques visuelles est estimée par des mélanges de Gaussiennes et celle des mots-clés par une loi multinomiale. Par conséquent, le modèle proposé ne requiert pas que toutes les images soient annotées : lorsqu'une image est partiellement annotées, les mots-clés manquants sont considérés comme des valeurs manquantes. De plus, notre modèle peut automatiquement étendre des annotations existantes à des images partiellement annotées, sans l'intervention de l'utilisateur. L'incertitude autour de l'association entre un ensemble de mots-clés et une image est capturée par une distribution de probabilité jointe (définie par un mélange de lois multinomiales et de mélanges de Gaussiennes) sur le dictionnaire de mots-clés et les caractéristiques visuelles extraites de notre collection d'images. De plus, de façon à résoudre le problème de dimensionnalité dû à la grande dimension des caractéristiques visuelles, nous avons adapté une méthode de sélection de variables. Les résultats de la classification visuo-textuelle, obtenus sur une base d'images collectées sur Internet, partiellement et manuellement annotée, montrent une amélioration de 32.3 % en terme de taux de reconnaissance, par rapport à la classification basée sur l'information visuelle uniquement. Par ailleurs, l'extension automatique d'annotations, avec notre modèle, sur des images avec mots-clés manquants, améliore encore la classification visuo-textuelle de 6.8 %. Enfin, la méthode proposée s'est montrée compétitive avec des classificateurs de l'état de l'art.</p>
</abstract>
<abstract xml:lang="en">
<p>The rapid growth of Internet and multimedia information has shown a need in the development of multimedia information retrieval techniques, especially in image retrieval. We can distinguish two main trends. The first one, called “text-based image retrieval”, consists in applying text-retrieval techniques from fully annotated images. The text describes high-level concepts but this technique presents some drawbacks: it requires a tedious work of annotation. Moreover, annotations could be ambiguous because two users can use different keywords to describe a same image. Consequently some approaches have proposed to useWordnet in order to reduce these potential ambiguities. The second approach, called “content-based image retrieval” is a younger field. These methods rely on visual features (color, texture or shape) computed automatically, and retrieve images using a similarity measure. However, the obtained performances are not really acceptable, except in the case of well-focused corpus. In order to improve the recognition, a solution consists in combining visual and semantic information. In many vision problems, instead of having fully annotated training data, it is easier to obtain just a subset of data with annotations, because it is less restrictive for the user. This paper deals with modeling, classifying, and annotating weakly annotated images. More precisely, we propose a scheme for image classification optimization, using a joint visual-text clustering approach and automatically extending image annotations. The proposed approach is derived from the probabilistic graphical model theory and dedicated for both tasks of weakly-annotated image classification and annotation. We consider an image as weakly annotated if the number of keywords defined for it is less than the maximum defined in the ground truth. Thanks to their ability to manage missing values, a probabilistic graphical model has been proposed to represent weakly annotated images. We propose a probabilistic graphical model based on a Gaussian-Mixtures and Multinomial mixture. The visual features are estimated by the Gaussian mixtures and the keywords by a Multinomial distribution. Therefore, the proposed model does not require that all images be annotated: when an image is weakly annotated, the missing keywords are considered as missing values. Besides, our model can automatically extend existing annotations to weakly-annotated images, without user intervention. The uncertainty around the association between a set of keywords and an image is tackled by a joint probability distribution (defined from Gaussian-Mixtures and Multinomial mixture) over the dictionary of keywords and the visual features extracted from our collection of images. Moreover, in order to solve the dimensionality problem due to the large dimensions of visual features, we have adapted a variable selection method. Results of visual-textual classification, reported on a database of images collected from the Web, partially and manually annotated, show an improvement of about 32.3% in terms of recognition rate against only visual information classification. Besides the automatic annotation extension with our model for images with missing keywords outperforms the visual-textual classification of about 6.8%. Finally the proposed method is experimentally competitive with the state-of-art classifiers.</p>
</abstract>
<textClass ana="keyword">
<keywords xml:lang="fr">
<term>Modèles graphiques probabilistes</term>
<term>réseaux Bayésiens</term>
<term>sélection de variables</term>
<term>classification</term>
<term>annotation automatique</term>
</keywords>
</textClass>
<textClass ana="keyword">
<keywords xml:lang="en">
<term>Probabilistic graphical models</term>
<term>Bayesian networks</term>
<term>variable selection</term>
<term>image classification</term>
<term>image annotation</term>
</keywords>
</textClass>
<langUsage>
<language ident="fr"></language>
</langUsage>
</profileDesc>
<revisionDesc>
<change xml:id="refBibs-istex" who="#ISTEX-API" when="2019-01-15">References added</change>
</revisionDesc>
</teiHeader>
</istex:fulltextTEI>
<json:item>
<extension>txt</extension>
<original>false</original>
<mimetype>text/plain</mimetype>
<uri>https://api.istex.fr/ark:/67375/HT0-VJNGX2P7-X/fulltext.txt</uri>
</json:item>
</fulltext>
<metadata>
<istex:metadataXml wicri:clean="corpus lavoisier not found" wicri:toSee="no header">
<istex:xmlDeclaration>version="1.0" encoding="UTF-8"</istex:xmlDeclaration>
<istex:docType PUBLIC="-//EDP//DTD EDP Publishing JATS v1.0 20130606//EN" URI="JATS-edppublishing1.dtd" name="istex:docType"></istex:docType>
<istex:document>
<article article-type="research-article" dtd-version="1.0" xml:lang="fr">
<front>
<journal-meta>
<journal-id journal-id-type="publisher-id">ts</journal-id>
<journal-title-group>
<journal-title>Traitement du Signal</journal-title>
<journal-subtitle>Signal, Image, Parole</journal-subtitle>
<abbrev-journal-title abbrev-type="publisher">Trait. Signal</abbrev-journal-title>
</journal-title-group>
<issn pub-type="ppub">0765-0019</issn>
<issn pub-type="epub">1958-5608</issn>
<publisher>
<publisher-name>Lavoisier</publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id pub-id-type="doi">10.3166/ts.26.339-352</article-id>
<article-id pub-id-type="publisher-id">ts265p339</article-id>
<title-group>
<article-title xml:lang="fr">Classification et extension automatique d’annotations d’images en utilisant un réseau Bayésien</article-title>
<trans-title-group xml:lang="en">
<trans-title>Classification and automatic annotation extension of images using a Bayesian network</trans-title>
</trans-title-group>
</title-group>
<contrib-group content-type="authors">
<contrib contrib-type="author" corresp="yes">
<name>
<surname>Barrat</surname>
<given-names>Sabine</given-names>
</name>
<xref ref-type="aff" rid="AFF1">1</xref>
<xref ref-type="corresp" rid="FN1">*</xref>
</contrib>
<contrib contrib-type="author" corresp="yes">
<name>
<surname>Tabbone</surname>
<given-names>Salvatore</given-names>
</name>
<xref ref-type="aff" rid="AFF1">1</xref>
<xref ref-type="corresp" rid="FN2">**</xref>
</contrib>
</contrib-group>
<aff id="AFF1">
<addr-line>
<institution>LORIA-UMR7503, Université Nancy 2</institution>
,
<named-content content-type="postbox">BP 239</named-content>
,
<named-content content-type="postcode">54506</named-content>
<named-content content-type="city">Vandœuvre-les-Nancy Cedex</named-content>
</addr-line>
</aff>
<author-notes>
<corresp id="FN1">
<label>*</label>
<email>barrat@loria.fr</email>
</corresp>
<corresp id="FN2">
<label>**</label>
<email>tabbone@loria.fr</email>
</corresp>
</author-notes>
<pub-date date-type="pub" publication-format="print">
<month>09</month>
<year>2009</year>
</pub-date>
<volume>26</volume>
<issue>5</issue>
<fpage>339</fpage>
<lpage>352</lpage>
<permissions>
<copyright-statement>© Lavoisier SAS 2009</copyright-statement>
<copyright-year>2009</copyright-year>
<copyright-holder>Lavoisier SAS</copyright-holder>
</permissions>
<abstract xml:lang="fr">
<p>Nous proposons, dans cet article, d'améliorer la classification d'images, en utilisant une approche de classification visuo-textuelle (à base de caractéristiques visuelles et textuelles), et en étendant automatiquement les annotations existantes aux images non annotées. L'approche proposée est dérivée de la théorie des modèles graphiques probabilistes et dédiée aux deux tâches de classification et d'annotation d'images partiellement annotées. Nous considérons une image comme
<italic>partiellement annotée</italic>
si elle ne possède pas le nombre maximal de mots-clés disponibles par image dans la vérité-terrain. Grâce à leur capacité à fonctionner en présence de données manquantes, un modèle graphique probabiliste a été proposé pour représenter les images partiellement annotées. Ce modèle est basé sur un mélange de lois multinomiales et de mélanges de Gaussiennes. La distribution des caractéristiques visuelles est estimée par des mélanges de Gaussiennes et celle des mots-clés par une loi multinomiale. Par conséquent, le modèle proposé ne requiert pas que toutes les images soient annotées : lorsqu'une image est partiellement annotées, les mots-clés manquants sont considérés comme des valeurs manquantes. De plus, notre modèle peut automatiquement étendre des annotations existantes à des images partiellement annotées, sans l'intervention de l'utilisateur. L'incertitude autour de l'association entre un ensemble de mots-clés et une image est capturée par une distribution de probabilité jointe (définie par un mélange de lois multinomiales et de mélanges de Gaussiennes) sur le dictionnaire de mots-clés et les caractéristiques visuelles extraites de notre collection d'images. De plus, de façon à résoudre le problème de dimensionnalité dû à la grande dimension des caractéristiques visuelles, nous avons adapté une méthode de sélection de variables. Les résultats de la classification visuo-textuelle, obtenus sur une base d'images collectées sur Internet, partiellement et manuellement annotée, montrent une amélioration de 32.3 % en terme de taux de reconnaissance, par rapport à la classification basée sur l'information visuelle uniquement. Par ailleurs, l'extension automatique d'annotations, avec notre modèle, sur des images avec mots-clés manquants, améliore encore la classification visuo-textuelle de 6.8 %. Enfin, la méthode proposée s'est montrée compétitive avec des classificateurs de l'état de l'art.</p>
</abstract>
<trans-abstract xml:lang="en">
<p>The rapid growth of Internet and multimedia information has shown a need in the development of multimedia information retrieval techniques, especially in image retrieval. We can distinguish two main trends. The first one, called “text-based image retrieval”, consists in applying text-retrieval techniques from fully annotated images. The text describes high-level concepts but this technique presents some drawbacks: it requires a tedious work of annotation. Moreover, annotations could be ambiguous because two users can use different keywords to describe a same image. Consequently some approaches have proposed to useWordnet in order to reduce these potential ambiguities. The second approach, called “content-based image retrieval” is a younger field. These methods rely on visual features (color, texture or shape) computed automatically, and retrieve images using a similarity measure. However, the obtained performances are not really acceptable, except in the case of well-focused corpus. In order to improve the recognition, a solution consists in combining visual and semantic information. In many vision problems, instead of having fully annotated training data, it is easier to obtain just a subset of data with annotations, because it is less restrictive for the user. This paper deals with modeling, classifying, and annotating weakly annotated images. More precisely, we propose a scheme for image classification optimization, using a joint visual-text clustering approach and automatically extending image annotations. The proposed approach is derived from the probabilistic graphical model theory and dedicated for both tasks of weakly-annotated image classification and annotation. We consider an image as weakly annotated if the number of keywords defined for it is less than the maximum defined in the ground truth. Thanks to their ability to manage missing values, a probabilistic graphical model has been proposed to represent weakly annotated images. We propose a probabilistic graphical model based on a Gaussian-Mixtures and Multinomial mixture. The visual features are estimated by the Gaussian mixtures and the keywords by a Multinomial distribution. Therefore, the proposed model does not require that all images be annotated: when an image is weakly annotated, the missing keywords are considered as missing values. Besides, our model can automatically extend existing annotations to weakly-annotated images, without user intervention. The uncertainty around the association between a set of keywords and an image is tackled by a joint probability distribution (defined from Gaussian-Mixtures and Multinomial mixture) over the dictionary of keywords and the visual features extracted from our collection of images. Moreover, in order to solve the dimensionality problem due to the large dimensions of visual features, we have adapted a variable selection method. Results of visual-textual classification, reported on a database of images collected from the Web, partially and manually annotated, show an improvement of about 32.3% in terms of recognition rate against only visual information classification. Besides the automatic annotation extension with our model for images with missing keywords outperforms the visual-textual classification of about 6.8%. Finally the proposed method is experimentally competitive with the state-of-art classifiers.</p>
</trans-abstract>
<kwd-group xml:lang="fr">
<kwd>Modèles graphiques probabilistes</kwd>
<kwd>réseaux Bayésiens</kwd>
<kwd>sélection de variables</kwd>
<kwd>classification</kwd>
<kwd>annotation automatique</kwd>
</kwd-group>
<kwd-group xml:lang="en">
<kwd>Probabilistic graphical models</kwd>
<kwd>Bayesian networks</kwd>
<kwd>variable selection</kwd>
<kwd>image classification</kwd>
<kwd>image annotation</kwd>
</kwd-group>
<counts>
<fig-count count="0"></fig-count>
<table-count count="0"></table-count>
<equation-count count="0"></equation-count>
<ref-count count="0"></ref-count>
<page-count count="14"></page-count>
</counts>
<custom-meta-group>
<custom-meta>
<meta-name>idline</meta-name>
<meta-value>Traitement du Signal, volume 26 - n° 5 - 2009</meta-value>
</custom-meta>
<custom-meta>
<meta-name>cover_date</meta-name>
<meta-value>Septembre-Décembre 2009</meta-value>
</custom-meta>
<custom-meta>
<meta-name>first_month</meta-name>
<meta-value>09</meta-value>
</custom-meta>
<custom-meta>
<meta-name>last_month</meta-name>
<meta-value>12</meta-value>
</custom-meta>
<custom-meta>
<meta-name>first_year</meta-name>
<meta-value>2009</meta-value>
</custom-meta>
<custom-meta>
<meta-name>last_year</meta-name>
<meta-value>2009</meta-value>
</custom-meta>
</custom-meta-group>
</article-meta>
</front>
</article>
</istex:document>
</istex:metadataXml>
<mods version="3.6">
<titleInfo lang="fr">
<title>Classification et extension automatique d’annotations d’images en utilisant un réseau Bayésien</title>
</titleInfo>
<titleInfo type="alternative" lang="fr" contentType="CDATA">
<title>Classification et extension automatique d’annotations d’images en utilisant un réseau Bayésien</title>
</titleInfo>
<titleInfo type="translated" lang="en">
<title>Classification and automatic annotation extension of images using a Bayesian network</title>
</titleInfo>
<titleInfo type="translated" lang="en" contentType="CDATA">
<title>Classification and automatic annotation extension of images using a Bayesian network</title>
</titleInfo>
<name type="personal" displayLabel="corresp">
<namePart type="given">Sabine</namePart>
<namePart type="family">Barrat</namePart>
<affiliation>LORIA-UMR7503, Université Nancy 2, BP 239, 54506 Vandœuvre-les-Nancy Cedex</affiliation>
<affiliation>E-mail: barrat@loria.fr</affiliation>
<role>
<roleTerm type="text">author</roleTerm>
</role>
</name>
<name type="personal" displayLabel="corresp">
<namePart type="given">Salvatore</namePart>
<namePart type="family">Tabbone</namePart>
<affiliation>LORIA-UMR7503, Université Nancy 2, BP 239, 54506 Vandœuvre-les-Nancy Cedex</affiliation>
<affiliation>E-mail: tabbone@loria.fr</affiliation>
<role>
<roleTerm type="text">author</roleTerm>
</role>
</name>
<typeOfResource>text</typeOfResource>
<genre type="research-article" displayLabel="research-article" authority="ISTEX" authorityURI="https://content-type.data.istex.fr" valueURI="https://content-type.data.istex.fr/ark:/67375/XTP-1JC4F85T-7">research-article</genre>
<originInfo>
<publisher>Lavoisier</publisher>
<dateIssued encoding="w3cdtf">2009</dateIssued>
<copyrightDate encoding="w3cdtf">2009</copyrightDate>
</originInfo>
<language>
<languageTerm type="code" authority="iso639-2b">fre</languageTerm>
<languageTerm type="code" authority="rfc3066">fr</languageTerm>
</language>
<physicalDescription></physicalDescription>
<abstract lang="fr">Nous proposons, dans cet article, d'améliorer la classification d'images, en utilisant une approche de classification visuo-textuelle (à base de caractéristiques visuelles et textuelles), et en étendant automatiquement les annotations existantes aux images non annotées. L'approche proposée est dérivée de la théorie des modèles graphiques probabilistes et dédiée aux deux tâches de classification et d'annotation d'images partiellement annotées. Nous considérons une image comme partiellement annotée si elle ne possède pas le nombre maximal de mots-clés disponibles par image dans la vérité-terrain. Grâce à leur capacité à fonctionner en présence de données manquantes, un modèle graphique probabiliste a été proposé pour représenter les images partiellement annotées. Ce modèle est basé sur un mélange de lois multinomiales et de mélanges de Gaussiennes. La distribution des caractéristiques visuelles est estimée par des mélanges de Gaussiennes et celle des mots-clés par une loi multinomiale. Par conséquent, le modèle proposé ne requiert pas que toutes les images soient annotées : lorsqu'une image est partiellement annotées, les mots-clés manquants sont considérés comme des valeurs manquantes. De plus, notre modèle peut automatiquement étendre des annotations existantes à des images partiellement annotées, sans l'intervention de l'utilisateur. L'incertitude autour de l'association entre un ensemble de mots-clés et une image est capturée par une distribution de probabilité jointe (définie par un mélange de lois multinomiales et de mélanges de Gaussiennes) sur le dictionnaire de mots-clés et les caractéristiques visuelles extraites de notre collection d'images. De plus, de façon à résoudre le problème de dimensionnalité dû à la grande dimension des caractéristiques visuelles, nous avons adapté une méthode de sélection de variables. Les résultats de la classification visuo-textuelle, obtenus sur une base d'images collectées sur Internet, partiellement et manuellement annotée, montrent une amélioration de 32.3 % en terme de taux de reconnaissance, par rapport à la classification basée sur l'information visuelle uniquement. Par ailleurs, l'extension automatique d'annotations, avec notre modèle, sur des images avec mots-clés manquants, améliore encore la classification visuo-textuelle de 6.8 %. Enfin, la méthode proposée s'est montrée compétitive avec des classificateurs de l'état de l'art.</abstract>
<abstract lang="en">The rapid growth of Internet and multimedia information has shown a need in the development of multimedia information retrieval techniques, especially in image retrieval. We can distinguish two main trends. The first one, called “text-based image retrieval”, consists in applying text-retrieval techniques from fully annotated images. The text describes high-level concepts but this technique presents some drawbacks: it requires a tedious work of annotation. Moreover, annotations could be ambiguous because two users can use different keywords to describe a same image. Consequently some approaches have proposed to useWordnet in order to reduce these potential ambiguities. The second approach, called “content-based image retrieval” is a younger field. These methods rely on visual features (color, texture or shape) computed automatically, and retrieve images using a similarity measure. However, the obtained performances are not really acceptable, except in the case of well-focused corpus. In order to improve the recognition, a solution consists in combining visual and semantic information. In many vision problems, instead of having fully annotated training data, it is easier to obtain just a subset of data with annotations, because it is less restrictive for the user. This paper deals with modeling, classifying, and annotating weakly annotated images. More precisely, we propose a scheme for image classification optimization, using a joint visual-text clustering approach and automatically extending image annotations. The proposed approach is derived from the probabilistic graphical model theory and dedicated for both tasks of weakly-annotated image classification and annotation. We consider an image as weakly annotated if the number of keywords defined for it is less than the maximum defined in the ground truth. Thanks to their ability to manage missing values, a probabilistic graphical model has been proposed to represent weakly annotated images. We propose a probabilistic graphical model based on a Gaussian-Mixtures and Multinomial mixture. The visual features are estimated by the Gaussian mixtures and the keywords by a Multinomial distribution. Therefore, the proposed model does not require that all images be annotated: when an image is weakly annotated, the missing keywords are considered as missing values. Besides, our model can automatically extend existing annotations to weakly-annotated images, without user intervention. The uncertainty around the association between a set of keywords and an image is tackled by a joint probability distribution (defined from Gaussian-Mixtures and Multinomial mixture) over the dictionary of keywords and the visual features extracted from our collection of images. Moreover, in order to solve the dimensionality problem due to the large dimensions of visual features, we have adapted a variable selection method. Results of visual-textual classification, reported on a database of images collected from the Web, partially and manually annotated, show an improvement of about 32.3% in terms of recognition rate against only visual information classification. Besides the automatic annotation extension with our model for images with missing keywords outperforms the visual-textual classification of about 6.8%. Finally the proposed method is experimentally competitive with the state-of-art classifiers.</abstract>
<subject lang="fr">
<genre>keywords</genre>
<topic>Modèles graphiques probabilistes</topic>
<topic>réseaux Bayésiens</topic>
<topic>sélection de variables</topic>
<topic>classification</topic>
<topic>annotation automatique</topic>
</subject>
<subject lang="en">
<genre>keywords</genre>
<topic>Probabilistic graphical models</topic>
<topic>Bayesian networks</topic>
<topic>variable selection</topic>
<topic>image classification</topic>
<topic>image annotation</topic>
</subject>
<relatedItem type="host">
<titleInfo>
<title>Traitement du Signal</title>
</titleInfo>
<genre type="journal" authority="ISTEX" authorityURI="https://publication-type.data.istex.fr" valueURI="https://publication-type.data.istex.fr/ark:/67375/JMC-0GLKJH51-B">journal</genre>
<identifier type="ISSN">0765-0019</identifier>
<identifier type="eISSN">1958-5608</identifier>
<identifier type="PublisherID">ts</identifier>
<part>
<date>2009</date>
<detail type="volume">
<caption>vol.</caption>
<number>26</number>
</detail>
<detail type="issue">
<caption>no.</caption>
<number>5</number>
</detail>
<extent unit="pages">
<start>339</start>
<end>352</end>
<total>14</total>
</extent>
</part>
</relatedItem>
<identifier type="istex">5A1B1DD7760D752A6EF4596901BA8FFBB4DC6C57</identifier>
<identifier type="ark">ark:/67375/HT0-VJNGX2P7-X</identifier>
<identifier type="DOI">10.3166/ts.26.339-352</identifier>
<identifier type="publisher-ID">ts265p339</identifier>
<accessCondition type="use and reproduction" contentType="copyright">© Lavoisier SAS 2009</accessCondition>
<recordInfo>
<recordContentSource authority="ISTEX" authorityURI="https://loaded-corpus.data.istex.fr" valueURI="https://loaded-corpus.data.istex.fr/ark:/67375/XBH-4L897VLR-T">lavoisier</recordContentSource>
<recordOrigin>© Lavoisier SAS 2009</recordOrigin>
</recordInfo>
</mods>
<json:item>
<extension>json</extension>
<original>false</original>
<mimetype>application/json</mimetype>
<uri>https://api.istex.fr/ark:/67375/HT0-VJNGX2P7-X/record.json</uri>
</json:item>
</metadata>
<serie></serie>
</istex>
</record>

Pour manipuler ce document sous Unix (Dilib)

EXPLOR_STEP=$WICRI_ROOT/Wicri/Lorraine/explor/InforLorV4/Data/Istex/Corpus
HfdSelect -h $EXPLOR_STEP/biblio.hfd -nk 001492 | SxmlIndent | more

Ou

HfdSelect -h $EXPLOR_AREA/Data/Istex/Corpus/biblio.hfd -nk 001492 | SxmlIndent | more

Pour mettre un lien sur cette page dans le réseau Wicri

{{Explor lien
   |wiki=    Wicri/Lorraine
   |area=    InforLorV4
   |flux=    Istex
   |étape=   Corpus
   |type=    RBID
   |clé=     ISTEX:5A1B1DD7760D752A6EF4596901BA8FFBB4DC6C57
   |texte=   Classification et extension automatique d’annotations d’images en utilisant un réseau Bayésien
}}

Wicri

This area was generated with Dilib version V0.6.33.
Data generation: Mon Jun 10 21:56:28 2019. Site generation: Fri Feb 25 15:29:27 2022