Serveur d'exploration sur la recherche en informatique en Lorraine

Attention, ce site est en cours de développement !
Attention, site généré par des moyens informatiques à partir de corpus bruts.
Les informations ne sont donc pas validées.

Etude de différentes combinaisons de comportements adaptatives

Identifieur interne : 002602 ( Istex/Corpus ); précédent : 002601; suivant : 002603

Etude de différentes combinaisons de comportements adaptatives

Auteurs : Olivier Buffet ; Alain Dutech ; François Charpillet

Source :

RBID : ISTEX:A156B8F62286B1F9AECD520CDB0A39C1C26B49E5

Abstract

Cet article s’intéresse à la synthèse automatique d’agents en environnement incertain, se plaçant dans le cadre de l’apprentissage par renforcement, et plus précisément des processus de décision markoviens partiellement observables. Les agents (dénués de modèle de leur environnement et de mémoire à court terme) sont confrontés à de multiples motivations/objectifs simultanés, problématique qui s’inscrit dans le domaine de la sélection d’action. Nous proposons et évaluons différentes architectures de sélection d’action. Elles ont en commun de combiner de manière adaptative des comportements de base déjà connus, en apprenant les réglages de la combinaison afin de maximiser les gains de l’agent. La suite logique de ces travaux est d’automatiser la sélection et la conception des comportements de base eux-mêmes.
This article focusses on the automated synthesis of agents in an uncertain environment, working in the setting of Reinforcement Learning, and more precisely of Partially Observable Markov Decision Processes. The agents (with no model of their environment and no short-term memory) are facing multiple motivations/goals simultaneously, a problem related to the field of Action Selection. We propose and evaluate various Action Selection architectures. They all combine already known basic behaviors in an adaptive manner, by learning the tuning of the combination, so as to maximize the agent’s payoff. The logical continuation of this work is to automate the selection and design ofthe basic behaviors themselves.

Url:
DOI: 10.3166/ria.20.311-343

Links to Exploration step

ISTEX:A156B8F62286B1F9AECD520CDB0A39C1C26B49E5

Le document en format XML

<record>
<TEI wicri:istexFullTextTei="biblStruct">
<teiHeader>
<fileDesc>
<titleStmt>
<title xml:lang="fr">Etude de différentes combinaisons de comportements adaptatives</title>
<author>
<name sortKey="Buffet, Olivier" sort="Buffet, Olivier" uniqKey="Buffet O" first="Olivier" last="Buffet">Olivier Buffet</name>
<affiliation>
<mods:affiliation>LORIA - INRIA-Lorraine / Campus Scientifique - B.P. 239, 54506Vandœuvre-lès-Nancy /France</mods:affiliation>
</affiliation>
<affiliation>
<mods:affiliation>National ICT Australia & TheAutralian National University RSISE Building 115 - ANU/ Canberra ACT 0200 /Australie</mods:affiliation>
</affiliation>
<affiliation>
<mods:affiliation>E-mail: olivier.buffet@nicta.com.au</mods:affiliation>
</affiliation>
</author>
<author>
<name sortKey="Dutech, Alain" sort="Dutech, Alain" uniqKey="Dutech A" first="Alain" last="Dutech">Alain Dutech</name>
<affiliation>
<mods:affiliation>LORIA - INRIA-Lorraine / Campus Scientifique - B.P. 239, 54506Vandœuvre-lès-Nancy /France</mods:affiliation>
</affiliation>
<affiliation>
<mods:affiliation>E-mail: dutech@loria.fr</mods:affiliation>
</affiliation>
</author>
<author>
<name sortKey="Charpillet, Francois" sort="Charpillet, Francois" uniqKey="Charpillet F" first="François" last="Charpillet">François Charpillet</name>
<affiliation>
<mods:affiliation>LORIA - INRIA-Lorraine / Campus Scientifique - B.P. 239, 54506Vandœuvre-lès-Nancy /France</mods:affiliation>
</affiliation>
<affiliation>
<mods:affiliation>E-mail: charp@loria.fr</mods:affiliation>
</affiliation>
</author>
</titleStmt>
<publicationStmt>
<idno type="wicri:source">ISTEX</idno>
<idno type="RBID">ISTEX:A156B8F62286B1F9AECD520CDB0A39C1C26B49E5</idno>
<date when="2006" year="2006">2006</date>
<idno type="doi">10.3166/ria.20.311-343</idno>
<idno type="url">https://api.istex.fr/ark:/67375/HT0-1VTSMJVR-8/fulltext.pdf</idno>
<idno type="wicri:Area/Istex/Corpus">002602</idno>
<idno type="wicri:explorRef" wicri:stream="Istex" wicri:step="Corpus" wicri:corpus="ISTEX">002602</idno>
</publicationStmt>
<sourceDesc>
<biblStruct>
<analytic>
<title level="a" type="main" xml:lang="fr">Etude de différentes combinaisons de comportements adaptatives</title>
<author>
<name sortKey="Buffet, Olivier" sort="Buffet, Olivier" uniqKey="Buffet O" first="Olivier" last="Buffet">Olivier Buffet</name>
<affiliation>
<mods:affiliation>LORIA - INRIA-Lorraine / Campus Scientifique - B.P. 239, 54506Vandœuvre-lès-Nancy /France</mods:affiliation>
</affiliation>
<affiliation>
<mods:affiliation>National ICT Australia & TheAutralian National University RSISE Building 115 - ANU/ Canberra ACT 0200 /Australie</mods:affiliation>
</affiliation>
<affiliation>
<mods:affiliation>E-mail: olivier.buffet@nicta.com.au</mods:affiliation>
</affiliation>
</author>
<author>
<name sortKey="Dutech, Alain" sort="Dutech, Alain" uniqKey="Dutech A" first="Alain" last="Dutech">Alain Dutech</name>
<affiliation>
<mods:affiliation>LORIA - INRIA-Lorraine / Campus Scientifique - B.P. 239, 54506Vandœuvre-lès-Nancy /France</mods:affiliation>
</affiliation>
<affiliation>
<mods:affiliation>E-mail: dutech@loria.fr</mods:affiliation>
</affiliation>
</author>
<author>
<name sortKey="Charpillet, Francois" sort="Charpillet, Francois" uniqKey="Charpillet F" first="François" last="Charpillet">François Charpillet</name>
<affiliation>
<mods:affiliation>LORIA - INRIA-Lorraine / Campus Scientifique - B.P. 239, 54506Vandœuvre-lès-Nancy /France</mods:affiliation>
</affiliation>
<affiliation>
<mods:affiliation>E-mail: charp@loria.fr</mods:affiliation>
</affiliation>
</author>
</analytic>
<monogr></monogr>
<series>
<title level="j" type="main">Revue d'Intelligence Artificielle</title>
<title level="j" type="abbrev">Rev. Int. Artificielle</title>
<idno type="ISSN">0992-499X</idno>
<idno type="eISSN">1958-5748</idno>
<imprint>
<publisher>Lavoisier</publisher>
<date type="published" when="2006-03">2006</date>
<biblScope unit="vol">20</biblScope>
<biblScope unit="issue">2-3</biblScope>
<biblScope unit="page" from="311">311</biblScope>
<biblScope unit="page" to="343">343</biblScope>
<biblScope unit="page-count">34</biblScope>
<biblScope unit="ref-count">0</biblScope>
<biblScope unit="fig-count">0</biblScope>
<biblScope unit="table-count">0</biblScope>
</imprint>
<idno type="ISSN">0992-499X</idno>
</series>
</biblStruct>
</sourceDesc>
<seriesStmt>
<idno type="ISSN">0992-499X</idno>
</seriesStmt>
</fileDesc>
<profileDesc>
<textClass></textClass>
</profileDesc>
</teiHeader>
<front>
<div type="abstract" xml:lang="fr">Cet article s’intéresse à la synthèse automatique d’agents en environnement incertain, se plaçant dans le cadre de l’apprentissage par renforcement, et plus précisément des processus de décision markoviens partiellement observables. Les agents (dénués de modèle de leur environnement et de mémoire à court terme) sont confrontés à de multiples motivations/objectifs simultanés, problématique qui s’inscrit dans le domaine de la sélection d’action. Nous proposons et évaluons différentes architectures de sélection d’action. Elles ont en commun de combiner de manière adaptative des comportements de base déjà connus, en apprenant les réglages de la combinaison afin de maximiser les gains de l’agent. La suite logique de ces travaux est d’automatiser la sélection et la conception des comportements de base eux-mêmes.</div>
<div type="abstract" xml:lang="en">This article focusses on the automated synthesis of agents in an uncertain environment, working in the setting of Reinforcement Learning, and more precisely of Partially Observable Markov Decision Processes. The agents (with no model of their environment and no short-term memory) are facing multiple motivations/goals simultaneously, a problem related to the field of Action Selection. We propose and evaluate various Action Selection architectures. They all combine already known basic behaviors in an adaptive manner, by learning the tuning of the combination, so as to maximize the agent’s payoff. The logical continuation of this work is to automate the selection and design ofthe basic behaviors themselves.</div>
</front>
</TEI>
<istex>
<corpusName>lavoisier</corpusName>
<author>
<json:item>
<name>Olivier Buffet</name>
<affiliations>
<json:string>LORIA - INRIA-Lorraine / Campus Scientifique - B.P. 239, 54506Vandœuvre-lès-Nancy /France</json:string>
<json:string>National ICT Australia & TheAutralian National University RSISE Building 115 - ANU/ Canberra ACT 0200 /Australie</json:string>
<json:string>E-mail: olivier.buffet@nicta.com.au</json:string>
</affiliations>
</json:item>
<json:item>
<name>Alain Dutech</name>
<affiliations>
<json:string>LORIA - INRIA-Lorraine / Campus Scientifique - B.P. 239, 54506Vandœuvre-lès-Nancy /France</json:string>
<json:string>E-mail: dutech@loria.fr</json:string>
</affiliations>
</json:item>
<json:item>
<name>François Charpillet</name>
<affiliations>
<json:string>LORIA - INRIA-Lorraine / Campus Scientifique - B.P. 239, 54506Vandœuvre-lès-Nancy /France</json:string>
<json:string>E-mail: charp@loria.fr</json:string>
</affiliations>
</json:item>
</author>
<subject>
<json:item>
<lang>
<json:string>fre</json:string>
</lang>
<value>processus de décision markoviens partiellement observables</value>
</json:item>
<json:item>
<lang>
<json:string>fre</json:string>
</lang>
<value>motivations multiples</value>
</json:item>
<json:item>
<lang>
<json:string>fre</json:string>
</lang>
<value>partially observable markov decision processes</value>
</json:item>
<json:item>
<lang>
<json:string>fre</json:string>
</lang>
<value>multiple motivations</value>
</json:item>
</subject>
<arkIstex>ark:/67375/HT0-1VTSMJVR-8</arkIstex>
<language>
<json:string>fre</json:string>
</language>
<originalGenre>
<json:string>research-article</json:string>
</originalGenre>
<abstract>Cet article s’intéresse à la synthèse automatique d’agents en environnement incertain, se plaçant dans le cadre de l’apprentissage par renforcement, et plus précisément des processus de décision markoviens partiellement observables. Les agents (dénués de modèle de leur environnement et de mémoire à court terme) sont confrontés à de multiples motivations/objectifs simultanés, problématique qui s’inscrit dans le domaine de la sélection d’action. Nous proposons et évaluons différentes architectures de sélection d’action. Elles ont en commun de combiner de manière adaptative des comportements de base déjà connus, en apprenant les réglages de la combinaison afin de maximiser les gains de l’agent. La suite logique de ces travaux est d’automatiser la sélection et la conception des comportements de base eux-mêmes.</abstract>
<qualityIndicators>
<score>8.404</score>
<pdfWordCount>10732</pdfWordCount>
<pdfCharCount>63324</pdfCharCount>
<pdfVersion>1.4</pdfVersion>
<pdfPageCount>34</pdfPageCount>
<pdfPageSize>595 x 842 pts (A4)</pdfPageSize>
<refBibsNative>false</refBibsNative>
<abstractWordCount>117</abstractWordCount>
<abstractCharCount>817</abstractCharCount>
<keywordCount>4</keywordCount>
</qualityIndicators>
<title>Etude de différentes combinaisons de comportements adaptatives</title>
<genre>
<json:string>research-article</json:string>
</genre>
<host>
<title>Revue d'Intelligence Artificielle</title>
<language>
<json:string>unknown</json:string>
</language>
<issn>
<json:string>0992-499X</json:string>
</issn>
<eissn>
<json:string>1958-5748</json:string>
</eissn>
<publisherId>
<json:string>ria</json:string>
</publisherId>
<volume>20</volume>
<issue>2-3</issue>
<pages>
<first>311</first>
<last>343</last>
<total>34</total>
</pages>
<genre>
<json:string>journal</json:string>
</genre>
</host>
<ark>
<json:string>ark:/67375/HT0-1VTSMJVR-8</json:string>
</ark>
<publicationDate>2006</publicationDate>
<copyrightDate>2006</copyrightDate>
<doi>
<json:string>10.3166/ria.20.311-343</json:string>
</doi>
<id>A156B8F62286B1F9AECD520CDB0A39C1C26B49E5</id>
<score>1</score>
<fulltext>
<json:item>
<extension>pdf</extension>
<original>true</original>
<mimetype>application/pdf</mimetype>
<uri>https://api.istex.fr/ark:/67375/HT0-1VTSMJVR-8/fulltext.pdf</uri>
</json:item>
<json:item>
<extension>zip</extension>
<original>false</original>
<mimetype>application/zip</mimetype>
<uri>https://api.istex.fr/ark:/67375/HT0-1VTSMJVR-8/bundle.zip</uri>
</json:item>
<istex:fulltextTEI uri="https://api.istex.fr/ark:/67375/HT0-1VTSMJVR-8/fulltext.tei">
<teiHeader>
<fileDesc>
<titleStmt>
<title level="a" type="main">Etude de différentes combinaisons de comportements adaptatives</title>
<respStmt>
<resp>Références bibliographiques récupérées via GROBID</resp>
<name resp="ISTEX-API">ISTEX-API (INIST-CNRS)</name>
</respStmt>
</titleStmt>
<publicationStmt>
<authority>ISTEX</authority>
<publisher>Lavoisier</publisher>
<availability>
<licence>© Lavoisier SAS 2006</licence>
<p>Lavoisier SAS</p>
</availability>
<date type="published" when="2006-03">2006</date>
<date type="Copyright" when="2006">2006</date>
</publicationStmt>
<notesStmt>
<note type="content-type" source="research-article" scheme="https://content-type.data.istex.fr/ark:/67375/XTP-1JC4F85T-7">research-article</note>
<note type="publication-type" scheme="https://publication-type.data.istex.fr/ark:/67375/JMC-0GLKJH51-B">journal</note>
</notesStmt>
<sourceDesc>
<biblStruct type="article">
<analytic>
<title level="a" type="main" xml:lang="fr">Etude de différentes combinaisons de comportements adaptatives</title>
<author xml:id="author-0000" role="corresp">
<persName>
<surname>Buffet</surname>
<forename type="first">Olivier</forename>
</persName>
<affiliation>
<ref>1</ref>
<address>
<orgName type="institution">LORIA - INRIA-Lorraine / Campus Scientifique</orgName>
<name type="postbox">B.P. 239</name>
<postCode>54506</postCode>
<settlement>Vandœuvre-lès-Nancy</settlement>
<country key="FR">FRANCE</country>
</address>
</affiliation>
<affiliation>
<ref>2</ref>
<address>
<orgName type="institution">National ICT Australia & TheAutralian National University RSISE Building 115 - ANU/ Canberra ACT 0200</orgName>
<country key="AU">AUSTRALIA</country>
</address>
</affiliation>
<email>olivier.buffet@nicta.com.au</email>
<email>dutech@loria.fr</email>
<email>charp@loria.fr</email>
</author>
<author xml:id="author-0001" role="corresp">
<persName>
<surname>Dutech</surname>
<forename type="first">Alain</forename>
</persName>
<affiliation>
<ref>1</ref>
<address>
<orgName type="institution">LORIA - INRIA-Lorraine / Campus Scientifique</orgName>
<name type="postbox">B.P. 239</name>
<postCode>54506</postCode>
<settlement>Vandœuvre-lès-Nancy</settlement>
<country key="FR">FRANCE</country>
</address>
</affiliation>
<email>olivier.buffet@nicta.com.au</email>
<email>dutech@loria.fr</email>
<email>charp@loria.fr</email>
</author>
<author xml:id="author-0002" role="corresp">
<persName>
<surname>Charpillet</surname>
<forename type="first">François</forename>
</persName>
<affiliation>
<ref>1</ref>
<address>
<orgName type="institution">LORIA - INRIA-Lorraine / Campus Scientifique</orgName>
<name type="postbox">B.P. 239</name>
<postCode>54506</postCode>
<settlement>Vandœuvre-lès-Nancy</settlement>
<country key="FR">FRANCE</country>
</address>
</affiliation>
<email>olivier.buffet@nicta.com.au</email>
<email>dutech@loria.fr</email>
<email>charp@loria.fr</email>
</author>
<idno type="istex">A156B8F62286B1F9AECD520CDB0A39C1C26B49E5</idno>
<idno type="ark">ark:/67375/HT0-1VTSMJVR-8</idno>
<idno type="DOI">10.3166/ria.20.311-343</idno>
<idno type="publisher-id">ria2023p311</idno>
</analytic>
<monogr>
<title level="j" type="main">Revue d'Intelligence Artificielle</title>
<title level="j" type="abbrev">Rev. Int. Artificielle</title>
<idno type="publisher-id">ria</idno>
<idno type="pISSN">0992-499X</idno>
<idno type="eISSN">1958-5748</idno>
<imprint>
<publisher>Lavoisier</publisher>
<date type="published" when="2006-03">2006</date>
<biblScope unit="vol">20</biblScope>
<biblScope unit="issue">2-3</biblScope>
<biblScope unit="page" from="311">311</biblScope>
<biblScope unit="page" to="343">343</biblScope>
<biblScope unit="page-count">34</biblScope>
<biblScope unit="ref-count">0</biblScope>
<biblScope unit="fig-count">0</biblScope>
<biblScope unit="table-count">0</biblScope>
</imprint>
</monogr>
</biblStruct>
</sourceDesc>
</fileDesc>
<profileDesc>
<abstract xml:lang="fr">
<p>Cet article s’intéresse à la synthèse automatique d’agents en environnement incertain, se plaçant dans le cadre de l’apprentissage par renforcement, et plus précisément des processus de décision markoviens partiellement observables. Les agents (dénués de modèle de leur environnement et de mémoire à court terme) sont confrontés à de multiples motivations/objectifs simultanés, problématique qui s’inscrit dans le domaine de la sélection d’action.</p>
<p>Nous proposons et évaluons différentes architectures de sélection d’action. Elles ont en commun de combiner de manière adaptative des comportements de base déjà connus, en apprenant les réglages de la combinaison afin de maximiser les gains de l’agent. La suite logique de ces travaux est d’automatiser la sélection et la conception des comportements de base eux-mêmes.</p>
</abstract>
<abstract xml:lang="en">
<p>This article focusses on the automated synthesis of agents in an uncertain environment, working in the setting of Reinforcement Learning, and more precisely of Partially Observable Markov Decision Processes. The agents (with no model of their environment and no short-term memory) are facing multiple motivations/goals simultaneously, a problem related to the field of Action Selection.</p>
<p>We propose and evaluate various Action Selection architectures. They all combine already known basic behaviors in an adaptive manner, by learning the tuning of the combination, so as to maximize the agent’s payoff. The logical continuation of this work is to automate the selection and design ofthe basic behaviors themselves.</p>
</abstract>
<textClass ana="keyword">
<keywords xml:lang="fr">
<term>processus de décision markoviens partiellement observables</term>
<term>motivations multiples</term>
</keywords>
</textClass>
<textClass ana="keyword">
<keywords xml:lang="en">
<term>partially observable markov decision processes</term>
<term>multiple motivations</term>
</keywords>
</textClass>
<langUsage>
<language ident="fr"></language>
</langUsage>
</profileDesc>
<revisionDesc>
<change xml:id="refBibs-istex" who="#ISTEX-API" when="2019-01-15">References added</change>
</revisionDesc>
</teiHeader>
</istex:fulltextTEI>
<json:item>
<extension>txt</extension>
<original>false</original>
<mimetype>text/plain</mimetype>
<uri>https://api.istex.fr/ark:/67375/HT0-1VTSMJVR-8/fulltext.txt</uri>
</json:item>
</fulltext>
<metadata>
<istex:metadataXml wicri:clean="corpus lavoisier not found" wicri:toSee="no header">
<istex:xmlDeclaration>version="1.0" encoding="UTF-8"</istex:xmlDeclaration>
<istex:docType PUBLIC="-//EDP//DTD EDP Publishing JATS v1.0 20130606//EN" URI="JATS-edppublishing1.dtd" name="istex:docType"></istex:docType>
<istex:document>
<article article-type="research-article" dtd-version="1.0" xml:lang="fr">
<front>
<journal-meta>
<journal-id journal-id-type="publisher-id">ria</journal-id>
<journal-title-group>
<journal-title>Revue d'Intelligence Artificielle</journal-title>
<abbrev-journal-title abbrev-type="publisher">Rev. Int. Artificielle</abbrev-journal-title>
</journal-title-group>
<issn pub-type="ppub">0992-499X</issn>
<issn pub-type="epub">1958-5748</issn>
<publisher>
<publisher-name>Lavoisier</publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id pub-id-type="doi">10.3166/ria.20.311-343</article-id>
<article-id pub-id-type="publisher-id">ria2023p311</article-id>
<title-group>
<article-title xml:lang="fr">Etude de différentes combinaisons de comportements adaptatives</article-title>
</title-group>
<contrib-group content-type="authors">
<contrib contrib-type="author" corresp="yes">
<name>
<surname>Buffet</surname>
<given-names>Olivier</given-names>
</name>
<xref ref-type="aff" rid="AFF1">1</xref>
<xref ref-type="aff" rid="AFF2">2</xref>
<xref ref-type="corresp" rid="FN1">a</xref>
</contrib>
<contrib contrib-type="author" corresp="yes">
<name>
<surname>Dutech</surname>
<given-names>Alain</given-names>
</name>
<xref ref-type="aff" rid="AFF1">1</xref>
<xref ref-type="corresp" rid="FN2">b</xref>
</contrib>
<contrib contrib-type="author" corresp="yes">
<name>
<surname>Charpillet</surname>
<given-names>François</given-names>
</name>
<xref ref-type="aff" rid="AFF1">1</xref>
<xref ref-type="corresp" rid="FN3">c</xref>
</contrib>
</contrib-group>
<aff id="AFF1">
<label>1</label>
<addr-line>
<institution>LORIA - INRIA-Lorraine / Campus Scientifique</institution>
-
<named-content content-type="postbox">B.P. 239</named-content>
,
<named-content content-type="postcode">54506</named-content>
<named-content content-type="city">Vandœuvre-lès-Nancy</named-content>
/
<country>France</country>
</addr-line>
</aff>
<aff id="AFF2">
<label>2</label>
<addr-line>
<institution>National ICT Australia & TheAutralian National University RSISE Building 115 - ANU/ Canberra ACT 0200</institution>
/
<country>Australie</country>
</addr-line>
</aff>
<author-notes>
<corresp id="FN1">
<label>a</label>
<email>olivier.buffet@nicta.com.au</email>
</corresp>
<corresp id="FN2">
<label>b</label>
<email>dutech@loria.fr</email>
</corresp>
<corresp id="FN3">
<label>c</label>
<email>charp@loria.fr</email>
</corresp>
</author-notes>
<pub-date date-type="pub" publication-format="print">
<month>03</month>
<year>2006</year>
</pub-date>
<volume>20</volume>
<issue>2-3</issue>
<fpage>311</fpage>
<lpage>343</lpage>
<permissions>
<copyright-statement>© Lavoisier SAS 2006</copyright-statement>
<copyright-year>2006</copyright-year>
<copyright-holder>Lavoisier SAS</copyright-holder>
</permissions>
<abstract xml:lang="fr">
<p>Cet article s’intéresse à la synthèse automatique d’agents en environnement incertain, se plaçant dans le cadre de l’apprentissage par renforcement, et plus précisément des processus de décision markoviens partiellement observables. Les agents (dénués de modèle de leur environnement et de mémoire à court terme) sont confrontés à de multiples motivations/objectifs simultanés, problématique qui s’inscrit dans le domaine de la sélection d’action.</p>
<p>Nous proposons et évaluons différentes architectures de sélection d’action. Elles ont en commun de combiner de manière adaptative des comportements de base déjà connus, en apprenant les réglages de la combinaison afin de maximiser les gains de l’agent. La suite logique de ces travaux est d’automatiser la sélection et la conception des comportements de base eux-mêmes.</p>
</abstract>
<trans-abstract xml:lang="en">
<p>This article focusses on the automated synthesis of agents in an uncertain environment, working in the setting of Reinforcement Learning, and more precisely of Partially Observable Markov Decision Processes. The agents (with no model of their environment and no short-term memory) are facing multiple motivations/goals simultaneously, a problem related to the field of Action Selection.</p>
<p>We propose and evaluate various Action Selection architectures. They all combine already known basic behaviors in an adaptive manner, by learning the tuning of the combination, so as to maximize the agent’s payoff. The logical continuation of this work is to automate the selection and design ofthe basic behaviors themselves.</p>
</trans-abstract>
<kwd-group xml:lang="fr">
<kwd>processus de décision markoviens partiellement observables</kwd>
<kwd>motivations multiples</kwd>
</kwd-group>
<kwd-group xml:lang="en">
<kwd>partially observable markov decision processes</kwd>
<kwd>multiple motivations</kwd>
</kwd-group>
<counts>
<fig-count count="0"></fig-count>
<table-count count="0"></table-count>
<equation-count count="0"></equation-count>
<ref-count count="0"></ref-count>
<page-count count="34"></page-count>
</counts>
<custom-meta-group>
<custom-meta>
<meta-name>idline</meta-name>
<meta-value>Revue d’intelligence artificielle. Volume 20 – n° 2-3/2006, pages 311 à 343</meta-value>
</custom-meta>
<custom-meta>
<meta-name>cover_date</meta-name>
<meta-value>Mars-Juin 2006</meta-value>
</custom-meta>
<custom-meta>
<meta-name>first_month</meta-name>
<meta-value>03</meta-value>
</custom-meta>
<custom-meta>
<meta-name>last_month</meta-name>
<meta-value>06</meta-value>
</custom-meta>
<custom-meta>
<meta-name>first_year</meta-name>
<meta-value>2006</meta-value>
</custom-meta>
<custom-meta>
<meta-name>last_year</meta-name>
<meta-value>2006</meta-value>
</custom-meta>
</custom-meta-group>
</article-meta>
</front>
</article>
</istex:document>
</istex:metadataXml>
<mods version="3.6">
<titleInfo lang="fr">
<title>Etude de différentes combinaisons de comportements adaptatives</title>
</titleInfo>
<titleInfo type="alternative" lang="fr" contentType="CDATA">
<title>Etude de différentes combinaisons de comportements adaptatives</title>
</titleInfo>
<name type="personal" displayLabel="corresp">
<namePart type="given">Olivier</namePart>
<namePart type="family">Buffet</namePart>
<affiliation>LORIA - INRIA-Lorraine / Campus Scientifique - B.P. 239, 54506Vandœuvre-lès-Nancy /France</affiliation>
<affiliation>National ICT Australia & TheAutralian National University RSISE Building 115 - ANU/ Canberra ACT 0200 /Australie</affiliation>
<affiliation>E-mail: olivier.buffet@nicta.com.au</affiliation>
<role>
<roleTerm type="text">author</roleTerm>
</role>
</name>
<name type="personal" displayLabel="corresp">
<namePart type="given">Alain</namePart>
<namePart type="family">Dutech</namePart>
<affiliation>LORIA - INRIA-Lorraine / Campus Scientifique - B.P. 239, 54506Vandœuvre-lès-Nancy /France</affiliation>
<affiliation>E-mail: dutech@loria.fr</affiliation>
<role>
<roleTerm type="text">author</roleTerm>
</role>
</name>
<name type="personal" displayLabel="corresp">
<namePart type="given">François</namePart>
<namePart type="family">Charpillet</namePart>
<affiliation>LORIA - INRIA-Lorraine / Campus Scientifique - B.P. 239, 54506Vandœuvre-lès-Nancy /France</affiliation>
<affiliation>E-mail: charp@loria.fr</affiliation>
<role>
<roleTerm type="text">author</roleTerm>
</role>
</name>
<typeOfResource>text</typeOfResource>
<genre type="research-article" displayLabel="research-article" authority="ISTEX" authorityURI="https://content-type.data.istex.fr" valueURI="https://content-type.data.istex.fr/ark:/67375/XTP-1JC4F85T-7">research-article</genre>
<originInfo>
<publisher>Lavoisier</publisher>
<dateIssued encoding="w3cdtf">2006</dateIssued>
<copyrightDate encoding="w3cdtf">2006</copyrightDate>
</originInfo>
<language>
<languageTerm type="code" authority="iso639-2b">fre</languageTerm>
<languageTerm type="code" authority="rfc3066">fr</languageTerm>
</language>
<physicalDescription></physicalDescription>
<abstract lang="fr">Cet article s’intéresse à la synthèse automatique d’agents en environnement incertain, se plaçant dans le cadre de l’apprentissage par renforcement, et plus précisément des processus de décision markoviens partiellement observables. Les agents (dénués de modèle de leur environnement et de mémoire à court terme) sont confrontés à de multiples motivations/objectifs simultanés, problématique qui s’inscrit dans le domaine de la sélection d’action. Nous proposons et évaluons différentes architectures de sélection d’action. Elles ont en commun de combiner de manière adaptative des comportements de base déjà connus, en apprenant les réglages de la combinaison afin de maximiser les gains de l’agent. La suite logique de ces travaux est d’automatiser la sélection et la conception des comportements de base eux-mêmes.</abstract>
<abstract lang="en">This article focusses on the automated synthesis of agents in an uncertain environment, working in the setting of Reinforcement Learning, and more precisely of Partially Observable Markov Decision Processes. The agents (with no model of their environment and no short-term memory) are facing multiple motivations/goals simultaneously, a problem related to the field of Action Selection. We propose and evaluate various Action Selection architectures. They all combine already known basic behaviors in an adaptive manner, by learning the tuning of the combination, so as to maximize the agent’s payoff. The logical continuation of this work is to automate the selection and design ofthe basic behaviors themselves.</abstract>
<subject lang="fr">
<genre>keywords</genre>
<topic>processus de décision markoviens partiellement observables</topic>
<topic>motivations multiples</topic>
</subject>
<subject lang="en">
<genre>keywords</genre>
<topic>partially observable markov decision processes</topic>
<topic>multiple motivations</topic>
</subject>
<relatedItem type="host">
<titleInfo>
<title>Revue d'Intelligence Artificielle</title>
</titleInfo>
<genre type="journal" authority="ISTEX" authorityURI="https://publication-type.data.istex.fr" valueURI="https://publication-type.data.istex.fr/ark:/67375/JMC-0GLKJH51-B">journal</genre>
<identifier type="ISSN">0992-499X</identifier>
<identifier type="eISSN">1958-5748</identifier>
<identifier type="PublisherID">ria</identifier>
<part>
<date>2006</date>
<detail type="volume">
<caption>vol.</caption>
<number>20</number>
</detail>
<detail type="issue">
<caption>no.</caption>
<number>2-3</number>
</detail>
<extent unit="pages">
<start>311</start>
<end>343</end>
<total>34</total>
</extent>
</part>
</relatedItem>
<identifier type="istex">A156B8F62286B1F9AECD520CDB0A39C1C26B49E5</identifier>
<identifier type="ark">ark:/67375/HT0-1VTSMJVR-8</identifier>
<identifier type="DOI">10.3166/ria.20.311-343</identifier>
<identifier type="publisher-ID">ria2023p311</identifier>
<accessCondition type="use and reproduction" contentType="copyright">© Lavoisier SAS 2006</accessCondition>
<recordInfo>
<recordContentSource authority="ISTEX" authorityURI="https://loaded-corpus.data.istex.fr" valueURI="https://loaded-corpus.data.istex.fr/ark:/67375/XBH-4L897VLR-T">lavoisier</recordContentSource>
<recordOrigin>© Lavoisier SAS 2006</recordOrigin>
</recordInfo>
</mods>
<json:item>
<extension>json</extension>
<original>false</original>
<mimetype>application/json</mimetype>
<uri>https://api.istex.fr/ark:/67375/HT0-1VTSMJVR-8/record.json</uri>
</json:item>
</metadata>
<serie></serie>
</istex>
</record>

Pour manipuler ce document sous Unix (Dilib)

EXPLOR_STEP=$WICRI_ROOT/Wicri/Lorraine/explor/InforLorV4/Data/Istex/Corpus
HfdSelect -h $EXPLOR_STEP/biblio.hfd -nk 002602 | SxmlIndent | more

Ou

HfdSelect -h $EXPLOR_AREA/Data/Istex/Corpus/biblio.hfd -nk 002602 | SxmlIndent | more

Pour mettre un lien sur cette page dans le réseau Wicri

{{Explor lien
   |wiki=    Wicri/Lorraine
   |area=    InforLorV4
   |flux=    Istex
   |étape=   Corpus
   |type=    RBID
   |clé=     ISTEX:A156B8F62286B1F9AECD520CDB0A39C1C26B49E5
   |texte=   Etude de différentes combinaisons de comportements adaptatives
}}

Wicri

This area was generated with Dilib version V0.6.33.
Data generation: Mon Jun 10 21:56:28 2019. Site generation: Fri Feb 25 15:29:27 2022