Serveur d'exploration sur la recherche en informatique en Lorraine

Attention, ce site est en cours de développement !
Attention, site généré par des moyens informatiques à partir de corpus bruts.
Les informations ne sont donc pas validées.

Etude de différentes combinaisons de comportements adaptatives

Identifieur interne : 001177 ( Istex/Checkpoint ); précédent : 001176; suivant : 001178

Etude de différentes combinaisons de comportements adaptatives

Auteurs : Olivier Buffet [Australie] ; Alain Dutech [France] ; François Charpillet [France]

Source :

RBID : ISTEX:A156B8F62286B1F9AECD520CDB0A39C1C26B49E5

Abstract

Cet article s’intéresse à la synthèse automatique d’agents en environnement incertain, se plaçant dans le cadre de l’apprentissage par renforcement, et plus précisément des processus de décision markoviens partiellement observables. Les agents (dénués de modèle de leur environnement et de mémoire à court terme) sont confrontés à de multiples motivations/objectifs simultanés, problématique qui s’inscrit dans le domaine de la sélection d’action. Nous proposons et évaluons différentes architectures de sélection d’action. Elles ont en commun de combiner de manière adaptative des comportements de base déjà connus, en apprenant les réglages de la combinaison afin de maximiser les gains de l’agent. La suite logique de ces travaux est d’automatiser la sélection et la conception des comportements de base eux-mêmes.
This article focusses on the automated synthesis of agents in an uncertain environment, working in the setting of Reinforcement Learning, and more precisely of Partially Observable Markov Decision Processes. The agents (with no model of their environment and no short-term memory) are facing multiple motivations/goals simultaneously, a problem related to the field of Action Selection. We propose and evaluate various Action Selection architectures. They all combine already known basic behaviors in an adaptive manner, by learning the tuning of the combination, so as to maximize the agent’s payoff. The logical continuation of this work is to automate the selection and design ofthe basic behaviors themselves.

Url:
DOI: 10.3166/ria.20.311-343


Affiliations:


Links toward previous steps (curation, corpus...)


Links to Exploration step

ISTEX:A156B8F62286B1F9AECD520CDB0A39C1C26B49E5

Le document en format XML

<record>
<TEI wicri:istexFullTextTei="biblStruct">
<teiHeader>
<fileDesc>
<titleStmt>
<title xml:lang="fr">Etude de différentes combinaisons de comportements adaptatives</title>
<author>
<name sortKey="Buffet, Olivier" sort="Buffet, Olivier" uniqKey="Buffet O" first="Olivier" last="Buffet">Olivier Buffet</name>
</author>
<author>
<name sortKey="Dutech, Alain" sort="Dutech, Alain" uniqKey="Dutech A" first="Alain" last="Dutech">Alain Dutech</name>
</author>
<author>
<name sortKey="Charpillet, Francois" sort="Charpillet, Francois" uniqKey="Charpillet F" first="François" last="Charpillet">François Charpillet</name>
</author>
</titleStmt>
<publicationStmt>
<idno type="wicri:source">ISTEX</idno>
<idno type="RBID">ISTEX:A156B8F62286B1F9AECD520CDB0A39C1C26B49E5</idno>
<date when="2006" year="2006">2006</date>
<idno type="doi">10.3166/ria.20.311-343</idno>
<idno type="url">https://api.istex.fr/ark:/67375/HT0-1VTSMJVR-8/fulltext.pdf</idno>
<idno type="wicri:Area/Istex/Corpus">002602</idno>
<idno type="wicri:explorRef" wicri:stream="Istex" wicri:step="Corpus" wicri:corpus="ISTEX">002602</idno>
<idno type="wicri:Area/Istex/Curation">002569</idno>
<idno type="wicri:Area/Istex/Checkpoint">001177</idno>
<idno type="wicri:explorRef" wicri:stream="Istex" wicri:step="Checkpoint">001177</idno>
</publicationStmt>
<sourceDesc>
<biblStruct>
<analytic>
<title level="a" type="main" xml:lang="fr">Etude de différentes combinaisons de comportements adaptatives</title>
<author>
<name sortKey="Buffet, Olivier" sort="Buffet, Olivier" uniqKey="Buffet O" first="Olivier" last="Buffet">Olivier Buffet</name>
<affiliation></affiliation>
<affiliation></affiliation>
<affiliation wicri:level="1">
<country wicri:rule="url">Australie</country>
</affiliation>
</author>
<author>
<name sortKey="Dutech, Alain" sort="Dutech, Alain" uniqKey="Dutech A" first="Alain" last="Dutech">Alain Dutech</name>
<affiliation></affiliation>
<affiliation wicri:level="1">
<country wicri:rule="url">France</country>
</affiliation>
</author>
<author>
<name sortKey="Charpillet, Francois" sort="Charpillet, Francois" uniqKey="Charpillet F" first="François" last="Charpillet">François Charpillet</name>
<affiliation></affiliation>
<affiliation wicri:level="1">
<country wicri:rule="url">France</country>
</affiliation>
</author>
</analytic>
<monogr></monogr>
<series>
<title level="j" type="main">Revue d'Intelligence Artificielle</title>
<title level="j" type="abbrev">Rev. Int. Artificielle</title>
<idno type="ISSN">0992-499X</idno>
<idno type="eISSN">1958-5748</idno>
<imprint>
<publisher>Lavoisier</publisher>
<date type="published" when="2006-03">2006</date>
<biblScope unit="vol">20</biblScope>
<biblScope unit="issue">2-3</biblScope>
<biblScope unit="page" from="311">311</biblScope>
<biblScope unit="page" to="343">343</biblScope>
<biblScope unit="page-count">34</biblScope>
<biblScope unit="ref-count">0</biblScope>
<biblScope unit="fig-count">0</biblScope>
<biblScope unit="table-count">0</biblScope>
</imprint>
<idno type="ISSN">0992-499X</idno>
</series>
</biblStruct>
</sourceDesc>
<seriesStmt>
<idno type="ISSN">0992-499X</idno>
</seriesStmt>
</fileDesc>
<profileDesc>
<textClass></textClass>
</profileDesc>
</teiHeader>
<front>
<div type="abstract" xml:lang="fr">Cet article s’intéresse à la synthèse automatique d’agents en environnement incertain, se plaçant dans le cadre de l’apprentissage par renforcement, et plus précisément des processus de décision markoviens partiellement observables. Les agents (dénués de modèle de leur environnement et de mémoire à court terme) sont confrontés à de multiples motivations/objectifs simultanés, problématique qui s’inscrit dans le domaine de la sélection d’action. Nous proposons et évaluons différentes architectures de sélection d’action. Elles ont en commun de combiner de manière adaptative des comportements de base déjà connus, en apprenant les réglages de la combinaison afin de maximiser les gains de l’agent. La suite logique de ces travaux est d’automatiser la sélection et la conception des comportements de base eux-mêmes.</div>
<div type="abstract" xml:lang="en">This article focusses on the automated synthesis of agents in an uncertain environment, working in the setting of Reinforcement Learning, and more precisely of Partially Observable Markov Decision Processes. The agents (with no model of their environment and no short-term memory) are facing multiple motivations/goals simultaneously, a problem related to the field of Action Selection. We propose and evaluate various Action Selection architectures. They all combine already known basic behaviors in an adaptive manner, by learning the tuning of the combination, so as to maximize the agent’s payoff. The logical continuation of this work is to automate the selection and design ofthe basic behaviors themselves.</div>
</front>
</TEI>
<affiliations>
<list>
<country>
<li>Australie</li>
<li>France</li>
</country>
</list>
<tree>
<country name="Australie">
<noRegion>
<name sortKey="Buffet, Olivier" sort="Buffet, Olivier" uniqKey="Buffet O" first="Olivier" last="Buffet">Olivier Buffet</name>
</noRegion>
</country>
<country name="France">
<noRegion>
<name sortKey="Dutech, Alain" sort="Dutech, Alain" uniqKey="Dutech A" first="Alain" last="Dutech">Alain Dutech</name>
</noRegion>
<name sortKey="Charpillet, Francois" sort="Charpillet, Francois" uniqKey="Charpillet F" first="François" last="Charpillet">François Charpillet</name>
</country>
</tree>
</affiliations>
</record>

Pour manipuler ce document sous Unix (Dilib)

EXPLOR_STEP=$WICRI_ROOT/Wicri/Lorraine/explor/InforLorV4/Data/Istex/Checkpoint
HfdSelect -h $EXPLOR_STEP/biblio.hfd -nk 001177 | SxmlIndent | more

Ou

HfdSelect -h $EXPLOR_AREA/Data/Istex/Checkpoint/biblio.hfd -nk 001177 | SxmlIndent | more

Pour mettre un lien sur cette page dans le réseau Wicri

{{Explor lien
   |wiki=    Wicri/Lorraine
   |area=    InforLorV4
   |flux=    Istex
   |étape=   Checkpoint
   |type=    RBID
   |clé=     ISTEX:A156B8F62286B1F9AECD520CDB0A39C1C26B49E5
   |texte=   Etude de différentes combinaisons de comportements adaptatives
}}

Wicri

This area was generated with Dilib version V0.6.33.
Data generation: Mon Jun 10 21:56:28 2019. Site generation: Fri Feb 25 15:29:27 2022