Communication et apprentissage par renforcement pour une équipe d'agents
Identifieur interne : 006792 ( Main/Curation ); précédent : 006791; suivant : 006793Communication et apprentissage par renforcement pour une équipe d'agents
Auteurs : Daniel Szer ; François CharpilletSource :
English descriptors
- KwdEn :
Abstract
Nous présentons un nouvel algorithme d'apprentissage par renforcement pour des systèmes multi-agents coopératifs. Le problème de contrôle est formalisé comme un processus de décision markovien que nous cherchons à résoudre de manière décentralisée. Pour cela, nous proposons une variante du Q-learning avec communication, à savoir un mécanisme de notification réciproque. Nous allons introduire le problème de coopération multi-agents et poser un critère d'optimalité pour la solution souhaitée. Nous allons ensuite présenter l'algorithme de notification réciproque, prouver sa convergence et étudier des variantes de l'algorithme qui permettent des stratégies de communication plus flexibles. Nous conclurons avec les performances de l'algorithme sur un exemple d'apprentissage précis.
Links toward previous steps (curation, corpus...)
- to stream Crin, to step Corpus: Pour aller vers cette notice dans l'étape Curation :003D80
- to stream Crin, to step Curation: Pour aller vers cette notice dans l'étape Curation :003D80
- to stream Crin, to step Checkpoint: Pour aller vers cette notice dans l'étape Curation :000620
- to stream Main, to step Merge: Pour aller vers cette notice dans l'étape Curation :006A95
Links to Exploration step
CRIN:szer04cLe document en format XML
<record><TEI><teiHeader><fileDesc><titleStmt><title xml:lang="en" wicri:score="82">Communication et apprentissage par renforcement pour une équipe d'agents</title>
</titleStmt>
<publicationStmt><idno type="RBID">CRIN:szer04c</idno>
<date when="2004" year="2004">2004</date>
<idno type="wicri:Area/Crin/Corpus">003D80</idno>
<idno type="wicri:Area/Crin/Curation">003D80</idno>
<idno type="wicri:explorRef" wicri:stream="Crin" wicri:step="Curation">003D80</idno>
<idno type="wicri:Area/Crin/Checkpoint">000620</idno>
<idno type="wicri:explorRef" wicri:stream="Crin" wicri:step="Checkpoint">000620</idno>
<idno type="wicri:Area/Main/Merge">006A95</idno>
<idno type="wicri:Area/Main/Curation">006792</idno>
</publicationStmt>
<sourceDesc><biblStruct><analytic><title xml:lang="en">Communication et apprentissage par renforcement pour une équipe d'agents</title>
<author><name sortKey="Szer, Daniel" sort="Szer, Daniel" uniqKey="Szer D" first="Daniel" last="Szer">Daniel Szer</name>
</author>
<author><name sortKey="Charpillet, Francois" sort="Charpillet, Francois" uniqKey="Charpillet F" first="François" last="Charpillet">François Charpillet</name>
</author>
</analytic>
</biblStruct>
</sourceDesc>
</fileDesc>
<profileDesc><textClass><keywords scheme="KwdEn" xml:lang="en"><term>mdp</term>
<term>multiagent systems</term>
<term>reinforcement learning</term>
</keywords>
</textClass>
</profileDesc>
</teiHeader>
<front><div type="abstract" xml:lang="fr" wicri:score="-519">Nous présentons un nouvel algorithme d'apprentissage par renforcement pour des systèmes multi-agents coopératifs. Le problème de contrôle est formalisé comme un processus de décision markovien que nous cherchons à résoudre de manière décentralisée. Pour cela, nous proposons une variante du Q-learning avec communication, à savoir un mécanisme de notification réciproque. Nous allons introduire le problème de coopération multi-agents et poser un critère d'optimalité pour la solution souhaitée. Nous allons ensuite présenter l'algorithme de notification réciproque, prouver sa convergence et étudier des variantes de l'algorithme qui permettent des stratégies de communication plus flexibles. Nous conclurons avec les performances de l'algorithme sur un exemple d'apprentissage précis.</div>
</front>
</TEI>
</record>
Pour manipuler ce document sous Unix (Dilib)
EXPLOR_STEP=$WICRI_ROOT/Wicri/Lorraine/explor/InforLorV4/Data/Main/Curation
HfdSelect -h $EXPLOR_STEP/biblio.hfd -nk 006792 | SxmlIndent | more
Ou
HfdSelect -h $EXPLOR_AREA/Data/Main/Curation/biblio.hfd -nk 006792 | SxmlIndent | more
Pour mettre un lien sur cette page dans le réseau Wicri
{{Explor lien |wiki= Wicri/Lorraine |area= InforLorV4 |flux= Main |étape= Curation |type= RBID |clé= CRIN:szer04c |texte= Communication et apprentissage par renforcement pour une équipe d'agents }}
This area was generated with Dilib version V0.6.33. |