Serveur d'exploration sur la recherche en informatique en Lorraine

Attention, ce site est en cours de développement !
Attention, site généré par des moyens informatiques à partir de corpus bruts.
Les informations ne sont donc pas validées.

Apprentissage par renforcement et jeux stochastiques à information incomplète

Identifieur interne : 006254 ( Main/Merge ); précédent : 006253; suivant : 006255

Apprentissage par renforcement et jeux stochastiques à information incomplète

Auteurs : Raghav Aras ; Alain Dutech

Source :

RBID : CRIN:aras05b

Abstract

Le but de notre travail est de permettre à des agents d'apprendre à coopérer. Chaque agent étant autonome et, forcément, différent des autres, c'est une tâche particulièrement difficile, surtout si les but des deux agents ne sont pas exactement les mêmes. Notre souci est de travailler avec des agents les plus simples possibles, c'est-à-dire plutôt réactifs. Nous proposons alors de doter les agents de capacités limitées de communication pour mettre en place une notion similaire aux «contrats» de la théorie des jeux. Si les agents s'accordent sur cette notion de contrat, notre algorithme leur permet de converger vers des équilibres qui induisent des comportements «plus coopératifs» que le simple équilibre de Nash.

Links toward previous steps (curation, corpus...)


Links to Exploration step

CRIN:aras05b

Le document en format XML

<record>
<TEI>
<teiHeader>
<fileDesc>
<titleStmt>
<title xml:lang="en" wicri:score="173">Apprentissage par renforcement et jeux stochastiques à information incomplète</title>
</titleStmt>
<publicationStmt>
<idno type="RBID">CRIN:aras05b</idno>
<date when="2005" year="2005">2005</date>
<idno type="wicri:Area/Crin/Corpus">004107</idno>
<idno type="wicri:Area/Crin/Curation">004107</idno>
<idno type="wicri:explorRef" wicri:stream="Crin" wicri:step="Curation">004107</idno>
<idno type="wicri:Area/Crin/Checkpoint">000479</idno>
<idno type="wicri:explorRef" wicri:stream="Crin" wicri:step="Checkpoint">000479</idno>
<idno type="wicri:Area/Main/Merge">006254</idno>
</publicationStmt>
<sourceDesc>
<biblStruct>
<analytic>
<title xml:lang="en">Apprentissage par renforcement et jeux stochastiques à information incomplète</title>
<author>
<name sortKey="Aras, Raghav" sort="Aras, Raghav" uniqKey="Aras R" first="Raghav" last="Aras">Raghav Aras</name>
</author>
<author>
<name sortKey="Dutech, Alain" sort="Dutech, Alain" uniqKey="Dutech A" first="Alain" last="Dutech">Alain Dutech</name>
</author>
</analytic>
</biblStruct>
</sourceDesc>
</fileDesc>
<profileDesc>
<textClass></textClass>
</profileDesc>
</teiHeader>
<front>
<div type="abstract" xml:lang="fr" wicri:score="-1628">Le but de notre travail est de permettre à des agents d'apprendre à coopérer. Chaque agent étant autonome et, forcément, différent des autres, c'est une tâche particulièrement difficile, surtout si les but des deux agents ne sont pas exactement les mêmes. Notre souci est de travailler avec des agents les plus simples possibles, c'est-à-dire plutôt réactifs. Nous proposons alors de doter les agents de capacités limitées de communication pour mettre en place une notion similaire aux «contrats» de la théorie des jeux. Si les agents s'accordent sur cette notion de contrat, notre algorithme leur permet de converger vers des équilibres qui induisent des comportements «plus coopératifs» que le simple équilibre de Nash.</div>
</front>
</TEI>
</record>

Pour manipuler ce document sous Unix (Dilib)

EXPLOR_STEP=$WICRI_ROOT/Wicri/Lorraine/explor/InforLorV4/Data/Main/Merge
HfdSelect -h $EXPLOR_STEP/biblio.hfd -nk 006254 | SxmlIndent | more

Ou

HfdSelect -h $EXPLOR_AREA/Data/Main/Merge/biblio.hfd -nk 006254 | SxmlIndent | more

Pour mettre un lien sur cette page dans le réseau Wicri

{{Explor lien
   |wiki=    Wicri/Lorraine
   |area=    InforLorV4
   |flux=    Main
   |étape=   Merge
   |type=    RBID
   |clé=     CRIN:aras05b
   |texte=   Apprentissage par renforcement et jeux stochastiques à information incomplète
}}

Wicri

This area was generated with Dilib version V0.6.33.
Data generation: Mon Jun 10 21:56:28 2019. Site generation: Fri Feb 25 15:29:27 2022