Apprentissage par renforcement pour les processus décisionnels de Markov partiellement observés. Apprendre une extension sélective du passé
Identifieur interne : 000745 ( PascalFrancis/Corpus ); précédent : 000744; suivant : 000746Apprentissage par renforcement pour les processus décisionnels de Markov partiellement observés. Apprendre une extension sélective du passé
Auteurs : Alain Dutech ; Manuel SamuelidesSource :
- Revue d'intelligence artificielle [ 0992-499X ] ; 2003.
Descripteurs français
- Pascal (Inist)
English descriptors
- KwdEn :
Abstract
Nous présentons un nouvel algorithme qui contribue à étendre le formalisme de l'Apprentissage par Renforcement (RL) aux Processus Décisionnels Markoviens Partiellement Observés (POMDP). L'idée principale de notre méthode est de construire une extension d'état, appelée observable exhaustif, qui permet de définir un nouveau processus qui est alors markovien. Nous démontrons que résoudre ce nouveau processus, auquel on peut appliquer les techniques classiques de RL, apporte une solution optimale au POMDP original. Nous appliquons l'algorithme déduit de ce résultat sur plusieurs exemples pour en tester la validité et la robustesse.
Notice en format standard (ISO 2709)
Pour connaître la documentation sur le format Inist Standard.
pA |
|
---|
Format Inist (serveur)
NO : | PASCAL 04-0001705 INIST |
---|---|
FT : | Apprentissage par renforcement pour les processus décisionnels de Markov partiellement observés. Apprendre une extension sélective du passé |
ET : | (The reinforcement learning for partially observed Markov decision process. the selectif extension of past learning) |
AU : | DUTECH (Alain); SAMUELIDES (Manuel) |
AF : | LORIA -, MAIA, BP 239/54506 Vandoeuvre les Nancy/France (1 aut.); Ecole Nationale de l'Aéronautique et de l'Espace, 10 avenue Edouard Belin, BP 4032/31055 Toulouse/France (2 aut.) |
DT : | Publication en série; Niveau analytique |
SO : | Revue d'intelligence artificielle; ISSN 0992-499X; France; Da. 2003; Vol. 17; No. 4; Pp. 559-589; Abs. anglais; Bibl. 1 p.1/4 |
LA : | Français |
FA : | Nous présentons un nouvel algorithme qui contribue à étendre le formalisme de l'Apprentissage par Renforcement (RL) aux Processus Décisionnels Markoviens Partiellement Observés (POMDP). L'idée principale de notre méthode est de construire une extension d'état, appelée observable exhaustif, qui permet de définir un nouveau processus qui est alors markovien. Nous démontrons que résoudre ce nouveau processus, auquel on peut appliquer les techniques classiques de RL, apporte une solution optimale au POMDP original. Nous appliquons l'algorithme déduit de ce résultat sur plusieurs exemples pour en tester la validité et la robustesse. |
CC : | 001D02C02 |
FD : | Apprentissage(intelligence artificielle); Apprentissage renforcé; Solution optimale; Processus Markov; Théorie décision; Agent intelligent; Processus décisionnel markovien partiellement observé |
ED : | Learning (artificial intelligence); Reinforcement learning; Optimal solution; Markov process; Decision theory; Intelligent agent |
SD : | Aprendizaje reforzado; Solución óptima; Proceso Markov; Teoría decisión; Agente inteligente |
LO : | INIST-21320.354000114864620010 |
ID : | 04-0001705 |
Links to Exploration step
Pascal:04-0001705Le document en format XML
<record><TEI><teiHeader><fileDesc><titleStmt><title xml:lang="fr" level="a">Apprentissage par renforcement pour les processus décisionnels de Markov partiellement observés. Apprendre une extension sélective du passé</title>
<author><name sortKey="Dutech, Alain" sort="Dutech, Alain" uniqKey="Dutech A" first="Alain" last="Dutech">Alain Dutech</name>
<affiliation><inist:fA14 i1="01"><s1>LORIA -, MAIA, BP 239</s1>
<s2>54506 Vandoeuvre les Nancy</s2>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
</inist:fA14>
</affiliation>
</author>
<author><name sortKey="Samuelides, Manuel" sort="Samuelides, Manuel" uniqKey="Samuelides M" first="Manuel" last="Samuelides">Manuel Samuelides</name>
<affiliation><inist:fA14 i1="02"><s1>Ecole Nationale de l'Aéronautique et de l'Espace, 10 avenue Edouard Belin, BP 4032</s1>
<s2>31055 Toulouse</s2>
<s3>FRA</s3>
<sZ>2 aut.</sZ>
</inist:fA14>
</affiliation>
</author>
</titleStmt>
<publicationStmt><idno type="wicri:source">INIST</idno>
<idno type="inist">04-0001705</idno>
<date when="2003">2003</date>
<idno type="stanalyst">PASCAL 04-0001705 INIST</idno>
<idno type="RBID">Pascal:04-0001705</idno>
<idno type="wicri:Area/PascalFrancis/Corpus">000745</idno>
</publicationStmt>
<sourceDesc><biblStruct><analytic><title xml:lang="fr" level="a">Apprentissage par renforcement pour les processus décisionnels de Markov partiellement observés. Apprendre une extension sélective du passé</title>
<author><name sortKey="Dutech, Alain" sort="Dutech, Alain" uniqKey="Dutech A" first="Alain" last="Dutech">Alain Dutech</name>
<affiliation><inist:fA14 i1="01"><s1>LORIA -, MAIA, BP 239</s1>
<s2>54506 Vandoeuvre les Nancy</s2>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
</inist:fA14>
</affiliation>
</author>
<author><name sortKey="Samuelides, Manuel" sort="Samuelides, Manuel" uniqKey="Samuelides M" first="Manuel" last="Samuelides">Manuel Samuelides</name>
<affiliation><inist:fA14 i1="02"><s1>Ecole Nationale de l'Aéronautique et de l'Espace, 10 avenue Edouard Belin, BP 4032</s1>
<s2>31055 Toulouse</s2>
<s3>FRA</s3>
<sZ>2 aut.</sZ>
</inist:fA14>
</affiliation>
</author>
</analytic>
<series><title level="j" type="main">Revue d'intelligence artificielle</title>
<title level="j" type="abbreviated">Rev. intell. artif.</title>
<idno type="ISSN">0992-499X</idno>
<imprint><date when="2003">2003</date>
</imprint>
</series>
</biblStruct>
</sourceDesc>
<seriesStmt><title level="j" type="main">Revue d'intelligence artificielle</title>
<title level="j" type="abbreviated">Rev. intell. artif.</title>
<idno type="ISSN">0992-499X</idno>
</seriesStmt>
</fileDesc>
<profileDesc><textClass><keywords scheme="KwdEn" xml:lang="en"><term>Decision theory</term>
<term>Intelligent agent</term>
<term>Learning (artificial intelligence)</term>
<term>Markov process</term>
<term>Optimal solution</term>
<term>Reinforcement learning</term>
</keywords>
<keywords scheme="Pascal" xml:lang="fr"><term>Apprentissage(intelligence artificielle)</term>
<term>Apprentissage renforcé</term>
<term>Solution optimale</term>
<term>Processus Markov</term>
<term>Théorie décision</term>
<term>Agent intelligent</term>
<term>Processus décisionnel markovien partiellement observé</term>
</keywords>
</textClass>
</profileDesc>
</teiHeader>
<front><div type="abstract" xml:lang="fr">Nous présentons un nouvel algorithme qui contribue à étendre le formalisme de l'Apprentissage par Renforcement (RL) aux Processus Décisionnels Markoviens Partiellement Observés (POMDP). L'idée principale de notre méthode est de construire une extension d'état, appelée observable exhaustif, qui permet de définir un nouveau processus qui est alors markovien. Nous démontrons que résoudre ce nouveau processus, auquel on peut appliquer les techniques classiques de RL, apporte une solution optimale au POMDP original. Nous appliquons l'algorithme déduit de ce résultat sur plusieurs exemples pour en tester la validité et la robustesse.</div>
</front>
</TEI>
<inist><standard h6="B"><pA><fA01 i1="01" i2="1"><s0>0992-499X</s0>
</fA01>
<fA03 i2="1"><s0>Rev. intell. artif.</s0>
</fA03>
<fA05><s2>17</s2>
</fA05>
<fA06><s2>4</s2>
</fA06>
<fA08 i1="01" i2="1" l="FRE"><s1>Apprentissage par renforcement pour les processus décisionnels de Markov partiellement observés. Apprendre une extension sélective du passé</s1>
</fA08>
<fA11 i1="01" i2="1"><s1>DUTECH (Alain)</s1>
</fA11>
<fA11 i1="02" i2="1"><s1>SAMUELIDES (Manuel)</s1>
</fA11>
<fA14 i1="01"><s1>LORIA -, MAIA, BP 239</s1>
<s2>54506 Vandoeuvre les Nancy</s2>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
</fA14>
<fA14 i1="02"><s1>Ecole Nationale de l'Aéronautique et de l'Espace, 10 avenue Edouard Belin, BP 4032</s1>
<s2>31055 Toulouse</s2>
<s3>FRA</s3>
<sZ>2 aut.</sZ>
</fA14>
<fA20><s1>559-589</s1>
</fA20>
<fA21><s1>2003</s1>
</fA21>
<fA23 i1="01"><s0>FRE</s0>
</fA23>
<fA24 i1="01"><s0>eng</s0>
</fA24>
<fA43 i1="01"><s1>INIST</s1>
<s2>21320</s2>
<s5>354000114864620010</s5>
</fA43>
<fA44><s0>0000</s0>
<s1>© 2004 INIST-CNRS. All rights reserved.</s1>
</fA44>
<fA45><s0>1 p.1/4</s0>
</fA45>
<fA47 i1="01" i2="1"><s0>04-0001705</s0>
</fA47>
<fA60><s1>P</s1>
</fA60>
<fA61><s0>A</s0>
</fA61>
<fA64 i1="01" i2="1"><s0>Revue d'intelligence artificielle</s0>
</fA64>
<fA66 i1="01"><s0>FRA</s0>
</fA66>
<fA68 i1="01" i2="1" l="ENG"><s1>The reinforcement learning for partially observed Markov decision process. the selectif extension of past learning</s1>
</fA68>
<fC01 i1="01" l="FRE"><s0>Nous présentons un nouvel algorithme qui contribue à étendre le formalisme de l'Apprentissage par Renforcement (RL) aux Processus Décisionnels Markoviens Partiellement Observés (POMDP). L'idée principale de notre méthode est de construire une extension d'état, appelée observable exhaustif, qui permet de définir un nouveau processus qui est alors markovien. Nous démontrons que résoudre ce nouveau processus, auquel on peut appliquer les techniques classiques de RL, apporte une solution optimale au POMDP original. Nous appliquons l'algorithme déduit de ce résultat sur plusieurs exemples pour en tester la validité et la robustesse.</s0>
</fC01>
<fC02 i1="01" i2="X"><s0>001D02C02</s0>
</fC02>
<fC03 i1="01" i2="3" l="FRE"><s0>Apprentissage(intelligence artificielle)</s0>
<s5>01</s5>
</fC03>
<fC03 i1="01" i2="3" l="ENG"><s0>Learning (artificial intelligence)</s0>
<s5>01</s5>
</fC03>
<fC03 i1="02" i2="X" l="FRE"><s0>Apprentissage renforcé</s0>
<s5>02</s5>
</fC03>
<fC03 i1="02" i2="X" l="ENG"><s0>Reinforcement learning</s0>
<s5>02</s5>
</fC03>
<fC03 i1="02" i2="X" l="SPA"><s0>Aprendizaje reforzado</s0>
<s5>02</s5>
</fC03>
<fC03 i1="03" i2="X" l="FRE"><s0>Solution optimale</s0>
<s5>03</s5>
</fC03>
<fC03 i1="03" i2="X" l="ENG"><s0>Optimal solution</s0>
<s5>03</s5>
</fC03>
<fC03 i1="03" i2="X" l="SPA"><s0>Solución óptima</s0>
<s5>03</s5>
</fC03>
<fC03 i1="04" i2="X" l="FRE"><s0>Processus Markov</s0>
<s5>04</s5>
</fC03>
<fC03 i1="04" i2="X" l="ENG"><s0>Markov process</s0>
<s5>04</s5>
</fC03>
<fC03 i1="04" i2="X" l="SPA"><s0>Proceso Markov</s0>
<s5>04</s5>
</fC03>
<fC03 i1="05" i2="X" l="FRE"><s0>Théorie décision</s0>
<s5>05</s5>
</fC03>
<fC03 i1="05" i2="X" l="ENG"><s0>Decision theory</s0>
<s5>05</s5>
</fC03>
<fC03 i1="05" i2="X" l="SPA"><s0>Teoría decisión</s0>
<s5>05</s5>
</fC03>
<fC03 i1="06" i2="X" l="FRE"><s0>Agent intelligent</s0>
<s5>06</s5>
</fC03>
<fC03 i1="06" i2="X" l="ENG"><s0>Intelligent agent</s0>
<s5>06</s5>
</fC03>
<fC03 i1="06" i2="X" l="SPA"><s0>Agente inteligente</s0>
<s5>06</s5>
</fC03>
<fC03 i1="07" i2="X" l="FRE"><s0>Processus décisionnel markovien partiellement observé</s0>
<s4>INC</s4>
<s5>82</s5>
</fC03>
<fN21><s1>005</s1>
</fN21>
<fN82><s1>PSI</s1>
</fN82>
</pA>
</standard>
<server><NO>PASCAL 04-0001705 INIST</NO>
<FT>Apprentissage par renforcement pour les processus décisionnels de Markov partiellement observés. Apprendre une extension sélective du passé</FT>
<ET>(The reinforcement learning for partially observed Markov decision process. the selectif extension of past learning)</ET>
<AU>DUTECH (Alain); SAMUELIDES (Manuel)</AU>
<AF>LORIA -, MAIA, BP 239/54506 Vandoeuvre les Nancy/France (1 aut.); Ecole Nationale de l'Aéronautique et de l'Espace, 10 avenue Edouard Belin, BP 4032/31055 Toulouse/France (2 aut.)</AF>
<DT>Publication en série; Niveau analytique</DT>
<SO>Revue d'intelligence artificielle; ISSN 0992-499X; France; Da. 2003; Vol. 17; No. 4; Pp. 559-589; Abs. anglais; Bibl. 1 p.1/4</SO>
<LA>Français</LA>
<FA>Nous présentons un nouvel algorithme qui contribue à étendre le formalisme de l'Apprentissage par Renforcement (RL) aux Processus Décisionnels Markoviens Partiellement Observés (POMDP). L'idée principale de notre méthode est de construire une extension d'état, appelée observable exhaustif, qui permet de définir un nouveau processus qui est alors markovien. Nous démontrons que résoudre ce nouveau processus, auquel on peut appliquer les techniques classiques de RL, apporte une solution optimale au POMDP original. Nous appliquons l'algorithme déduit de ce résultat sur plusieurs exemples pour en tester la validité et la robustesse.</FA>
<CC>001D02C02</CC>
<FD>Apprentissage(intelligence artificielle); Apprentissage renforcé; Solution optimale; Processus Markov; Théorie décision; Agent intelligent; Processus décisionnel markovien partiellement observé</FD>
<ED>Learning (artificial intelligence); Reinforcement learning; Optimal solution; Markov process; Decision theory; Intelligent agent</ED>
<SD>Aprendizaje reforzado; Solución óptima; Proceso Markov; Teoría decisión; Agente inteligente</SD>
<LO>INIST-21320.354000114864620010</LO>
<ID>04-0001705</ID>
</server>
</inist>
</record>
Pour manipuler ce document sous Unix (Dilib)
EXPLOR_STEP=$WICRI_ROOT/Wicri/Lorraine/explor/InforLorV4/Data/PascalFrancis/Corpus
HfdSelect -h $EXPLOR_STEP/biblio.hfd -nk 000745 | SxmlIndent | more
Ou
HfdSelect -h $EXPLOR_AREA/Data/PascalFrancis/Corpus/biblio.hfd -nk 000745 | SxmlIndent | more
Pour mettre un lien sur cette page dans le réseau Wicri
{{Explor lien |wiki= Wicri/Lorraine |area= InforLorV4 |flux= PascalFrancis |étape= Corpus |type= RBID |clé= Pascal:04-0001705 |texte= Apprentissage par renforcement pour les processus décisionnels de Markov partiellement observés. Apprendre une extension sélective du passé }}
![]() | This area was generated with Dilib version V0.6.33. | ![]() |