Serveur d'exploration sur la recherche en informatique en Lorraine

Attention, ce site est en cours de développement !
Attention, site généré par des moyens informatiques à partir de corpus bruts.
Les informations ne sont donc pas validées.

Apprentissage par renforcement pour les processus décisionnels de Markov partiellement observés. Apprendre une extension sélective du passé

Identifieur interne : 000745 ( PascalFrancis/Corpus ); précédent : 000744; suivant : 000746

Apprentissage par renforcement pour les processus décisionnels de Markov partiellement observés. Apprendre une extension sélective du passé

Auteurs : Alain Dutech ; Manuel Samuelides

Source :

RBID : Pascal:04-0001705

Descripteurs français

English descriptors

Abstract

Nous présentons un nouvel algorithme qui contribue à étendre le formalisme de l'Apprentissage par Renforcement (RL) aux Processus Décisionnels Markoviens Partiellement Observés (POMDP). L'idée principale de notre méthode est de construire une extension d'état, appelée observable exhaustif, qui permet de définir un nouveau processus qui est alors markovien. Nous démontrons que résoudre ce nouveau processus, auquel on peut appliquer les techniques classiques de RL, apporte une solution optimale au POMDP original. Nous appliquons l'algorithme déduit de ce résultat sur plusieurs exemples pour en tester la validité et la robustesse.

Notice en format standard (ISO 2709)

Pour connaître la documentation sur le format Inist Standard.

pA  
A01 01  1    @0 0992-499X
A03   1    @0 Rev. intell. artif.
A05       @2 17
A06       @2 4
A08 01  1  FRE  @1 Apprentissage par renforcement pour les processus décisionnels de Markov partiellement observés. Apprendre une extension sélective du passé
A11 01  1    @1 DUTECH (Alain)
A11 02  1    @1 SAMUELIDES (Manuel)
A14 01      @1 LORIA -, MAIA, BP 239 @2 54506 Vandoeuvre les Nancy @3 FRA @Z 1 aut.
A14 02      @1 Ecole Nationale de l'Aéronautique et de l'Espace, 10 avenue Edouard Belin, BP 4032 @2 31055 Toulouse @3 FRA @Z 2 aut.
A20       @1 559-589
A21       @1 2003
A23 01      @0 FRE
A24 01      @0 eng
A43 01      @1 INIST @2 21320 @5 354000114864620010
A44       @0 0000 @1 © 2004 INIST-CNRS. All rights reserved.
A45       @0 1 p.1/4
A47 01  1    @0 04-0001705
A60       @1 P
A61       @0 A
A64 01  1    @0 Revue d'intelligence artificielle
A66 01      @0 FRA
A68 01  1  ENG  @1 The reinforcement learning for partially observed Markov decision process. the selectif extension of past learning
C01 01    FRE  @0 Nous présentons un nouvel algorithme qui contribue à étendre le formalisme de l'Apprentissage par Renforcement (RL) aux Processus Décisionnels Markoviens Partiellement Observés (POMDP). L'idée principale de notre méthode est de construire une extension d'état, appelée observable exhaustif, qui permet de définir un nouveau processus qui est alors markovien. Nous démontrons que résoudre ce nouveau processus, auquel on peut appliquer les techniques classiques de RL, apporte une solution optimale au POMDP original. Nous appliquons l'algorithme déduit de ce résultat sur plusieurs exemples pour en tester la validité et la robustesse.
C02 01  X    @0 001D02C02
C03 01  3  FRE  @0 Apprentissage(intelligence artificielle) @5 01
C03 01  3  ENG  @0 Learning (artificial intelligence) @5 01
C03 02  X  FRE  @0 Apprentissage renforcé @5 02
C03 02  X  ENG  @0 Reinforcement learning @5 02
C03 02  X  SPA  @0 Aprendizaje reforzado @5 02
C03 03  X  FRE  @0 Solution optimale @5 03
C03 03  X  ENG  @0 Optimal solution @5 03
C03 03  X  SPA  @0 Solución óptima @5 03
C03 04  X  FRE  @0 Processus Markov @5 04
C03 04  X  ENG  @0 Markov process @5 04
C03 04  X  SPA  @0 Proceso Markov @5 04
C03 05  X  FRE  @0 Théorie décision @5 05
C03 05  X  ENG  @0 Decision theory @5 05
C03 05  X  SPA  @0 Teoría decisión @5 05
C03 06  X  FRE  @0 Agent intelligent @5 06
C03 06  X  ENG  @0 Intelligent agent @5 06
C03 06  X  SPA  @0 Agente inteligente @5 06
C03 07  X  FRE  @0 Processus décisionnel markovien partiellement observé @4 INC @5 82
N21       @1 005
N82       @1 PSI

Format Inist (serveur)

NO : PASCAL 04-0001705 INIST
FT : Apprentissage par renforcement pour les processus décisionnels de Markov partiellement observés. Apprendre une extension sélective du passé
ET : (The reinforcement learning for partially observed Markov decision process. the selectif extension of past learning)
AU : DUTECH (Alain); SAMUELIDES (Manuel)
AF : LORIA -, MAIA, BP 239/54506 Vandoeuvre les Nancy/France (1 aut.); Ecole Nationale de l'Aéronautique et de l'Espace, 10 avenue Edouard Belin, BP 4032/31055 Toulouse/France (2 aut.)
DT : Publication en série; Niveau analytique
SO : Revue d'intelligence artificielle; ISSN 0992-499X; France; Da. 2003; Vol. 17; No. 4; Pp. 559-589; Abs. anglais; Bibl. 1 p.1/4
LA : Français
FA : Nous présentons un nouvel algorithme qui contribue à étendre le formalisme de l'Apprentissage par Renforcement (RL) aux Processus Décisionnels Markoviens Partiellement Observés (POMDP). L'idée principale de notre méthode est de construire une extension d'état, appelée observable exhaustif, qui permet de définir un nouveau processus qui est alors markovien. Nous démontrons que résoudre ce nouveau processus, auquel on peut appliquer les techniques classiques de RL, apporte une solution optimale au POMDP original. Nous appliquons l'algorithme déduit de ce résultat sur plusieurs exemples pour en tester la validité et la robustesse.
CC : 001D02C02
FD : Apprentissage(intelligence artificielle); Apprentissage renforcé; Solution optimale; Processus Markov; Théorie décision; Agent intelligent; Processus décisionnel markovien partiellement observé
ED : Learning (artificial intelligence); Reinforcement learning; Optimal solution; Markov process; Decision theory; Intelligent agent
SD : Aprendizaje reforzado; Solución óptima; Proceso Markov; Teoría decisión; Agente inteligente
LO : INIST-21320.354000114864620010
ID : 04-0001705

Links to Exploration step

Pascal:04-0001705

Le document en format XML

<record>
<TEI>
<teiHeader>
<fileDesc>
<titleStmt>
<title xml:lang="fr" level="a">Apprentissage par renforcement pour les processus décisionnels de Markov partiellement observés. Apprendre une extension sélective du passé</title>
<author>
<name sortKey="Dutech, Alain" sort="Dutech, Alain" uniqKey="Dutech A" first="Alain" last="Dutech">Alain Dutech</name>
<affiliation>
<inist:fA14 i1="01">
<s1>LORIA -, MAIA, BP 239</s1>
<s2>54506 Vandoeuvre les Nancy</s2>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
</inist:fA14>
</affiliation>
</author>
<author>
<name sortKey="Samuelides, Manuel" sort="Samuelides, Manuel" uniqKey="Samuelides M" first="Manuel" last="Samuelides">Manuel Samuelides</name>
<affiliation>
<inist:fA14 i1="02">
<s1>Ecole Nationale de l'Aéronautique et de l'Espace, 10 avenue Edouard Belin, BP 4032</s1>
<s2>31055 Toulouse</s2>
<s3>FRA</s3>
<sZ>2 aut.</sZ>
</inist:fA14>
</affiliation>
</author>
</titleStmt>
<publicationStmt>
<idno type="wicri:source">INIST</idno>
<idno type="inist">04-0001705</idno>
<date when="2003">2003</date>
<idno type="stanalyst">PASCAL 04-0001705 INIST</idno>
<idno type="RBID">Pascal:04-0001705</idno>
<idno type="wicri:Area/PascalFrancis/Corpus">000745</idno>
</publicationStmt>
<sourceDesc>
<biblStruct>
<analytic>
<title xml:lang="fr" level="a">Apprentissage par renforcement pour les processus décisionnels de Markov partiellement observés. Apprendre une extension sélective du passé</title>
<author>
<name sortKey="Dutech, Alain" sort="Dutech, Alain" uniqKey="Dutech A" first="Alain" last="Dutech">Alain Dutech</name>
<affiliation>
<inist:fA14 i1="01">
<s1>LORIA -, MAIA, BP 239</s1>
<s2>54506 Vandoeuvre les Nancy</s2>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
</inist:fA14>
</affiliation>
</author>
<author>
<name sortKey="Samuelides, Manuel" sort="Samuelides, Manuel" uniqKey="Samuelides M" first="Manuel" last="Samuelides">Manuel Samuelides</name>
<affiliation>
<inist:fA14 i1="02">
<s1>Ecole Nationale de l'Aéronautique et de l'Espace, 10 avenue Edouard Belin, BP 4032</s1>
<s2>31055 Toulouse</s2>
<s3>FRA</s3>
<sZ>2 aut.</sZ>
</inist:fA14>
</affiliation>
</author>
</analytic>
<series>
<title level="j" type="main">Revue d'intelligence artificielle</title>
<title level="j" type="abbreviated">Rev. intell. artif.</title>
<idno type="ISSN">0992-499X</idno>
<imprint>
<date when="2003">2003</date>
</imprint>
</series>
</biblStruct>
</sourceDesc>
<seriesStmt>
<title level="j" type="main">Revue d'intelligence artificielle</title>
<title level="j" type="abbreviated">Rev. intell. artif.</title>
<idno type="ISSN">0992-499X</idno>
</seriesStmt>
</fileDesc>
<profileDesc>
<textClass>
<keywords scheme="KwdEn" xml:lang="en">
<term>Decision theory</term>
<term>Intelligent agent</term>
<term>Learning (artificial intelligence)</term>
<term>Markov process</term>
<term>Optimal solution</term>
<term>Reinforcement learning</term>
</keywords>
<keywords scheme="Pascal" xml:lang="fr">
<term>Apprentissage(intelligence artificielle)</term>
<term>Apprentissage renforcé</term>
<term>Solution optimale</term>
<term>Processus Markov</term>
<term>Théorie décision</term>
<term>Agent intelligent</term>
<term>Processus décisionnel markovien partiellement observé</term>
</keywords>
</textClass>
</profileDesc>
</teiHeader>
<front>
<div type="abstract" xml:lang="fr">Nous présentons un nouvel algorithme qui contribue à étendre le formalisme de l'Apprentissage par Renforcement (RL) aux Processus Décisionnels Markoviens Partiellement Observés (POMDP). L'idée principale de notre méthode est de construire une extension d'état, appelée observable exhaustif, qui permet de définir un nouveau processus qui est alors markovien. Nous démontrons que résoudre ce nouveau processus, auquel on peut appliquer les techniques classiques de RL, apporte une solution optimale au POMDP original. Nous appliquons l'algorithme déduit de ce résultat sur plusieurs exemples pour en tester la validité et la robustesse.</div>
</front>
</TEI>
<inist>
<standard h6="B">
<pA>
<fA01 i1="01" i2="1">
<s0>0992-499X</s0>
</fA01>
<fA03 i2="1">
<s0>Rev. intell. artif.</s0>
</fA03>
<fA05>
<s2>17</s2>
</fA05>
<fA06>
<s2>4</s2>
</fA06>
<fA08 i1="01" i2="1" l="FRE">
<s1>Apprentissage par renforcement pour les processus décisionnels de Markov partiellement observés. Apprendre une extension sélective du passé</s1>
</fA08>
<fA11 i1="01" i2="1">
<s1>DUTECH (Alain)</s1>
</fA11>
<fA11 i1="02" i2="1">
<s1>SAMUELIDES (Manuel)</s1>
</fA11>
<fA14 i1="01">
<s1>LORIA -, MAIA, BP 239</s1>
<s2>54506 Vandoeuvre les Nancy</s2>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
</fA14>
<fA14 i1="02">
<s1>Ecole Nationale de l'Aéronautique et de l'Espace, 10 avenue Edouard Belin, BP 4032</s1>
<s2>31055 Toulouse</s2>
<s3>FRA</s3>
<sZ>2 aut.</sZ>
</fA14>
<fA20>
<s1>559-589</s1>
</fA20>
<fA21>
<s1>2003</s1>
</fA21>
<fA23 i1="01">
<s0>FRE</s0>
</fA23>
<fA24 i1="01">
<s0>eng</s0>
</fA24>
<fA43 i1="01">
<s1>INIST</s1>
<s2>21320</s2>
<s5>354000114864620010</s5>
</fA43>
<fA44>
<s0>0000</s0>
<s1>© 2004 INIST-CNRS. All rights reserved.</s1>
</fA44>
<fA45>
<s0>1 p.1/4</s0>
</fA45>
<fA47 i1="01" i2="1">
<s0>04-0001705</s0>
</fA47>
<fA60>
<s1>P</s1>
</fA60>
<fA61>
<s0>A</s0>
</fA61>
<fA64 i1="01" i2="1">
<s0>Revue d'intelligence artificielle</s0>
</fA64>
<fA66 i1="01">
<s0>FRA</s0>
</fA66>
<fA68 i1="01" i2="1" l="ENG">
<s1>The reinforcement learning for partially observed Markov decision process. the selectif extension of past learning</s1>
</fA68>
<fC01 i1="01" l="FRE">
<s0>Nous présentons un nouvel algorithme qui contribue à étendre le formalisme de l'Apprentissage par Renforcement (RL) aux Processus Décisionnels Markoviens Partiellement Observés (POMDP). L'idée principale de notre méthode est de construire une extension d'état, appelée observable exhaustif, qui permet de définir un nouveau processus qui est alors markovien. Nous démontrons que résoudre ce nouveau processus, auquel on peut appliquer les techniques classiques de RL, apporte une solution optimale au POMDP original. Nous appliquons l'algorithme déduit de ce résultat sur plusieurs exemples pour en tester la validité et la robustesse.</s0>
</fC01>
<fC02 i1="01" i2="X">
<s0>001D02C02</s0>
</fC02>
<fC03 i1="01" i2="3" l="FRE">
<s0>Apprentissage(intelligence artificielle)</s0>
<s5>01</s5>
</fC03>
<fC03 i1="01" i2="3" l="ENG">
<s0>Learning (artificial intelligence)</s0>
<s5>01</s5>
</fC03>
<fC03 i1="02" i2="X" l="FRE">
<s0>Apprentissage renforcé</s0>
<s5>02</s5>
</fC03>
<fC03 i1="02" i2="X" l="ENG">
<s0>Reinforcement learning</s0>
<s5>02</s5>
</fC03>
<fC03 i1="02" i2="X" l="SPA">
<s0>Aprendizaje reforzado</s0>
<s5>02</s5>
</fC03>
<fC03 i1="03" i2="X" l="FRE">
<s0>Solution optimale</s0>
<s5>03</s5>
</fC03>
<fC03 i1="03" i2="X" l="ENG">
<s0>Optimal solution</s0>
<s5>03</s5>
</fC03>
<fC03 i1="03" i2="X" l="SPA">
<s0>Solución óptima</s0>
<s5>03</s5>
</fC03>
<fC03 i1="04" i2="X" l="FRE">
<s0>Processus Markov</s0>
<s5>04</s5>
</fC03>
<fC03 i1="04" i2="X" l="ENG">
<s0>Markov process</s0>
<s5>04</s5>
</fC03>
<fC03 i1="04" i2="X" l="SPA">
<s0>Proceso Markov</s0>
<s5>04</s5>
</fC03>
<fC03 i1="05" i2="X" l="FRE">
<s0>Théorie décision</s0>
<s5>05</s5>
</fC03>
<fC03 i1="05" i2="X" l="ENG">
<s0>Decision theory</s0>
<s5>05</s5>
</fC03>
<fC03 i1="05" i2="X" l="SPA">
<s0>Teoría decisión</s0>
<s5>05</s5>
</fC03>
<fC03 i1="06" i2="X" l="FRE">
<s0>Agent intelligent</s0>
<s5>06</s5>
</fC03>
<fC03 i1="06" i2="X" l="ENG">
<s0>Intelligent agent</s0>
<s5>06</s5>
</fC03>
<fC03 i1="06" i2="X" l="SPA">
<s0>Agente inteligente</s0>
<s5>06</s5>
</fC03>
<fC03 i1="07" i2="X" l="FRE">
<s0>Processus décisionnel markovien partiellement observé</s0>
<s4>INC</s4>
<s5>82</s5>
</fC03>
<fN21>
<s1>005</s1>
</fN21>
<fN82>
<s1>PSI</s1>
</fN82>
</pA>
</standard>
<server>
<NO>PASCAL 04-0001705 INIST</NO>
<FT>Apprentissage par renforcement pour les processus décisionnels de Markov partiellement observés. Apprendre une extension sélective du passé</FT>
<ET>(The reinforcement learning for partially observed Markov decision process. the selectif extension of past learning)</ET>
<AU>DUTECH (Alain); SAMUELIDES (Manuel)</AU>
<AF>LORIA -, MAIA, BP 239/54506 Vandoeuvre les Nancy/France (1 aut.); Ecole Nationale de l'Aéronautique et de l'Espace, 10 avenue Edouard Belin, BP 4032/31055 Toulouse/France (2 aut.)</AF>
<DT>Publication en série; Niveau analytique</DT>
<SO>Revue d'intelligence artificielle; ISSN 0992-499X; France; Da. 2003; Vol. 17; No. 4; Pp. 559-589; Abs. anglais; Bibl. 1 p.1/4</SO>
<LA>Français</LA>
<FA>Nous présentons un nouvel algorithme qui contribue à étendre le formalisme de l'Apprentissage par Renforcement (RL) aux Processus Décisionnels Markoviens Partiellement Observés (POMDP). L'idée principale de notre méthode est de construire une extension d'état, appelée observable exhaustif, qui permet de définir un nouveau processus qui est alors markovien. Nous démontrons que résoudre ce nouveau processus, auquel on peut appliquer les techniques classiques de RL, apporte une solution optimale au POMDP original. Nous appliquons l'algorithme déduit de ce résultat sur plusieurs exemples pour en tester la validité et la robustesse.</FA>
<CC>001D02C02</CC>
<FD>Apprentissage(intelligence artificielle); Apprentissage renforcé; Solution optimale; Processus Markov; Théorie décision; Agent intelligent; Processus décisionnel markovien partiellement observé</FD>
<ED>Learning (artificial intelligence); Reinforcement learning; Optimal solution; Markov process; Decision theory; Intelligent agent</ED>
<SD>Aprendizaje reforzado; Solución óptima; Proceso Markov; Teoría decisión; Agente inteligente</SD>
<LO>INIST-21320.354000114864620010</LO>
<ID>04-0001705</ID>
</server>
</inist>
</record>

Pour manipuler ce document sous Unix (Dilib)

EXPLOR_STEP=$WICRI_ROOT/Wicri/Lorraine/explor/InforLorV4/Data/PascalFrancis/Corpus
HfdSelect -h $EXPLOR_STEP/biblio.hfd -nk 000745 | SxmlIndent | more

Ou

HfdSelect -h $EXPLOR_AREA/Data/PascalFrancis/Corpus/biblio.hfd -nk 000745 | SxmlIndent | more

Pour mettre un lien sur cette page dans le réseau Wicri

{{Explor lien
   |wiki=    Wicri/Lorraine
   |area=    InforLorV4
   |flux=    PascalFrancis
   |étape=   Corpus
   |type=    RBID
   |clé=     Pascal:04-0001705
   |texte=   Apprentissage par renforcement pour les processus décisionnels de Markov partiellement observés. Apprendre une extension sélective du passé
}}

Wicri

This area was generated with Dilib version V0.6.33.
Data generation: Mon Jun 10 21:56:28 2019. Site generation: Fri Feb 25 15:29:27 2022