InforLorV4, PascalFrancis, Corpus, bibRecord, 000745

Apprentissage par renforcement pour les processus décisionnels de Markov partiellement observés. Apprendre une extension sélective du passé

Identifieur interne : 000745 ( PascalFrancis/Corpus ); précédent : 000744; suivant : 000746

Apprentissage par renforcement pour les processus décisionnels de Markov partiellement observés. Apprendre une extension sélective du passé

Auteurs : Alain Dutech ; Manuel Samuelides

Source :

Revue d'intelligence artificielle [ 0992-499X ] ; 2003.

RBID : Pascal:04-0001705

Descripteurs français

Pascal (Inist)
- Apprentissage(intelligence artificielle), Apprentissage renforcé, Solution optimale, Processus Markov, Théorie décision, Agent intelligent, Processus décisionnel markovien partiellement observé.

English descriptors

KwdEn :
- Decision theory, Intelligent agent, Learning (artificial intelligence), Markov process, Optimal solution, Reinforcement learning.

Abstract

Nous présentons un nouvel algorithme qui contribue à étendre le formalisme de l'Apprentissage par Renforcement (RL) aux Processus Décisionnels Markoviens Partiellement Observés (POMDP). L'idée principale de notre méthode est de construire une extension d'état, appelée observable exhaustif, qui permet de définir un nouveau processus qui est alors markovien. Nous démontrons que résoudre ce nouveau processus, auquel on peut appliquer les techniques classiques de RL, apporte une solution optimale au POMDP original. Nous appliquons l'algorithme déduit de ce résultat sur plusieurs exemples pour en tester la validité et la robustesse.

Notice en format standard (ISO 2709)

Pour connaître la documentation sur le format Inist Standard.

A01	`01`	`1`		`@0 0992-499X`
A03		`1`		`@0 Rev. intell. artif.`
A05				`@2 17`
A06				`@2 4`
A08	`01`	`1`	`FRE`	`@1 Apprentissage par renforcement pour les processus décisionnels de Markov partiellement observés. Apprendre une extension sélective du passé`
A11	`01`	`1`		`@1 DUTECH (Alain)`
A11	`02`	`1`		`@1 SAMUELIDES (Manuel)`
A14	`01`			`@1 LORIA -, MAIA, BP 239 @2 54506 Vandoeuvre les Nancy @3 FRA @Z 1 aut.`
A14	`02`			`@1 Ecole Nationale de l'Aéronautique et de l'Espace, 10 avenue Edouard Belin, BP 4032 @2 31055 Toulouse @3 FRA @Z 2 aut.`
A20				`@1 559-589`
A21				`@1 2003`
A23	`01`			`@0 FRE`
A24	`01`			`@0 eng`
A43	`01`			`@1 INIST @2 21320 @5 354000114864620010`
A44				`@0 0000 @1 © 2004 INIST-CNRS. All rights reserved.`
A45				`@0 1 p.1/4`
A47	`01`	`1`		`@0 04-0001705`
A60				`@1 P`
A61				`@0 A`
A64	`01`	`1`		`@0 Revue d'intelligence artificielle`
A66	`01`			`@0 FRA`
A68	`01`	`1`	`ENG`	`@1 The reinforcement learning for partially observed Markov decision process. the selectif extension of past learning`
C01	`01`		`FRE`	@0 Nous présentons un nouvel algorithme qui contribue à étendre le formalisme de l'Apprentissage par Renforcement (RL) aux Processus Décisionnels Markoviens Partiellement Observés (POMDP). L'idée principale de notre méthode est de construire une extension d'état, appelée observable exhaustif, qui permet de définir un nouveau processus qui est alors markovien. Nous démontrons que résoudre ce nouveau processus, auquel on peut appliquer les techniques classiques de RL, apporte une solution optimale au POMDP original. Nous appliquons l'algorithme déduit de ce résultat sur plusieurs exemples pour en tester la validité et la robustesse.
C02	`01`	`X`		`@0 001D02C02`
C03	`01`	`3`	`FRE`	`@0 Apprentissage(intelligence artificielle) @5 01`
C03	`01`	`3`	`ENG`	`@0 Learning (artificial intelligence) @5 01`
C03	`02`	`X`	`FRE`	`@0 Apprentissage renforcé @5 02`
C03	`02`	`X`	`ENG`	`@0 Reinforcement learning @5 02`
C03	`02`	`X`	`SPA`	`@0 Aprendizaje reforzado @5 02`
C03	`03`	`X`	`FRE`	`@0 Solution optimale @5 03`
C03	`03`	`X`	`ENG`	`@0 Optimal solution @5 03`
C03	`03`	`X`	`SPA`	`@0 Solución óptima @5 03`
C03	`04`	`X`	`FRE`	`@0 Processus Markov @5 04`
C03	`04`	`X`	`ENG`	`@0 Markov process @5 04`
C03	`04`	`X`	`SPA`	`@0 Proceso Markov @5 04`
C03	`05`	`X`	`FRE`	`@0 Théorie décision @5 05`
C03	`05`	`X`	`ENG`	`@0 Decision theory @5 05`
C03	`05`	`X`	`SPA`	`@0 Teoría decisión @5 05`
C03	`06`	`X`	`FRE`	`@0 Agent intelligent @5 06`
C03	`06`	`X`	`ENG`	`@0 Intelligent agent @5 06`
C03	`06`	`X`	`SPA`	`@0 Agente inteligente @5 06`
C03	`07`	`X`	`FRE`	`@0 Processus décisionnel markovien partiellement observé @4 INC @5 82`
N21				`@1 005`
N82				`@1 PSI`

Format Inist (serveur)

NO :	PASCAL 04-0001705 INIST
FT :	Apprentissage par renforcement pour les processus décisionnels de Markov partiellement observés. Apprendre une extension sélective du passé
ET :	(The reinforcement learning for partially observed Markov decision process. the selectif extension of past learning)
AU :	DUTECH (Alain); SAMUELIDES (Manuel)
AF :	LORIA -, MAIA, BP 239/54506 Vandoeuvre les Nancy/France (1 aut.); Ecole Nationale de l'Aéronautique et de l'Espace, 10 avenue Edouard Belin, BP 4032/31055 Toulouse/France (2 aut.)
DT :	Publication en série; Niveau analytique
SO :	Revue d'intelligence artificielle; ISSN 0992-499X; France; Da. 2003; Vol. 17; No. 4; Pp. 559-589; Abs. anglais; Bibl. 1 p.1/4
LA :	Français
FA :	Nous présentons un nouvel algorithme qui contribue à étendre le formalisme de l'Apprentissage par Renforcement (RL) aux Processus Décisionnels Markoviens Partiellement Observés (POMDP). L'idée principale de notre méthode est de construire une extension d'état, appelée observable exhaustif, qui permet de définir un nouveau processus qui est alors markovien. Nous démontrons que résoudre ce nouveau processus, auquel on peut appliquer les techniques classiques de RL, apporte une solution optimale au POMDP original. Nous appliquons l'algorithme déduit de ce résultat sur plusieurs exemples pour en tester la validité et la robustesse.
CC :	001D02C02
FD :	Apprentissage(intelligence artificielle); Apprentissage renforcé; Solution optimale; Processus Markov; Théorie décision; Agent intelligent; Processus décisionnel markovien partiellement observé
ED :	Learning (artificial intelligence); Reinforcement learning; Optimal solution; Markov process; Decision theory; Intelligent agent
SD :	Aprendizaje reforzado; Solución óptima; Proceso Markov; Teoría decisión; Agente inteligente
LO :	INIST-21320.354000114864620010
ID :	04-0001705

Links to Exploration step

Pascal:04-0001705

Le document en format XML

<record><TEI><teiHeader><fileDesc><titleStmt><title xml:lang="fr" level="a">Apprentissage par renforcement pour les processus décisionnels de Markov partiellement observés. Apprendre une extension sélective du passé</title>
<author><name sortKey="Dutech, Alain" sort="Dutech, Alain" uniqKey="Dutech A" first="Alain" last="Dutech">Alain Dutech</name>
<affiliation><inist:fA14 i1="01"><s1>LORIA -, MAIA, BP 239</s1>
<s2>54506 Vandoeuvre les Nancy</s2>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
</inist:fA14>
</affiliation>
</author>
<author><name sortKey="Samuelides, Manuel" sort="Samuelides, Manuel" uniqKey="Samuelides M" first="Manuel" last="Samuelides">Manuel Samuelides</name>
<affiliation><inist:fA14 i1="02"><s1>Ecole Nationale de l'Aéronautique et de l'Espace, 10 avenue Edouard Belin, BP 4032</s1>
<s2>31055 Toulouse</s2>
<s3>FRA</s3>
<sZ>2 aut.</sZ>
</inist:fA14>
</affiliation>
</author>
</titleStmt>
<publicationStmt><idno type="wicri:source">INIST</idno>
<idno type="inist">04-0001705</idno>
<date when="2003">2003</date>
<idno type="stanalyst">PASCAL 04-0001705 INIST</idno>
<idno type="RBID">Pascal:04-0001705</idno>
<idno type="wicri:Area/PascalFrancis/Corpus">000745</idno>
</publicationStmt>
<sourceDesc><biblStruct><analytic><title xml:lang="fr" level="a">Apprentissage par renforcement pour les processus décisionnels de Markov partiellement observés. Apprendre une extension sélective du passé</title>
<author><name sortKey="Dutech, Alain" sort="Dutech, Alain" uniqKey="Dutech A" first="Alain" last="Dutech">Alain Dutech</name>
<affiliation><inist:fA14 i1="01"><s1>LORIA -, MAIA, BP 239</s1>
<s2>54506 Vandoeuvre les Nancy</s2>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
</inist:fA14>
</affiliation>
</author>
<author><name sortKey="Samuelides, Manuel" sort="Samuelides, Manuel" uniqKey="Samuelides M" first="Manuel" last="Samuelides">Manuel Samuelides</name>
<affiliation><inist:fA14 i1="02"><s1>Ecole Nationale de l'Aéronautique et de l'Espace, 10 avenue Edouard Belin, BP 4032</s1>
<s2>31055 Toulouse</s2>
<s3>FRA</s3>
<sZ>2 aut.</sZ>
</inist:fA14>
</affiliation>
</author>
</analytic>
<series><title level="j" type="main">Revue d'intelligence artificielle</title>
<title level="j" type="abbreviated">Rev. intell. artif.</title>
<idno type="ISSN">0992-499X</idno>
<imprint><date when="2003">2003</date>
</imprint>
</series>
</biblStruct>
</sourceDesc>
<seriesStmt><title level="j" type="main">Revue d'intelligence artificielle</title>
<title level="j" type="abbreviated">Rev. intell. artif.</title>
<idno type="ISSN">0992-499X</idno>
</seriesStmt>
</fileDesc>
<profileDesc><textClass><keywords scheme="KwdEn" xml:lang="en"><term>Decision theory</term>
<term>Intelligent agent</term>
<term>Learning (artificial intelligence)</term>
<term>Markov process</term>
<term>Optimal solution</term>
<term>Reinforcement learning</term>
</keywords>
<keywords scheme="Pascal" xml:lang="fr"><term>Apprentissage(intelligence artificielle)</term>
<term>Apprentissage renforcé</term>
<term>Solution optimale</term>
<term>Processus Markov</term>
<term>Théorie décision</term>
<term>Agent intelligent</term>
<term>Processus décisionnel markovien partiellement observé</term>
</keywords>
</textClass>
</profileDesc>
</teiHeader>
<front><div type="abstract" xml:lang="fr">Nous présentons un nouvel algorithme qui contribue à étendre le formalisme de l'Apprentissage par Renforcement (RL) aux Processus Décisionnels Markoviens Partiellement Observés (POMDP). L'idée principale de notre méthode est de construire une extension d'état, appelée observable exhaustif, qui permet de définir un nouveau processus qui est alors markovien. Nous démontrons que résoudre ce nouveau processus, auquel on peut appliquer les techniques classiques de RL, apporte une solution optimale au POMDP original. Nous appliquons l'algorithme déduit de ce résultat sur plusieurs exemples pour en tester la validité et la robustesse.</div>
</front>
</TEI>
<inist><standard h6="B"><pA><fA01 i1="01" i2="1"><s0>0992-499X</s0>
</fA01>
<fA03 i2="1"><s0>Rev. intell. artif.</s0>
</fA03>
<fA05><s2>17</s2>
</fA05>
<fA06><s2>4</s2>
</fA06>
<fA08 i1="01" i2="1" l="FRE"><s1>Apprentissage par renforcement pour les processus décisionnels de Markov partiellement observés. Apprendre une extension sélective du passé</s1>
</fA08>
<fA11 i1="01" i2="1"><s1>DUTECH (Alain)</s1>
</fA11>
<fA11 i1="02" i2="1"><s1>SAMUELIDES (Manuel)</s1>
</fA11>
<fA14 i1="01"><s1>LORIA -, MAIA, BP 239</s1>
<s2>54506 Vandoeuvre les Nancy</s2>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
</fA14>
<fA14 i1="02"><s1>Ecole Nationale de l'Aéronautique et de l'Espace, 10 avenue Edouard Belin, BP 4032</s1>
<s2>31055 Toulouse</s2>
<s3>FRA</s3>
<sZ>2 aut.</sZ>
</fA14>
<fA20><s1>559-589</s1>
</fA20>
<fA21><s1>2003</s1>
</fA21>
<fA23 i1="01"><s0>FRE</s0>
</fA23>
<fA24 i1="01"><s0>eng</s0>
</fA24>
<fA43 i1="01"><s1>INIST</s1>
<s2>21320</s2>
<s5>354000114864620010</s5>
</fA43>
<fA44><s0>0000</s0>
<s1>© 2004 INIST-CNRS. All rights reserved.</s1>
</fA44>
<fA45><s0>1 p.1/4</s0>
</fA45>
<fA47 i1="01" i2="1"><s0>04-0001705</s0>
</fA47>
<fA60><s1>P</s1>
</fA60>
<fA61><s0>A</s0>
</fA61>
<fA64 i1="01" i2="1"><s0>Revue d'intelligence artificielle</s0>
</fA64>
<fA66 i1="01"><s0>FRA</s0>
</fA66>
<fA68 i1="01" i2="1" l="ENG"><s1>The reinforcement learning for partially observed Markov decision process. the selectif extension of past learning</s1>
</fA68>
<fC01 i1="01" l="FRE"><s0>Nous présentons un nouvel algorithme qui contribue à étendre le formalisme de l'Apprentissage par Renforcement (RL) aux Processus Décisionnels Markoviens Partiellement Observés (POMDP). L'idée principale de notre méthode est de construire une extension d'état, appelée observable exhaustif, qui permet de définir un nouveau processus qui est alors markovien. Nous démontrons que résoudre ce nouveau processus, auquel on peut appliquer les techniques classiques de RL, apporte une solution optimale au POMDP original. Nous appliquons l'algorithme déduit de ce résultat sur plusieurs exemples pour en tester la validité et la robustesse.</s0>
</fC01>
<fC02 i1="01" i2="X"><s0>001D02C02</s0>
</fC02>
<fC03 i1="01" i2="3" l="FRE"><s0>Apprentissage(intelligence artificielle)</s0>
<s5>01</s5>
</fC03>
<fC03 i1="01" i2="3" l="ENG"><s0>Learning (artificial intelligence)</s0>
<s5>01</s5>
</fC03>
<fC03 i1="02" i2="X" l="FRE"><s0>Apprentissage renforcé</s0>
<s5>02</s5>
</fC03>
<fC03 i1="02" i2="X" l="ENG"><s0>Reinforcement learning</s0>
<s5>02</s5>
</fC03>
<fC03 i1="02" i2="X" l="SPA"><s0>Aprendizaje reforzado</s0>
<s5>02</s5>
</fC03>
<fC03 i1="03" i2="X" l="FRE"><s0>Solution optimale</s0>
<s5>03</s5>
</fC03>
<fC03 i1="03" i2="X" l="ENG"><s0>Optimal solution</s0>
<s5>03</s5>
</fC03>
<fC03 i1="03" i2="X" l="SPA"><s0>Solución óptima</s0>
<s5>03</s5>
</fC03>
<fC03 i1="04" i2="X" l="FRE"><s0>Processus Markov</s0>
<s5>04</s5>
</fC03>
<fC03 i1="04" i2="X" l="ENG"><s0>Markov process</s0>
<s5>04</s5>
</fC03>
<fC03 i1="04" i2="X" l="SPA"><s0>Proceso Markov</s0>
<s5>04</s5>
</fC03>
<fC03 i1="05" i2="X" l="FRE"><s0>Théorie décision</s0>
<s5>05</s5>
</fC03>
<fC03 i1="05" i2="X" l="ENG"><s0>Decision theory</s0>
<s5>05</s5>
</fC03>
<fC03 i1="05" i2="X" l="SPA"><s0>Teoría decisión</s0>
<s5>05</s5>
</fC03>
<fC03 i1="06" i2="X" l="FRE"><s0>Agent intelligent</s0>
<s5>06</s5>
</fC03>
<fC03 i1="06" i2="X" l="ENG"><s0>Intelligent agent</s0>
<s5>06</s5>
</fC03>
<fC03 i1="06" i2="X" l="SPA"><s0>Agente inteligente</s0>
<s5>06</s5>
</fC03>
<fC03 i1="07" i2="X" l="FRE"><s0>Processus décisionnel markovien partiellement observé</s0>
<s4>INC</s4>
<s5>82</s5>
</fC03>
<fN21><s1>005</s1>
</fN21>
<fN82><s1>PSI</s1>
</fN82>
</pA>
</standard>
<server><NO>PASCAL 04-0001705 INIST</NO>
<FT>Apprentissage par renforcement pour les processus décisionnels de Markov partiellement observés. Apprendre une extension sélective du passé</FT>
<ET>(The reinforcement learning for partially observed Markov decision process. the selectif extension of past learning)</ET>
<AU>DUTECH (Alain); SAMUELIDES (Manuel)</AU>
<AF>LORIA -, MAIA, BP 239/54506 Vandoeuvre les Nancy/France (1 aut.); Ecole Nationale de l'Aéronautique et de l'Espace, 10 avenue Edouard Belin, BP 4032/31055 Toulouse/France (2 aut.)</AF>
<DT>Publication en série; Niveau analytique</DT>
<SO>Revue d'intelligence artificielle; ISSN 0992-499X; France; Da. 2003; Vol. 17; No. 4; Pp. 559-589; Abs. anglais; Bibl. 1 p.1/4</SO>
<LA>Français</LA>
<FA>Nous présentons un nouvel algorithme qui contribue à étendre le formalisme de l'Apprentissage par Renforcement (RL) aux Processus Décisionnels Markoviens Partiellement Observés (POMDP). L'idée principale de notre méthode est de construire une extension d'état, appelée observable exhaustif, qui permet de définir un nouveau processus qui est alors markovien. Nous démontrons que résoudre ce nouveau processus, auquel on peut appliquer les techniques classiques de RL, apporte une solution optimale au POMDP original. Nous appliquons l'algorithme déduit de ce résultat sur plusieurs exemples pour en tester la validité et la robustesse.</FA>
<CC>001D02C02</CC>
<FD>Apprentissage(intelligence artificielle); Apprentissage renforcé; Solution optimale; Processus Markov; Théorie décision; Agent intelligent; Processus décisionnel markovien partiellement observé</FD>
<ED>Learning (artificial intelligence); Reinforcement learning; Optimal solution; Markov process; Decision theory; Intelligent agent</ED>
<SD>Aprendizaje reforzado; Solución óptima; Proceso Markov; Teoría decisión; Agente inteligente</SD>
<LO>INIST-21320.354000114864620010</LO>
<ID>04-0001705</ID>
</server>
</inist>
</record>

Pour manipuler ce document sous Unix (Dilib)

EXPLOR_STEP=$WICRI_ROOT/Wicri/Lorraine/explor/InforLorV4/Data/PascalFrancis/Corpus

HfdSelect -h $EXPLOR_STEP/biblio.hfd -nk 000745 | SxmlIndent | more

HfdSelect -h $EXPLOR_AREA/Data/PascalFrancis/Corpus/biblio.hfd -nk 000745 | SxmlIndent | more

Pour mettre un lien sur cette page dans le réseau Wicri

{{Explor lien
   |wiki=    Wicri/Lorraine
   |area=    InforLorV4
   |flux=    PascalFrancis
   |étape=   Corpus
   |type=    RBID
   |clé=     Pascal:04-0001705
   |texte=   Apprentissage par renforcement pour les processus décisionnels de Markov partiellement observés. Apprendre une extension sélective du passé
}}

This area was generated with Dilib version V0.6.33.
Data generation: Mon Jun 10 21:56:28 2019. Site generation: Fri Feb 25 15:29:27 2022

	Serveur d'exploration sur la recherche en informatique en Lorraine
	Attention, ce site est en cours de développement ! Attention, site généré par des moyens informatiques à partir de corpus bruts. Les informations ne sont donc pas validées.

Serveur d'exploration sur la recherche en informatique en Lorraine

Apprentissage par renforcement pour les processus décisionnels de Markov partiellement observés. Apprendre une extension sélective du passé

Apprentissage par renforcement pour les processus décisionnels de Markov partiellement observés. Apprendre une extension sélective du passé

Source :

Descripteurs français

English descriptors

Abstract

Notice en format standard (ISO 2709)

Format Inist (serveur)

Links to Exploration step

Le document en format XML

Pour manipuler ce document sous Unix (Dilib)

Pour mettre un lien sur cette page dans le réseau Wicri