Le�ons d'AlphaZero pour un contr�le optimal, pr�dictif du mod�le et adaptatif - Couverture rigide

Dimitri P. Bertsekas

9781886529175: Le�ons d'AlphaZero pour un contr�le optimal, pr�dictif du mod�le et adaptatif

Couverture rigide

ISBN 10 : 1886529175 ISBN 13 : 9781886529175

Editeur : Athena Scientific, 2022

L'�dition de cet ISBN n'est malheureusement plus disponible.

Le but de ce livre est de proposer et de d�velopper un nouveau cadre conceptuel pour la programmation dynamique approximative (DP) et l'apprentissage par renforcement (RL). Ce cadre se concentre autour de deux algorithmes, qui sont con�us en grande partie ind�pendamment l'un de l'autre et fonctionnent en synergie gr�ce au puissant m�canisme de la m�thode de Newton. Nous les appelons la formation hors ligne et les algorithmes de jeu en ligne; les noms sont emprunt�s � certains des grands succ�s de RL impliquant des jeux. Les principaux exemples sont le programme AlphaZero r�cent (2017) (qui joue aux �checs), et le programme TD-Gammon structur� similaire et ant�rieur (1990) (qui joue au backgammon). Dans ces contextes de jeu, l'algorithme d'entra�nement hors ligne est la m�thode utilis�e pour enseigner au programme comment �valuer les positions et g�n�rer de bons mouvements � n'importe quelle position, tandis que l'algorithme de jeu en ligne est la m�thode utilis�e pour jouer en temps r�el contre des adversaires humains ou informatiques. AlphaZero et TD-Gammon ont tous deux �t� form�s hors ligne en utilisant des r�seaux de neurones et une version approximative de l'algorithme DP fondamental d'it�ration de politique. Pourtant, le lecteur AlphaZero qui a �t� obtenu hors ligne n'est pas utilis� directement pendant le jeu en ligne (il est trop inexact en raison d'erreurs d'approximation inh�rentes � l'entra�nement hors ligne du r�seau neuronal). Au lieu de cela, un joueur en ligne distinct est utilis� pour s�lectionner les mouvements, bas� sur la minimisation de la r�trospective en plusieurs �tapes et un �valuateur de position terminal qui a �t� form� en utilisant l'exp�rience du joueur hors ligne. Le joueur en ligne effectue une forme d'am�lioration de la politique, qui n'est pas d�grad�e par les approximations du r�seau neuronal. En cons�quence, il am�liore consid�rablement les performances du lecteur hors ligne. De m�me, TD-Gammon effectue en ligne une �tape d'am�lioration de la politique en utilisant une minimisation anticip�e en une ou deux �tapes, qui n'est pas d�grad�e par les approximations des r�seaux neuronaux. � cette fin, il utilise un �valuateur de position terminal form� par le r�seau neuronal hors ligne et, surtout, il �tend �galement sa pr�vision en ligne par le d�ploiement (simulation avec le lecteur lookahead en une �tape qui est bas� sur l'�valuateur de position). De mani�re significative, la synergie entre l'entra�nement hors ligne et le jeu en ligne sous-tend �galement le Model Predictive Control (MPC), une m�thodologie majeure de conception de syst�me de contr�le qui a �t� largement d�velopp�e depuis les ann�es 1980. Cette synergie peut �tre comprise en termes de mod�les abstraits de DP d'horizon infini et de constructions g�om�triques simples, et aide � expliquer les probl�mes de stabilit� essentiels dans le contexte MPC. Un avantage suppl�mentaire de l'am�lioration des politiques par approximation de l'espace de valeur, non observ�e dans le contexte des jeux (qui ont des r�gles et un environnement stables), est qu'elle fonctionne bien avec la modification des param�tres du probl�me et la replanification en ligne, similaire au contr�le adaptatif indirect. Ici, l'�quation de Bellman est perturb�e en raison des changements de param�tres, mais l'approximation dans l'espace de valeur fonctionne toujours comme une �tape de Newton. Une exigence essentielle ici est qu'un mod�le de syst�me soit estim� en ligne par une m�thode d'identification et soit utilis� pendant le processus de minimisation de la pr�vision en une ou plusieurs �tapes. Dans cette monographie, nous visons � fournir des informations (souvent bas�es sur la visualisation), qui expliquent les effets b�n�fiques de la prise de d�cision en ligne en plus de la formation hors ligne. Dans le processus, nous ferons ressortir les liens solides entre la vue de l'intelligence artificielle de RL, et les vues de la th�orie du contr�le du MPC et du contr�le adaptatif. De plus, nous montrerons qu'en plus du MPC et du contr�le adaptatif, notre cadre conceptuel peut �tre efficacement int�gr� � d'autres m�thodologies importantes telles que les syst�mes multiagents et le contr�le d�centralis�, l'optimisation discr�te et bay�sienne et les algorithmes heuristiques pour une optimisation discr�te. L'un de nos principaux objectifs est de montrer, � travers les id�es algorithmiques de la m�thode de Newton et les principes unificateurs du DP abstrait, que la m�thodologie AlphaZero/TD-Gammon d'approximation dans l'espace de valeur et le d�ploiement s'applique tr�s largement aux probl�mes de contr�le optimaux d�terministes et stochastiques. La m�thode de Newton est utilis�e ici pour la solution de l'�quation de Bellman, une �quation d'op�rateur qui s'applique universellement dans DP avec des espaces d'�tat discrets et continus, ainsi que des espaces de contr�le finis et infini.

Les informations fournies dans la section � Synopsis � peuvent faire r�f�rence � une autre �dition de ce titre.

�diteur: Athena Scientific
Date d'�dition: 2022
Langue: anglais
ISBN 10: 1886529175
ISBN 13: 9781886529175
Reliure: Reli�
Coordonn�es du fabricant: non disponible
Personne responsable: non disponible