Le but de ce livre est de proposer et de développer un nouveau cadre conceptuel pour la programmation dynamique approximative (DP) et l'apprentissage par renforcement (RL). Ce cadre se concentre autour de deux algorithmes, qui sont conçus en grande partie indépendamment l'un de l'autre et fonctionnent en synergie grâce au puissant mécanisme de la méthode de Newton. Nous les appelons la formation hors ligne et les algorithmes de jeu en ligne; les noms sont empruntés à certains des grands succès de RL impliquant des jeux. Les principaux exemples sont le programme AlphaZero récent (2017) (qui joue aux échecs), et le programme TD-Gammon structuré similaire et antérieur (1990) (qui joue au backgammon). Dans ces contextes de jeu, l'algorithme d'entraînement hors ligne est la méthode utilisée pour enseigner au programme comment évaluer les positions et générer de bons mouvements à n'importe quelle position, tandis que l'algorithme de jeu en ligne est la méthode utilisée pour jouer en temps réel contre des adversaires humains ou informatiques. AlphaZero et TD-Gammon ont tous deux été formés hors ligne en utilisant des réseaux de neurones et une version approximative de l'algorithme DP fondamental d'itération de politique. Pourtant, le lecteur AlphaZero qui a été obtenu hors ligne n'est pas utilisé directement pendant le jeu en ligne (il est trop inexact en raison d'erreurs d'approximation inhérentes à l'entraînement hors ligne du réseau neuronal). Au lieu de cela, un joueur en ligne distinct est utilisé pour sélectionner les mouvements, basé sur la minimisation de la rétrospective en plusieurs étapes et un évaluateur de position terminal qui a été formé en utilisant l'expérience du joueur hors ligne. Le joueur en ligne effectue une forme d'amélioration de la politique, qui n'est pas dégradée par les approximations du réseau neuronal. En conséquence, il améliore considérablement les performances du lecteur hors ligne. De même, TD-Gammon effectue en ligne une étape d'amélioration de la politique en utilisant une minimisation anticipée en une ou deux étapes, qui n'est pas dégradée par les approximations des réseaux neuronaux. À cette fin, il utilise un évaluateur de position terminal formé par le réseau neuronal hors ligne et, surtout, il étend également sa prévision en ligne par le déploiement (simulation avec le lecteur lookahead en une étape qui est basé sur l'évaluateur de position). De manière significative, la synergie entre l'entraînement hors ligne et le jeu en ligne sous-tend également le Model Predictive Control (MPC), une méthodologie majeure de conception de système de contrôle qui a été largement développée depuis les années 1980. Cette synergie peut être comprise en termes de modèles abstraits de DP d'horizon infini et de constructions géométriques simples, et aide à expliquer les problèmes de stabilité essentiels dans le contexte MPC. Un avantage supplémentaire de l'amélioration des politiques par approximation de l'espace de valeur, non observée dans le contexte des jeux (qui ont des règles et un environnement stables), est qu'elle fonctionne bien avec la modification des paramètres du problème et la replanification en ligne, similaire au contrôle adaptatif indirect. Ici, l'équation de Bellman est perturbée en raison des changements de paramètres, mais l'approximation dans l'espace de valeur fonctionne toujours comme une étape de Newton. Une exigence essentielle ici est qu'un modèle de système soit estimé en ligne par une méthode d'identification et soit utilisé pendant le processus de minimisation de la prévision en une ou plusieurs étapes. Dans cette monographie, nous visons à fournir des informations (souvent basées sur la visualisation), qui expliquent les effets bénéfiques de la prise de décision en ligne en plus de la formation hors ligne. Dans le processus, nous ferons ressortir les liens solides entre la vue de l'intelligence artificielle de RL, et les vues de la théorie du contrôle du MPC et du contrôle adaptatif. De plus, nous montrerons qu'en plus du MPC et du contrôle adaptatif, notre cadre conceptuel peut être efficacement intégré à d'autres méthodologies importantes telles que les systèmes multiagents et le contrôle décentralisé, l'optimisation discrète et bayésienne et les algorithmes heuristiques pour une optimisation discrète. L'un de nos principaux objectifs est de montrer, à travers les idées algorithmiques de la méthode de Newton et les principes unificateurs du DP abstrait, que la méthodologie AlphaZero/TD-Gammon d'approximation dans l'espace de valeur et le déploiement s'applique très largement aux problèmes de contrôle optimaux déterministes et stochastiques. La méthode de Newton est utilisée ici pour la solution de l'équation de Bellman, une équation d'opérateur qui s'applique universellement dans DP avec des espaces d'état discrets et continus, ainsi que des espaces de contrôle finis et infini.
Les informations fournies dans la section « Synopsis » peuvent faire référence à une autre édition de ce titre.