发布于2023-03-31
策略梯度(Policy Gradient)
本学期讨论班让讲解强化学习的基本原理和算法,用以发掘从原理上可以改进的Idea,所以对之前学过的一些算法进行了总结,回顾和解决了一些以前初学时未注意到的细节问题。本篇即为其中的第一个算法:策略梯度。
发布于2023-03-31
本学期讨论班让讲解强化学习的基本原理和算法,用以发掘从原理上可以改进的Idea,所以对之前学过的一些算法进行了总结,回顾和解决了一些以前初学时未注意到的细节问题。本篇即为其中的第一个算法:策略梯度。
文章数:199
访问量:23851
分类数:12
浏览量:42507
标签数:62