发布于2023-04-20
强化学习MuJoCo环境安装
这玩意儿是个大坑,网上很多都说mujoco200及以上的版本不能在windows上用。经过不断尝试,反复创建、删除了多次虚拟环境后终于在win11上装好了MuJoCo210版本以及MultiAgent_MuJoCo,为此写篇博客记录一下。
发布于2023-03-31
策略梯度(Policy Gradient)
本学期讨论班让讲解强化学习的基本原理和算法,用以发掘从原理上可以改进的Idea,所以对之前学过的一些算法进行了总结,回顾和解决了一些以前初学时未注意到的细节问题。本篇即为其中的第一个算法:策略梯度。