DRL之PPO

一、on-policy和off-policy
on-policy:进行自我学习的agent和与环境进行互动的agent是同一网络;
off-policy:看着agentB与环境互动进而进行我学习。
on-policy的缺点:每次策略网络π(&)收集训练数据进行训练后,进行一次梯度上升后,都要进行网络参数&更新,更新后采样的数据的数据就不能用了,因为采样的概率不同了(采样的网络参数&变了),重采样,重新采样浪费时间。off-policy用另一个网络进行互动采样,网络参数不变,这样采样数据可重复使用。
重要采样

(图片均来自李宏毅老师课堂!)
p是在网络参数为&时轨迹x发生的概率,x^i是从p(x)的采样值,但我们要从q(x)中进行采样

目标函数

二、Proximal Policy Optimaization(PPO)

该式后面的KL约束项均是描述actor和critic网络的行为上相似度,如果两个网络相差太多,算出来的值就会有偏差。注意两个网络参数上的相似度并不代表网络行为动作相似