DRL之PPO

一、on-policy和off-policy
on-policy:进行自我学习的agent和与环境进行互动的agent是同一网络；
off-policy:看着agentB与环境互动进而进行我学习。
on-policy的缺点：每次策略网络π（&）收集训练数据进行训练后，进行一次梯度上升后，都要进行网络参数&更新，更新后采样的数据的数据就不能用了，因为采样的概率不同了（采样的网络参数&变了），重采样，重新采样浪费时间。off-policy用另一个网络进行互动采样，网络参数不变，这样采样数据可重复使用。
重要采样：

（图片均来自李宏毅老师课堂！）
p是在网络参数为&时轨迹x发生的概率，x^i是从p(x)的采样值，但我们要从q(x)中进行采样

目标函数

二、Proximal Policy Optimaization(PPO)

该式后面的KL约束项均是描述actor和critic网络的行为上相似度，如果两个网络相差太多，算出来的值就会有偏差。注意两个网络参数上的相似度并不代表网络行为动作相似

人工智能自动驾驶神经网络机器学习数据挖掘 tensorflow

热门推荐