TD3算法
全称Twin Delayed DDPG,是对DDPG算法的继承、发展和改进,论文
改进如下:文章来源:https://www.toymoban.com/news/detail-700718.html
- T w i n \mathcal{T}win Twin:使用了两个critic来评估actor的动作价值,对应两个critic target,一个actor target,因此总共有6个神经网络。
- D e l a y e d \mathcal{D} elayed Delayed:critic参数更新几次之后,才更新actor参数,并把参数同步给各自的target
- 使用较小的 Q t a r g e t Q_{target} Qtarget值更新critic参数,这是为了防止critic "评分"过高,使得actor “骄傲”
算法伪代码
文章来源地址https://www.toymoban.com/news/detail-700718.html
到了这里,关于TD3算法的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!