安全强化学习笔记

这篇具有很好参考价值的文章主要介绍了安全强化学习笔记。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

TRPO
如何看懂TRPO里所有的数学推导细节? - 小小何先生的回答 - 知乎

参考资料 Safe Reinforcement Learning

安全/约束强化学习路线图(Safe RL Roadmap)编辑于 2023-05-06

知乎 南山张学有

Safe RL 的一点点总结编辑于 2021-04-25
1.CPO
2.RCPO
3.CPPO-PID
4.SafeLayer+DDPG
5.Safety-Gym

【安全强化学习· 一】Safe Reinforcement Learning(一)2020

Constrained reinforcement learning
constrained markov decision processes

PKU-Alignment/Safe-Policy-Optimization 作者就是CUP的作者,杨耀东团队
NeurIPS 2023: Safe Policy Optimization: A benchmark repository for safe reinforcement learning algorithms
PKU-MARL/OmniSafe github
PKU-MARL/OmniSafe 作者就是CUP的作者,杨耀东团队
OpenAI/safety-starter-agents github

环境

gymnasium

safety-gym openai网页
Benchmarking Safe Exploration in Deep Reinforcement Learning, Ray et al, 2019.
safety-gymnasium文档

Bullet-Safety-Gym

安装教程:
Win 10、Win 11 安装 MuJoCo 及 mujoco-py 教程

日期:20240118
操作系统:Windows 10
python版本:3.8.18
mujoco版本:mjpro150
mujoco-py版本:1.50.1.0
gym版本:pip install gym==0.25.2
vs_buildtools_2017.exe

Cython.Compiler.Errors.CompileError: F:\Anaconda\envs\envpy38\lib\site-packages\mujoco_py-1.50.1.0-py3.8.egg\mujoco_py\cymj.pyx
pip install Cython==3.0.0a10

安全强化学习简介

安全强化学习笔记,人工智能,强化学习,深度强化学习
安全强化学习笔记,人工智能,强化学习,深度强化学习

算法

算法 算法 类型 时间 会议 引用量
CPO 约束策略优化 CPO-based 二阶 2017 ICML 1214
RCPO 奖励约束策略优化 Primal-Dual 2018 ICLR 452
PCPO 基于投影的约束策略优化 CPO-based 二阶 2019 ICLR 188
FOCOPS 策略空间中的一阶约束优化 CPO-based 一阶 2020 NIPS 87
CRPO 约束修正策略优化 Lagrange 2021 ICML 84
CUP 约束更新投影 CPO-based 一阶 2022 NIPS 18

王雪松, 王荣荣, 程玉虎. 安全强化学习综述. 自动化学报, 2023, 49(9): 1813−1835 doi: 10.16383/j.aas.c220631

安全强化学习综述
2.2.2 信赖域法
约束型策略优化 (Constrained policy optimization, CPO)
基于投影的约束策略优化 (Projection-based constrained policy optimization, PCPO)
一阶约束优化方法 (First order constrained optimization in policy space, FOCOPS)
惩罚近端策略优化 (Penalized proximal policy optimization, P3O)
约束修正策略优化 (Constraint-rectified policy optimization, CRPO)
约束变分策略优化 (Constrained variational policy optimization, CVPO)

CPO 2017 ICML

CPO github
CPO omnisafe

知乎 南山张学有
Constrained Policy Optimization 上海交通大学 工学硕士

PCPO 2019 ICLR

PCPO omnisafe

FOCOPS 2020 NIPS

github代码
omnisafe代码
FOCOPS omnisafe

FOCOPS slideslive ★★★
FOCOPS slideslive 短

知乎 钟典鱼

CPO的问题
从当前策略获取样本轨迹时产生的错误。
泰勒近似引起的近似误差。
使用共轭法计算Fisher信息矩阵的逆矩阵会产生近似误差。

FOCOPS的优势
实现简单,只使用一阶近似。
简单的一阶法避免了泰勒法和共轭法引起的误差。
在实验中表现优于CPO。
不需要任何恢复步骤。

Two-stage Policy Update
安全强化学习笔记,人工智能,强化学习,深度强化学习

安全强化学习笔记,人工智能,强化学习,深度强化学习
安全强化学习笔记,人工智能,强化学习,深度强化学习
∇ ^ θ L π ( θ ) ≈ 1 B ∑ j = 1 B [ ∇ θ D K L ( π θ ∥ π θ ′ ) [ s j ] − 1 β ∇ θ π θ ( a j ∣ s j ) π θ ′ ( a j ∣ s j ) ( A ^ j − ν A ^ j C ) ] 1 D K L ( π θ ∥ π θ ′ ) [ s j ] ≤ δ \hat{\nabla}_\theta \mathcal{L}_\pi(\theta) \approx \frac{1}{B} \sum_{j=1}^B\left[\nabla_\theta D_{\mathrm{KL}}\left(\pi_\theta \| \pi_{\theta^{\prime}}\right)\left[s_j\right]-\frac{1}{\beta} \frac{\nabla_\theta \pi_\theta\left(a_j \mid s_j\right)}{\pi_{\theta^{\prime}}\left(a_j \mid s_j\right)}\left(\hat{A}_j-\nu \hat{A}_j^C\right)\right] \mathbf{1}_{D_{\mathrm{KL}}\left(\pi_\theta \| \pi_{\theta^{\prime}}\right)\left[s_j\right] \leq \delta} ^θLπ(θ)B1j=1B[θDKL(πθπθ)[sj]β1πθ(ajsj)θπθ(ajsj)(A^jνA^jC)]1DKL(πθπθ)[sj]δ

CRPO 2021 ICML

omnisafe代码
CRPO slideslive
CRPO slideslive 短

知乎 钟典鱼

安全强化学习笔记,人工智能,强化学习,深度强化学习
安全强化学习笔记,人工智能,强化学习,深度强化学习

CUP 2022 NIPS

CUP github代码
CUP omnisafe
CUP omnisafe代码

强化学习 safe RL小综述 从TRPO出发 捋清CPO | CUP编辑于 2022-11-24

将GAE引入推导,得出了更紧的上下界
在具体的实现上做了改变,使得每次更新对计算资源的需求更小。

安全强化学习笔记,人工智能,强化学习,深度强化学习
Performance Improvement
L π , i m p r o v e ( θ ) = − 1 B ∑ j = 1 B min ⁡ { π θ ( a j ∣ s j ) π θ ′ ( a j ∣ s j ) A ^ j , c l a m p ( π θ ( a j ∣ s j ) π θ ′ ( a j ∣ s j ) , 1 − ε , 1 + ε ) A ^ j } {{\cal L}_{\pi, {\rm{improve}}}}(\theta ) = -\frac{1}{B}\sum\limits_{j = 1}^{B} {\min \left\{ {\frac{{{\pi _\theta }\left( {{a_j}\mid {s_j}} \right)}}{{{\pi _{{\theta ^{'}}}}\left( {{a_j}\mid {s_j}} \right)}}{{\hat A}_j},{\rm{clamp}}\left( {\frac{{{\pi _\theta }\left( {{a_j}\mid {s_j}} \right)}}{{{\pi _{{\theta ^{'}}}}\left( {{a_j}\mid {s_j}} \right)}},1 - \varepsilon ,1 + \varepsilon } \right){{\hat A}_j}} \right\}} Lπ,improve(θ)=B1j=1Bmin{πθ(ajsj)πθ(ajsj)A^j,clamp(πθ(ajsj)πθ(ajsj),1ε,1+ε)A^j}
安全强化学习笔记,人工智能,强化学习,深度强化学习
Projection
project the policy onto the safe constraint set
L π , p r o j e c t ( θ ) = 1 B ∑ j = 1 B ( K L ( π θ ′ ′ ( ⋅ ∣ s j ) , π θ ( ⋅ ∣ s j ) ) + ν k 1 − γ λ 1 − γ π θ ( a j ∣ s j ) π θ ′ ′ ( a j ∣ s j ) A ^ j C ) {{\cal L}_{\pi, {\rm{project}}}}(\theta ) = \frac{1}{B}\sum\limits_{j = 1}^B \left( {\mathop{\rm KL}\nolimits} \left( {{\pi _{{{\bf{\theta }}^{''}}}}\left( { \cdot \mid {s_{j}}} \right),{\pi _{\bf{\theta }}}\left( { \cdot \mid {s_{j}}} \right)} \right) + {\nu _k}\frac{{1 - \gamma \lambda }}{{1 - \gamma }}\frac{{{\pi _{\bf{\theta }}}\left( {{a_{j}}\mid {s_{j}}} \right)}}{{{\pi _{{{\bf{\theta }}^{''}}}}\left( {{a_{j}}\mid {s_{j}}} \right)}}\hat A_{j}^C \right) Lπ,project(θ)=B1j=1B(KL(πθ′′(sj),πθ(sj))+νk1γ1γλπθ′′(ajsj)πθ(ajsj)A^jC)
安全强化学习笔记,人工智能,强化学习,深度强化学习文章来源地址https://www.toymoban.com/news/detail-785003.html

到了这里,关于安全强化学习笔记的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包