22. 离线MC强化学习算法(1)

这篇具有很好参考价值的文章主要介绍了22. 离线MC强化学习算法(1)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1. 理解离线MC强化学习的关键

离线强化学习的特点是采样策略 π ′ ≠ 待评估策略 π \pi'\ne 待评估策略\pi π=待评估策略π,这就带来一个问题:

如何根据 π ′ \pi' π获取的多条完整轨迹数据,计算得到 Q π ( s , a ) Q_\pi(s,a) Qπ(s,a)的估计值,而不是 Q π ′ ( s , a ) Q_{\pi'}(s,a) Qπ(s,a)的估计值。

重要性采样定理为解决上述问题指明了方向,因此,理解重要性采样定理是理解离线MC强化学习的关键。

2. 什么是重要性采样

  • 重要性采样定理的积分描述

已知随机变量 x x x的函数 f ( x ) f(x) f(x) x x x的两个不同概率分布 p ( x ) , q ( x ) p(x),q(x) p(x),q(x),令 g ( x ) = p ( x ) f ( x ) q ( x ) g(x)=\frac{p(x)f(x)}{q(x)} g(x)=q(x)p(x)f(x),设 E p ( f ) E_p(f) Ep(f) f ( x ) f(x) f(x) p ( x ) p(x) p(x)下的期望, E q ( g ) E_q(g) Eq(g) g ( x ) g(x) g(x) q ( x ) q(x) q(x)分布下的期望,则:
{ E p ( f ) = E q ( g ) E p ( f ) = ∫ x p ( x ) f ( x ) d x E q ( g ) = ∫ x q ( x ) g ( x ) d x \begin{align}\begin{cases} E_p(f)=E_q(g)\\ E_p(f)=\int_xp(x)f(x)dx\\ E_q(g)=\int_xq(x)g(x)dx \end{cases} \end{align} Ep(f)=Eq(g)Ep(f)=xp(x)f(x)dxEq(g)=xq(x)g(x)dx

  • 重要性采样定理的统计学描述

根据重要性采样定理的积分描述,很容易推导出其统计学描述,如下:

已知对 x x x按照 q ( x ) q(x) q(x)进行采样得到的样本集为 S q = { x q , 1 , x q , 2 , ⋯   , x q , m } S_q=\{x_{q,1},x_{q,2},\cdots,x_{q,m}\} Sq={xq,1,xq,2,,xq,m},则
可利用如下公式计算出 E p ( f ) E_p(f) Ep(f)的渐进无偏估计 E p ^ ( f ) \hat{E_p}(f) Ep^(f) E q ( g ) E_q(g) Eq(g)
渐进无偏估计 E q ^ ( g ) \hat{E_q}(g) Eq^(g):
E p ^ ( f ) = E q ^ ( g ) = 1 m ∑ k = 1 m p ( x q , k ) f ( x q , k ) q ( x q , k ) \begin{align} \hat{E_p}(f)=\hat{E_q}(g)=\frac{1}{m}\sum_{k=1}^m\frac{p(x_{q,k})f(x_{q,k})}{q(x_{q,k})} \end{align} Ep^(f)=Eq^(g)=m1k=1mq(xq,k)p(xq,k)f(xq,k)

3.重要性采样定理给我们的一般启示

在估计 x x x的函数 f ( x ) f(x) f(x) p ( x ) p(x) p(x)下的期望时,若实际情形不允许按照 p ( x ) p(x) p(x) x x x进行采样,从而直接根据公式 E p ^ ( f ) = 1 m ∑ k = 1 m f ( x p , k ) \hat{E_p}(f)=\frac{1}{m}\sum_{k=1}^mf(x_{p,k}) Ep^(f)=m1k=1mf(xp,k)估计 E p ( f ) E_p(f) Ep(f)时,可以按照概率 q ( x ) q(x) q(x)
x x x进行采样获得样本集 S q S_q Sq,然后利用公式(2)进行间接估计,得到 E p ( f ) E_p(f) Ep(f)

4.重要性采样定理给离线蒙特卡洛强化学习的启示

在离线MC强化学习中,要解决的问题是:

已知采样策略 π ′ \pi' π、待评估策略 π \pi π、利用 π ′ \pi' π采集获得m条完整轨迹 E P = { E p 1 , E p 2 , ⋯   , E p m } EP=\{Ep_1,Ep_2,\cdots,Ep_m\} EP={Ep1,Ep2,,Epm},其中, E p k = { ( s k , 0 , a k , 0 , r k , 1 ) , ( s k , 1 , a k , 1 , r k , 2 ) , ⋯   , ( s k , N k − 1 , a k , N k − 1 , r k , N k ) , ( s k , N k , a k , N k , r k , N k + 1 ) } , k = 1 , 2 , ⋯   , m Ep_k=\{(s_{k,0},a_{k,0},r_{k,1}),(s_{k,1},a_{k,1},r_{k,2}),\cdots,(s_{k,N_k-1},a_{k,N_k-1},r_{k,N_k}),(s_{k,N_k},a_{k,N_k},r_{k,N_k+1})\},k=1,2,\cdots,m Epk={(sk,0,ak,0,rk,1),(sk,1,ak,1,rk,2),,(sk,Nk1,ak,Nk1,rk,Nk),(sk,Nk,ak,Nk,rk,Nk+1)},k=1,2,,m,所有轨迹的
最后一个状态 s k , N k ≡ s T ( 终止状态 ) s_{k,N_k}\equiv s_T(终止状态) sk,NksT(终止状态)
,若固定 s t = s , a t = a s_t=s,a_t=a st=s,at=a,则每条轨迹中三元组 ( s , a , r ) (s,a,r) (s,a,r)中的 r r r可以看做是随机变量,累积回报 G π ′ ( s , a ) G^{\pi'}(s,a) Gπ(s,a) r r r的函数

求解:策略 π \pi π下的累积回报函数 G π ( s , a ) G^{\pi}(s,a) Gπ(s,a)的期望 Q π ( s , a ) Q_\pi(s,a) Qπ(s,a)的估计值 Q π ^ ( s , a ) \hat{Q_\pi}(s,a) Qπ^(s,a)

求解过程:文章来源地址https://www.toymoban.com/news/detail-816708.html

  • 1.根据 E P EP EP,利用公式计算得到 ( s , a ) (s,a) (s,a)固定时,随机变量 r r r的函数 G π ′ ( s , a ) G^{\pi '}(s,a) Gπ(s,a)在m个采样点
    的样本函数值 G k π ′ ( s , a ) , k = 1 , 2 , ⋯   , m G^{\pi'}_k(s,a),k=1,2,\cdots,m Gkπ(s,a),k=1,2,,m
  • 2.根据重要性采样公式(2),及 G k π ′ ( s , a ) = G k π ( s , a ) G^{\pi '}_k(s,a)=G^{\pi}_k(s,a) Gkπ(s,a)=Gkπ(s,a)可得:
    Q π ^ ( s , a ) = 1 m ∑ k = 1 m p k π p k π ′ G k π ( s , a ) = 1 m ∑ k = 1 m p k π p k π ′ G k π ′ ( s , a ) p k π − 策略 π 下,出现完整轨迹 E p k 的概率 p k π ′ − 策略 π ′ 下,出现完整轨迹 E p k 的概率 ρ k = p k π p k π ′ − 重要性采样比例,表示待评估策略 π 下和采样策略 π ′ 下获得轨迹 E p k 的概率之比 p k π = [ π ( a k , 0 ∣ s k , 0 ) P s k , 0 s k , 1 a k , 0 ] × [ π ( a k , 1 ∣ s k , 1 ) P s k , 1 s k , 2 a k , 1 ] × ⋯ × [ π ( a k , N k − 1 ∣ s k , N k − 1 ) P s k , N k − 1 s k , N k a k , N k − 1 ] = ∏ i = 0 N k − 1 π ( a k , i ∣ s k , i ) P s k , i s k , i + 1 a k , i p k π ′ = ∏ i = 0 N k − 1 π ′ ( a k , i ∣ s k , i ) P s k , i s k , i + 1 a k , i ρ k = ∏ i = 0 N k − 1 π ( a k , i ∣ s k , i ) ∏ i = 0 N k − 1 π ′ ( a k , i ∣ s k , i ) \begin{align*} \hat{Q_\pi}(s,a)&=\frac{1}{m}\sum_{k=1}^m\frac{p_k^{\pi}}{p_k^{{\pi}'}}G^{{\pi}}_k(s,a)\\ &=\frac{1}{m}\sum_{k=1}^m\frac{p_k^{\pi}}{p_k^{{\pi}'}}G^{{\pi}'}_k(s,a)\\ p_k^{\pi}&-策略\pi 下,出现完整轨迹Ep_k的概率\\ p_k^{\pi'}&-策略\pi' 下,出现完整轨迹Ep_k的概率\\ \rho_k=\frac{p_k^{\pi}}{p_k^{\pi'}}&-重要性采样比例,表示待评估策略\pi 下和采样策略\pi' 下获得轨迹Ep_k的概率之比\\ p_k^{\pi}&=[\pi(a_{k,0}|s_{k,0})P_{s_{k,0}s_{k,1}}^{a_{k,0}}]\times [\pi(a_{k,1}|s_{k,1})P_{s_{k,1}s_{k,2}}^{a_{k,1}}]\times\cdots \times[\pi(a_{k,N_k-1}|s_{k,N_k-1})P_{s_{k,N_k-1}s_{k,N_k}}^{a_{k,N_k-1}}]\\ &=\prod_{i=0}^{N_k-1}\pi(a_{k,i}|s_{k,i})P_{s_{k,i}s_{k,i+1}}^{a_{k,i}}\\ p_k^{\pi'}&=\prod_{i=0}^{N_k-1}\pi'(a_{k,i}|s_{k,i})P_{s_{k,i}s_{k,i+1}}^{a_{k,i}}\\ \rho_k&=\frac{\prod_{i=0}^{N_k-1}\pi(a_{k,i}|s_{k,i})}{\prod_{i=0}^{N_k-1}\pi'(a_{k,i}|s_{k,i})} \end{align*} Qπ^(s,a)pkπpkπρk=pkπpkπpkπpkπρk=m1k=1mpkπpkπGkπ(s,a)=m1k=1mpkπpkπGkπ(s,a)策略π下,出现完整轨迹Epk的概率策略π下,出现完整轨迹Epk的概率重要性采样比例,表示待评估策略π下和采样策略π下获得轨迹Epk的概率之比=[π(ak,0sk,0)Psk,0sk,1ak,0]×[π(ak,1sk,1)Psk,1sk,2ak,1]××[π(ak,Nk1sk,Nk1)Psk,Nk1sk,Nkak,Nk1]=i=0Nk1π(ak,isk,i)Psk,isk,i+1ak,i=i=0Nk1π(ak,isk,i)Psk,isk,i+1ak,i=i=0Nk1π(ak,isk,i)i=0Nk1π(ak,isk,i)

到了这里,关于22. 离线MC强化学习算法(1)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 我的世界(MC) forge 1.19.3 开服教程

    Debian系统使用MCSManager9面板搭建Minecraft Java版MOD服务器的教程,本教程用的forge1.19.3服务端,用其他服务端的也可以参考一下。 其他版本我的世界服务器搭建教程:https://blog.zeruns.tech/tag/mc/ 各种Minecraft服务端介绍和下载:https://blog.zeruns.tech/archives/626.html 高性价比和便宜的VPS/云

    2024年02月05日
    浏览(46)
  • 腾讯云我的世界mc服务器配置怎么选择?

    使用腾讯云服务器开Minecraft我的世界服务器配置怎么选择?10人以内玩2核4G就够用了,开我的世界服务器选择轻量应用服务器就够了,腾讯云轻量CPU采用至强白金处理器,大型整合包一般1.12版本的,轻量2核4G配置都差不多的,如果是1.16以上加机械动力,不超过10个轻量mod建议

    2024年02月07日
    浏览(59)
  • 腾讯云我的世界mc服务器多少钱一年?

    腾讯云我的世界mc服务器多少钱?95元一年2核2G3M轻量应用服务器、2核4G5M带宽优惠价218元一年、4核8G12M带宽轻量服务器446元一年,云服务器CVM标准型S5实例2核2G优惠价280元一年、2核4G配置服务器748元一年 ,腾讯云百科txybk.com分享 腾讯云我的世界mc服务器收费价格表 : 腾讯服务

    2024年02月07日
    浏览(41)
  • MC我的世界Windows安装forge服务器教程(一)

    目录 一、前置环境搭建 1.配置安全组 2.配置阿里云网络源 3.安装JAVA17 二、安装Minecraft服务端 三、整合包补充 高校计划 - 免费学生云服务器 未参与过高校学生免费领取ECS活动的用户,通过学生身份认证及续费任务,最多可领取1+6个月免费ECS资源。 手动添加25565端口用于连接

    2024年02月14日
    浏览(46)
  • 小白教程-如何在Linux上安装运行MC(我的世界)服务器

    第1步:选择自己的目标Linux平台,什么平台都可以,我这里用的Centos7.9。安装过程相信大部分小伙伴都会的,如果不会的话,可以联系我QQ:28513349,我会详细指导,这里我用的是VM虚拟机安装的。 第2步:系统安装完毕后进入系统,打开终端: 更新一下(注意,如果执行命令

    2024年01月24日
    浏览(48)
  • 【MC教程】iPad启动Java版mc(无需越狱)(保姆级?) Jitterbug启动iOS我的世界Java版启动器 PojavLauncher

    本教程不需要iPad或者iPhone越狱 教程视频链接:https://www.bilibili.com/video/BV1wW4y1b7QM/ 众所周知,苹果上的应用是ipa文件(相当于安卓的apk文件),在下载非app store上的应用就是在下载对应的ipa文件,然后对于本期教程需要知道以下两点。 在苹果设备上,光有ipa文件还不够,还需

    2023年04月25日
    浏览(49)
  • 【Minecraft外网联机教程】Linux搭建我的世界MC服务器

    目录 前言 1. 安装JAVA 2. MCSManager安装 3.局域网访问MCSM 4.创建我的世界服务器 5.局域网联机测试 6.安装cpolar内网穿透 7. 配置公网访问地址 8.远程联机测试 9. 配置固定远程联机端口地址 9.1 保留一个固定tcp地址 9.2 配置固定公网TCP地址 9.3 使用固定公网地址远程联机 前些天发现了

    2024年01月24日
    浏览(73)
  • Linux搭建我的世界MC服务器 【Minecraft外网联机教程】

    目录 前言 1. 安装JAVA 2. MCSManager安装 3.局域网访问MCSM 4.创建我的世界服务器 5.局域网联机测试 6.安装cpolar内网穿透 7. 配置公网访问地址 8.远程联机测试 9. 配置固定远程联机端口地址 9.1 保留一个固定tcp地址 9.2 配置固定公网TCP地址 9.3 使用固定公网地址远程联机 Linux使用MCSM面

    2024年02月08日
    浏览(41)
  • Linux Ubuntu搭建我的世界Minecraft服务器实现好友远程联机MC游戏

    前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站。 Linux使用MCSM面板搭建我的世界私服相对比windwos简单,也是目前比较流行的设置方式,在Linux中安装MCSManger也是非常容易,一键指令脚本即可安装,本篇教程演示在Ubunt

    2024年01月20日
    浏览(56)
  • 强化学习-DQN改进及一些强化学习路由优化论文笔记

    通用超参数 Duel Structure VS→该state在当前policy下的value QSA→该state进行这个action在当前policy下的value advantage = VS - QSA 裁剪区域的确定? 34 194按行输出min,33 193min为90*90 background knowledge [bisect Module] python自带的二分查找的包 基本使用 bisect with list 在一个increasing array插入一个元素

    2024年04月13日
    浏览(50)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包