小机器人在现实世界中学会快速驾驶

这篇具有很好参考价值的文章主要介绍了小机器人在现实世界中学会快速驾驶。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

小机器人在现实世界中学会快速驾驶
—强化学习加上预训练让机器人赛车手加速前进—

Without a lifetime of experience to build on like humans have (and totally take for granted), robots that want to learn a new skill often have to start from scratch. Reinforcement learning lets robots learn new skills through trial and error but, especially in the case of end-to-end vision-based control policies, it takes a lot of time: The real world is a weirdly lit, friction-filled, obstacle-y mess that robots can’t understand without a frequently impractical amount of effort.

如果没有像人类那样终生积累的经验(而且完全认为这是理所当然的),想要学习一项新技能的机器人往往不得不从头开始。强化学习可以让机器人通过试错来学习新技能,但尤其是在端到端基于视觉的控制策略的情况下,这需要大量时间:现实世界是一个光线怪异、充满摩擦、充满障碍的混乱世界,如果不付出很多的努力,机器人就无法理解。

Roboticists at the University of California at Berkeley have vastly sped up this process by doing the same kind of cheating that humans do—instead of starting from scratch, you start with some previous experience that helps get you going. By leveraging a “foundation model” that was pretrained on robots driving themselves around, the researchers were able to get a small-scale robotic rally car to teach itself to race around indoor and outdoor tracks, matching human performance after just 20 minutes of practice.

加州大学伯克利分校的机器人学家可能已经加快了这一过程,他们做了与人类相同的行为,不是从头开始,而是从以前的一些经验开始,这有助于你继续前进。通过利用一个预先训练过的机器人驾驶的“基础模型”,研究人员能够获得一辆小型机器人拉力车,教自己在室内和室外赛道上比赛,只需20分钟的练习就可以与人类的表现相匹配。

小机器人在现实世界中学会快速驾驶,机器人

That first pretraining stage happens at your leisure, by manually driving a robot (that isn’t necessarily the one that will be doing the task you care about) around different environments. The goal isn’t to teach the robot to drive fast around a course but rather the basics of not running into stuff.

第一个预训练阶段发生在你空闲的时候,通过在不同的环境中手动驾驶机器人(不一定是要完成你关心的任务的机器人)。我们的目标不是教机器人在赛道上快速行驶,而是教机器人不要碰撞到其它物体的基本知识。

With that pretrained foundation model in place, when you then move over to the little robotic rally car, it no longer has to start from scratch. Instead, you can plop it onto the course you want it to learn, drive it around once slowly to show it where you want it to go, and then let it go fully autonomous, training itself to drive faster and faster. With a low-resolution, front-facing camera and some basic state estimation, the robot attempts to reach the next checkpoint on the course as quickly as possible, leading to some interesting emergent behaviors:

有了预先训练好的基础模型,当你转向小型机器人拉力车时,它不再需要从头开始。相反,你可以把它放在你想让它学习的课程上,慢慢地开它一圈,向它展示你想让它去哪里,然后让它完全自主训练自己开得越来越快。通过低分辨率、前置摄像头和一些基本状态估计,机器人试图尽快到达球场上的下一个检查点,从而产生一些有趣的突发行为:
The system learns the concept of a “racing line,” finding a smooth path through the lap and maximizing its speed through tight corners and chicanes. The robot learns to carry its speed into the apex, then brakes sharply to turn and accelerates out of the corner, to minimize the driving duration. With a low-friction surface, the policy learns to oversteer slightly when turning, drifting into the corner to achieve fast rotation without braking during the turn. In outdoor environments, the learned policy is also able to distinguish ground characteristics, preferring smooth, high-traction areas on and around concrete paths over areas with tall grass that impedes the robot’s motion.

该系统学习了“赛道”的概念,在单圈中找到一条平滑的路径,并在急转弯和弯道中最大限度地提高速度。机器人学会将自己的速度带到顶点,然后急刹车转弯并加速出弯,以最大限度地缩短驾驶时间。在低摩擦表面的情况下,该策略学会了在转弯时轻微转向过度,在转弯过程中漂移到弯道以实现快速旋转而不制动。在户外环境中,习得的策略也能够区分地面特征,更喜欢混凝土路径上及其周围光滑、高牵引力的区域,而不是有阻碍机器人运动的高草的区域。

The other clever bit here is the reset feature, which is necessary in real-world training. When training in simulation, it’s super easy to reset a robot that fails, but outside of simulation, a failure can (by definition) end the training if the robot gets itself stuck. That’s not a big deal if you want to spend all your time minding the robot while it learns, but if you have something better to do, the robot needs to be able to train autonomously from start to finish. In this case, if the robot hasn’t moved at least 0.5 meters in the previous 3 seconds, it knows that it’s stuck, and it will execute the simple behaviors of turning randomly, backing up, and then trying to drive forward again, which gets it unstuck eventually.

这里的另一个聪明之处是重置功能,这在现实世界的训练中是必不可少的。在模拟中训练时,重置失败的机器人非常容易,但在模拟之外,如果机器人陷入困境,失败可能(根据定义)结束训练。如果你想在机器人学习的同时花所有的时间思考它,那没什么大不了的,但如果你有更好的事情要做,机器人需要能够从头到尾自主训练。在这种情况下,如果机器人在前3秒内没有移动至少0.5米,它就会知道自己被卡住了,它会执行随机转弯、倒车,然后试图再次向前行驶的简单行为,最终会被卡住。

During indoor and outdoor experiments, the robot was able to learn aggressive driving comparable to that of a human expert after just 20 minutes of autonomous practice, which the researchers say “provides strong validation that deep reinforcement learning can indeed be a viable tool for learning real-world policies even from raw images, when combined with appropriate pretraining and implemented in the context of an autonomous training framework.” It’s going to take a lot more work to implement this sort of thing safely on a larger platform, but this little car is taking the first few laps in the right direction just as quickly as it possibly can.

在室内和室外实验中,只需20分钟的自主练习,机器人就能够学会与人类专家相当的激进驾驶,研究人员表示,这“有力地验证了深度强化学习确实是一种可行的工具,即使是从原始图像中学习现实世界的政策,只要与适当的预训练相结合,并在自主训练框架的背景下实现。”要在更大的平台上安全地实现这类事情,还需要做更多的工作,但这辆小车正以最快的速度朝着正确的方向跑完前几圈。

“FastRLAP: A System for Learning High-Speed Driving via Deep RL and Autonomous Practicing,” by Kyle Stachowicz, Arjun Bhorkar, Dhruv Shah, Ilya Kostrikov, and Sergey Levine from UC Berkeley, is available on arXiv.

加州大学伯克利分校的Kyle Stachowicz、Arjun Bhorkar、Dhruv Shah、Ilya Kostrikov和Sergey Levine的《FastRLAP:通过深度RL和自主练习学习高速驾驶的系统》可在arXiv上获得。

北京智能佳科技有限公司

400 099 1872文章来源地址https://www.toymoban.com/news/detail-568111.html

到了这里,关于小机器人在现实世界中学会快速驾驶的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 文献学习-3-机器人操控辅助的全方位增强现实内腔介入远程手术

    5.1.3 Robotic Manipulator‐Assisted Omnidirectional Augmented Reality for Endoluminal Intervention Telepresence Key Words : omnidirectional augmented reality, robotic intervention, robotic telepresence Authors : Zecai Lin, Zheng Xu, Huanghua Liu, Xuyang Wang, Xiaojie Ai, Cheng Zhou, Bidan Huang, Weidong Chen, Guang-Zhong Yang, and Anzhu Gao Source : Advance

    2024年02月22日
    浏览(48)
  • 学习记录-自动驾驶与机器人中的SLAM技术

    以下所有内容均为高翔大神所注的《自动驾驶与机器人中的SLAM技术》中的内容 作者实现了一个2D 的ICP,包含了点到线的处理方式 实现了一个似然场法的配准,介绍了相关公式,使用了高斯牛顿法和g2o进行求解,其中g2o中有对核函数的使用 实现了一个 并发的ICP 配准 实现了点

    2024年02月02日
    浏览(43)
  • ChatGPT +工业机器人/自动驾驶控制器的一些尝试

    ChatGPT 的功能目前已扩展到机器人领域,可以用语言直观控制如机械臂、无人机、家庭辅助机器人等的多个平台。这会改变人机交互的未来形式吗? 你可曾想过用自己的话告诉机器人该做什么,就像对人说话那样? 比如说,只要告诉你的家庭助理机器人「请帮我热一下午餐」

    2023年04月08日
    浏览(49)
  • 2022 RoboCom 世界机器人开发者大赛-本科组(省赛)-- 第三题 跑团机器人 (已完结)

    其它题目 RC-u3 跑团机器人 在桌面角色扮演游戏(TRPG,俗称“跑团”)中,玩家需要掷出若干个骰子,根据掷出的结果推进游戏进度。在线上同样可以跑团,方法是由玩家们向机器人发出指令,由机器人随机产生每个需要掷出的骰子的结果。 玩家向机器人发出的指令是一个仅

    2024年02月16日
    浏览(41)
  • 2022 RoboCom 世界机器人开发者大赛-本科组(省赛)

    1、不要浪费金币 哲哲最近在玩一个游戏,击杀怪物能获得金币 —— 这里记击杀第 i 个怪物获得的金币数量为 P i ​ 。 然而这个游戏允许拥有的金币数量是有上限的,当超过时,超过上限的部分就会被系统光明正大地吃掉,哲哲就拿不到了。 为了不浪费金币,哲哲决定,当

    2024年02月03日
    浏览(48)
  • 2021 RoboCom 世界机器人开发者大赛-本科组(复赛)

    官方题解 分数 20 7-1 冒险者分队 一个莫名其妙的思维 分数 25 7-2 拼题A打卡奖励 01背包的变形,在面临超时的情况下,明智的选择另一种作为限制 分数 25 7-3 快递装箱 大模拟,没拿到满分,就十六分,不想改了,累了 分数 30 7-4 塔防游戏 头一次写二位最短路

    2024年02月16日
    浏览(41)
  • 2021 RoboCom 世界机器人开发者大赛-本科组(初赛)

    比赛介绍 比赛信息 比赛官网:https://www.robocom.com.cn/ 报名流程:https://www.robocom.com.cn/content.html?cid=386 工信部发文:https://www.robocom.com.cn/content.html?cid=367 中国教育学会清单:https://m.cahe.edu.cn/site/content/14825.html 编程赛道通知:https://www.robocom.com.cn/content.html?cid=369 赛制说明: CAIA数

    2024年02月16日
    浏览(42)
  • 2021 RoboCom 世界机器人开发者大赛-本科组(决赛)

    1.绿地围栏 思路 模拟题目,主要是记住最后要把原点加入到目标点当中,不然最后一个测试点过不了。 代码 2.队列插入 思路× 不太会,每理解大佬的思路,以后有机会补 代码× 3.账户安全预警 输入样例1 输出样例1 输入样例2 输出样例2 思路 嵌套map,用外层map的键表示邮箱,

    2024年02月16日
    浏览(41)
  • 2022 RoboCom 世界机器人开发者大赛-高职组(省赛)

    RC-v1 您好呀 分数 5 本届比赛的主题是“智能照护”,那么就请你首先为智能照护机器人写一个最简单的问候程序 —— 无论遇见谁,首先说一句“您好呀~”。 输入格式: 本题没有输入 输出格式: 在一行中输出问候语的汉语拼音  Nin Hao Ya ~ 。 输入样例: 输出样例:  提交

    2024年02月16日
    浏览(38)
  • 2022 RoboCom 世界机器人开发者大赛-本科组(国赛)

    1、智能红绿灯 为了最大化通行效率同时照顾老年人穿行马路,在某养老社区前,某科技公司设置了一个智能红绿灯。 这个红绿灯是这样设计的: 路的两旁设置了一个按钮,老年人希望通行马路时会按下按钮; 在没有人按按钮的时候,红绿灯一直为绿灯; 当红绿灯为绿灯时

    2024年02月17日
    浏览(40)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包