如何让强化学习走进现实世界?DeepMind要用“控制套件”推动强化学习
工具
如何让强化学习走进现实世界?DeepMind要用“控制套件”推动强化学习
python
如何让强化学习走进现实世界?DeepMind要用“控制套件”推动强化学习
算法
如何让强化学习走进现实世界?DeepMind要用“控制套件”推动强化学习
机器人
如何让强化学习走进现实世界?DeepMind要用“控制套件”推动强化学习
强化学习
如何让强化学习走进现实世界?DeepMind要用“控制套件”推动强化学习
DeepMind

火遍全球的AlphaGo让我们知道了强化学习打游戏究竟有多6,这么强大的算法什么时候才能打破次元壁,走进现实、控制物理世界中的物体呢?


DeepMind已经开始往这方面努力。他们昨天发布的控制套件“DeepMind Control Suite”,就为设计和比较用来控制物理世界的强化学习算法开了个头。


就像ALE(Arcade Learning Environment)极大推动了用强化学习打电子游戏的研究一样,DeepMind希望他们的Control Suite也能推动用强化学习控制实体的研究,比如说先让模拟环境中的机器人学会行走、游泳、搬东西等等。


Control Suite设计了一组有着标准化结构、可解释奖励的连续控制任务,还为强化学习Agent提供一组性能测试指标。


这些任务基于MoJoCo物理引擎,所用的语言是Python。DeepMind在GitHub上放出的源代码中,就包含基于MoJoCo的Python强化学习环境,以及为MoJoCo提供Python绑定的软件库。



如何让强化学习走进现实世界?DeepMind要用“控制套件”推动强化学习

如上图所示,Control Suite中的任务可以分为14个领域,也就是14类物理模型,上排从左到右分别是:


体操机器人Acrobot,(两节钟摆)、杯中小球、倒立摆、猎豹形机器人、手指、鱼、单足跳跃机器人,下排从左到右分别是人形机器人、机械手、钟摆、质点、形似两节手臂的Reacher、游泳机器人、步行者。


DeepMind还测试了A3C、DDPG和D4PG强化学习算法在这些任务上的表现,:


如何让强化学习走进现实世界?DeepMind要用“控制套件”推动强化学习

这些结果也是强化学习完成控制任务的基线数据。


DeepMind Control Suite似乎很受欢迎,截止量子位发稿,已经在GitHub上收获了300多个星标。


如何让强化学习走进现实世界?DeepMind要用“控制套件”推动强化学习

Twitter网友们也在热烈讨论这个Control Suite。不过,DeepMind官推为这个套件所选的配图,可谓骨骼清奇,被不少网友质疑:这是……最优跑步方式?


最后放出来,给大家来观赏一下:


如何让强化学习走进现实世界?DeepMind要用“控制套件”推动强化学习

请勿模仿,请勿模仿,请勿模仿。


如果受伤了还怎么看下面的论文和代码呢~


论文:

https://arxiv.org/pdf/1801.00690.pdf


代码:

https://github.com/deepmind/dm_control


欢迎加入本站公开兴趣群

商业智能与数据分析群

兴趣范围包括各种让数据产生价值的办法,实际应用案例分享与讨论,分析工具,ETL工具,数据仓库,数据挖掘工具,报表系统等全方位知识

QQ群:418451831

tags: DeepMind,Suite,Control,强化,学习,机器人,Python,MoJoCo,套件,算法,控制,GitHub
分页:12
转载请注明
本文标题:如何让强化学习走进现实世界?DeepMind要用“控制套件”推动强化学习
本站链接:http://www.codesec.net/view/570468.html
分享请点击:


1.凡CodeSecTeam转载的文章,均出自其它媒体或其他官网介绍,目的在于传递更多的信息,并不代表本站赞同其观点和其真实性负责;
2.转载的文章仅代表原创作者观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,本站对该文以及其中全部或者部分内容、文字的真实性、完整性、及时性,不作出任何保证或承若;
3.如本站转载稿涉及版权等问题,请作者及时联系本站,我们会及时处理。
登录后可拥有收藏文章、关注作者等权限...
技术大类 技术大类 | 商业智能 | 评论(0) | 阅读(248)