DeepMind智能体自学跑酷:略显智障,结果尚好

安妮 编译整理 量子位出品 | 公众号 QbitAI

“看起来就像小学生在玩地狱边境。”

近日,谷歌DeepMind团队创造了一个自学跑酷的智能体,并且解锁了它在不同地形和障碍物下的跑酷姿势。除了画风喜感了点,训练效果看起来还是蛮好的。

视频内容

1分37秒处情感惊艳

简笔小人

视频中的简笔小人似乎似乎在进行一场激烈的跑酷比赛,它的身型、周围的地形以及障碍物都是变化的。小人需要自学奔跑、跳跃、蹲伏等姿势,找到从A到B的最佳穿越方式。

研究人员赋予了智能体一组虚拟传感器,传感器告诉智能体有没有走歪,并激励它前进。智能体需要根据传感器的指示自己探索和修正错误,尝试不同的通过方法。

这个智能体背后,是DeepMind团队在探索怎样将强化学习应用在教智能体适应陌生且复杂的环境。

这项研究成果也被同步发表到arXiv上,DeepMind将论文命名为《Emergence of Locomotion Behaviours in Rich Environments》,由Nicolas Heess, Dhruva TB, Srinivasan Sriram等12名DeepMind研究人员完成。

论文介绍

一般来说,强化学习(Reinforcement Learning)让智能体在奖励中直接学习复杂行为。但在通常情况下,强化学习训练的运动非常脆弱,在陌生环境中很容易崩溃,不知下一步应如何移动。

就像婴儿适应了家里的楼梯后,再把他放在电动扶梯上,他就不知如何是好了。

一般的强化学习需要研究人员仔细地设计很多特定的奖励机制。

但DeepMind研究人员仅仅给予智能体一个奖励行为,那就是前进。

他们用单一的奖励机制配合丰富的环境,让智能体学习运动。运动行为对奖励的设置非常敏感,但结果显示,智能体在各种环境中都表现良好。

也就是说,DeepMind的智能体不依赖多种奖励,而是通过丰富的环境,如地形与障碍学习复杂行为。

通过这种新奇的可扩展策略梯度增强学习变体,智能体在没有明确环境奖励引导的情况下,也可以跑步、跳跃、蹲伏和转弯。

强化学习算法

为了使智能体在这些富有挑战的环境中有效学习,必须有一个可靠的可拓展强化学习算法。因此,DeepMind用了几组方法组合完成了这项任务。

这项任务不仅需要基于强大的策略梯度算法,如信赖域策略优化(TRPO)和近似策略优化(PPO)置信区间的参数更新,来确保稳定性。

其次,还要像广泛使用得A3C算法等相关方法一样,需要在很多并行智能实例和环境上分配计算。

最后,附上论文地址:

https://arxiv.org/pdf/1707.02286.pdf

原文发布于微信公众号 - 量子位(QbitAI)

原文发表时间:2017-07-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

学界 | 百度Deep Voice作者与Bengio团队探讨五大技术细节,端到端的语音合成还有多远?

androidauthority AI 科技评论消息,今日百度研究院在官网上正式推出了 Deep Voice:实时语音合成神经网络系统(Real-Time Ne...

42390
来自专栏CSDN技术头条

专家展望未来5年深度学习发展趋势

2015年已然过去,2016刚刚开始,回头将目光集中于去年的成就上,以及对将来科学趋势的预测。去年最令人瞩目的一个领域就是深度学习,它是机器学习中越来越流行的一...

42550
来自专栏新智元

CVPR2016 主旨演讲及焦点论文速览,深度学习垄断地位遭质疑

【新智元导读】计算机视觉国际顶尖会议CVPR2016近日召开,从提交论文和口头报告内容看,深度学习成为主流。本文介绍会议概况及相关成果,比如谷歌教计算机学会分辨...

35780
来自专栏顶级程序员

DeepMind重大突破:AI进化出大脑级导航能力,像动物一样会“抄小路”

DeepMind团队称,其最新研发出的一个人工智能程序具有类似哺乳动物一样的寻路能力。

9330
来自专栏新智元

《科学》封面论文作者力作:搭建像人一样思考和学习的机器(附论文下载)

【新智元导读】纽约大学的B. Lake、MIT的J. Tenenbaum等人2015年底在《科学》刊发封面论文,描述“看一眼便能学会写字”的计算机。Lake、T...

36270
来自专栏新智元

软件正在吃掉我们的世界,深度学习也正吃掉机器学习

【新智元导读】人工智能、机器学习、深度学习方面的文章铺天盖地,向人们传播人工智能是改变世界最具竞争力的技术,相关企业应该抓住机会作深入研究,但是人们对于这三个词...

37080
来自专栏新智元

拿下人脸识别“世界杯”冠军!松下-NUS 和美国东北大学实战分享

【新智元导读】被业界称为人脸识别“世界杯”的微软百万名人识别竞赛 MS-Celeb-1M 冠军团队技术分享。Panasonic-NUS 合作团队认为,竞赛最大的...

442100
来自专栏人工智能头条

专家展望未来5年深度学习发展趋势

19740
来自专栏AI研习社

干货 | 普通程序员如何转向 AI 方向?

眼下,人工智能已经成为越来越火的一个方向。拥有编程基础、具备数学思维的普通程序员在这波AI浪潮中占据了得天独厚的转行优势,相比其他基础薄弱的转行人员,程序员只需...

31040
来自专栏奇点大数据

DeepMind 重大突破:AI 进化出大脑级导航能力,像动物一样会“抄小路”

继在围棋棋盘上轻松战胜人类后,AI似乎在对空间的认知和巡航能力上也要将人类“踩在脚下了。

12520

扫码关注云+社区

领取腾讯云代金券