这个用来玩儿游戏的算法,是谷歌收购DeepMind的最大原因

大数据文摘字幕组作品

大家好呀!YouTube网红小哥Siraj又来啦!

这次他将为我们讲解Deep Q Learning——谷歌为了这个算法收购了DeepMind。

点击观看视频

时长9分钟

带有中文字幕

视频内容

这个算法是干什么的呢?

答案就是:用来玩游戏的!

2014年,谷歌花了5亿多美元收购了位于伦敦的一家小公司:DeepMind。在此之前,DeepMind在2013年12月的NIPS大会上发表过一篇关于用深度强化学习来玩视频游戏的论文Playing Atari with Deep Reinforcement Learning,后续研究成果Human-level control through deep reinforcement learning在2015年2月上了《自然》的封面。再后来,深度学习+强化学习的玩法用在了围棋上,于是我们有了阿法狗。

回头看看让DeepMind起家的Deep Q Learning,看上去只是一个非常简单的软件,一个专门为Atari视频游戏设计的自动程序。可是,它被视为“通用智能”的第一次尝试——论文显示,这种算法可以应用至50种不同的Atari游戏,而且表现均超过人类水平。这就是深度Q学习器。

用超级玛丽来举个例子。我们拥有游戏的视频片段作为数据输入,用马里奥移动的方向来标注数据。这些训练数据是连续的,新的视频帧持续不断地在游戏世界产生,而我们想知道如何在这个世界中行动。

看上去,最好的办法是通过尝试。不断尝试,不断犯错,这样我们就会了解我们与游戏世界的最佳互动形式。

强化学习就是用来解决这类问题的。每当马里奥做了一些有助于赢得游戏的动作,正标签就会出现,只是它们的出现有延迟。相比起把它们叫做标签,更确切的叫法是“奖励Reward”。

我们将整个游戏过程表示为一个由状态(State)、动作(Action)和奖励(Reward)构成的序列,每个状态的概率仅仅取决于前一个状态和执行的动作,这叫做“马尔科夫特性”,以俄罗斯数学家马尔科夫命名。这个决策过程称之为马尔科夫过程。

如果把某个点之后一系列的奖励表示成一个函数,这个函数值就代表游戏结束时,可能出现的最佳得分。当在给定的状态下执行给定的动作之后,此函数用于衡量该状态下某个动作的质量(Quality),这就是Q函数,也叫魁地奇函数,啊不,质量函数。

当马里奥决定执行哪个可能的动作时,他将选择那些Q值最高的动作,计算Q值的过程,就是学习的过程。

那么如何超越超级玛丽这一个游戏,将算法推广到其他游戏中呢?戳上文视频了解更多吧!

原视频地址:(大数据文摘经授权汉化) https://www.youtube.com/watch?v=79pmNdyxEGo

原文发布于微信公众号 - 大数据文摘(BigDataDigest)

原文发表时间:2017-12-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏灯塔大数据

荐读|大数据会撒谎?如何戳破大数据的谎言

数据科学家使用统计分析工具深度挖掘数据潜在的内容时经常会遭遇到大数据挖的坑,实际上这些坑并不是只有大数据才有,大自然本身就存在很多虚假的相关性,大数据只是更加...

30360
来自专栏人工智能快报

人工智能将重力透镜分析速度提升千万倍

美国国家加速器实验室(SLAC)和斯坦福大学的研究人员表示,脑模拟的“神经网络”可以改变天体物理学家分析其最复杂数据的方式,包括对我们对宇宙理解至关重要的时空极...

35680
来自专栏大数据文摘

大咖|英特尔中国研究院院长宋继强:我们是如何与李宇春打造全球第一支三维人脸特效的音乐视频的

17220
来自专栏新智元

自然语言处理顶级会议 EMNLP 最佳论文出炉,聚焦神经网络 (下载)

【新智元导读】自然语言处理顶级会议 EMNLP2016 今天公布了本届大会最佳论文。本文介绍会议概况,节选主旨演讲、讲座及Workshop 等亮点介绍,最后给出...

492170
来自专栏机器之心

业界 | 解密谷歌Gmail新功能:结合BoW模型和RNN-LM,帮助用户快速写邮件

16820
来自专栏机器学习算法工程师

就怕你迷路!力荐!论文资源获取和AI论文阅读指导

本文译自:https://towardsdatascience.com/getting-started-with-reading-deep-learning-r...

16130
来自专栏GAN&CV

如何快速进阶AI的资源

本文译自:https://towardsdatascience.com/getting-started-with-reading-deep-learning-r...

13720
来自专栏AI研习社

【AI听】微软刷新了SQuAD记录!聊天机器人居然懂人类情感?谷歌大脑「神经网络优化器搜索」又双叒叕更新……

本周关键词 SQuAD|聊天机器人 计算机视觉|谷歌大脑 主播 | 吴璇 NO/1 上周,微软又刷新了SQuAD记录... 今年7月,斯坦福大学发起的SQuA...

432110
来自专栏AI科技大本营的专栏

别瞎搞!对自己定位不准,看再多机器学习资料也是白搭(附资源)

找资料也是门学问,别抓着机器学习就一拥而上。 作者 | Jason Brownlee 编译 | AI100(ID:rgznai100) 来看个小故事:机器学习火...

32980
来自专栏AI科技大本营的专栏

必读 | 六月份不容错过的十大重磅好文,机器学习和数据科学的小伙伴拿走不谢

作者 | Flavian Hautbois 翻译 | AI科技大本营(rgznai100) 参与 | JeyZhang,波波 上个月,我们发了很多文章。但是,机...

28460

扫码关注云+社区

领取腾讯云代金券