前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >AlphaGo之父:DeepMind深度强化学习创造人类级别智能体

AlphaGo之父:DeepMind深度强化学习创造人类级别智能体

作者头像
新智元
发布2018-03-22 17:13:22
1.1K0
发布2018-03-22 17:13:22
举报
文章被收录于专栏:新智元新智元

【新智元导读】AlphaGo作者、DeepMind联合创始人兼CEO David Silver昨日撰文,系统梳理团队使用深度增强学习,让智能体在游戏上取得的进展。Silver还表示,许多技术都已经用到了现实生活中。将来还有拓展到机器人的移动和控制以及医疗领域的可能。

【David Silver】人类擅长解决众多具有挑战性的问题,从低级别的控制汽车到高级别的认知任务都可以。我们在DeepMind的目标是创造众多智能体(agent),它们具备相同级别的表现和总体功能。

和人类一样,我们的智能体自己会学习获得成功的战略,产生最大化的长期回报。这种通过试错、单纯地通过奖励或者惩罚完成的学习范式,被称为增强学习(Reinforcement Learning,简称RL)。还有一点和人类也很像:我们的智能体对自身知识的构建和学习直接来自原始的(信息)输入,比如视觉,而不需要任何的手动编程或者域启发(domain heuristics)。这是通过神经网络的深度学习来实现的。

在DeepMind,我们创新性地把这些方法(深度增强学习)融合起来,创造了第一批能够在许多挑战性的领域实现人类级别表现的智能体。我们的智能体必须持续地进行价值判断,以选择最佳行动。这种知识的代表是一个Q-network,它能够评估一个智能体在采取了某一个具体的行动后可以获得的全部回报。

2年前,我们推出了第一个获得大范围成功的深度增强学习算法。内含的核心概念是使用深度神经网络来代表Q-nerwork,并且训练这一Q-nework,让其预测总体的回报。此前曾有过多次把增强学习与神经网络相结合的尝试,但是都很失败,因为不能确保学习的稳定性。为了解决稳定性的问题,我们的Deep Q-network(DQN)算法存储了所有这些智能体的实验,随后,任意地采样并且重新进行实验,以提供多样性和decorrelated的训练数据。我们用了DQN在Atari 2600 平台上学习玩游戏。在每一个time-step,智能体会观察屏幕上的原始像素和得分时相应的信号,并选择操纵杆的方向。在我们发表在Nature的论文上,我们为50个不同的Atari游戏训练了独立的DQN智能体,其中不包含任何关于游戏规则的先验知识。

DQN在50个游戏中的表现

让人惊讶的是,DQN在近一半的游戏中都达到了人类的水平,远超此前的所有方法。现在DQN源代码和 Atari 2600 emulator都已经免费向所有人开放。

试用地址:

DQN:https://sites.google.com/a/deepmind.com/dqn/

Atari 2600 emulator:http://stella.sourceforge.net/

随后,我们又在许多方面提升了DQN算法:学习过程稳定性、重复试验的优先排序、正常化、收集和校正结果。综合这些方面的提升,在Atari游戏中,智能体的平均得分提高了300%,现在,在几乎全部的Atari游戏中,智能体都达到了人类的水平。我们甚至还可以训练一个单独的神经元网络来学习多个Atari游戏。

我们还建立了一个大规模的分布式深度增强学习网络Gorila。使用谷歌云平台,Gorila的训练速度提升了一个数量级。这一系统现在被用于谷歌的多个推荐系统中。

然而,深度Q-networks只是解决深度增强学习难题的一个方式。最近,基于(asynchronous RL)异步增强学习,我们推出了一个更实用和有效的方法。这种方法利用了标准CPU中的多线程能力,为反复的实验提供了一个可行选择,因为并行计算也在让数据多样化和非关联。我们基于异步评价器(actor-critic)的算法A3C,把深度Q-nerwork与用于选择行动的策略网络进行结合。这获得了最前沿的成功,它使用一部分DQN训练时间和一部分Gorila资源消耗。通过为直觉性的激励提供新颖的方法,并且暂时性地简化计划。进而,在最难的Atari游戏中,我们同样也获得了突破性的进展,比如Montezuma’s Revenge。

关于异步计算,DeepMind发表了论文《深度强化学习的异步算法》(Asynchronous Methods for Deep Reinforcement Learning)

一个主要发现是,使用并行 actor-learner 更新一个共享模型,对于研究的 3 种基于价值的算法学习过程都有提升稳定性影响。虽然这表明稳定的在线Q学习可能脱离经验回放,但是这不意味着经验回放是无用的。将经验回放整合入异步RL框架,有可能通过重复利用旧数据大幅提高这些方法的数据效率。这可能会进而在与环境交互的消耗比更新模型的消耗更大的领域(比如TORCS)带来更快的训练速度。

将其他现有的RL模型或是深度RL近期进展与异步框架相结合,展现出了许多迅速优化在文中展示的算法的可能性。展示的n步模型是向前的(forward view),直接使用修正后的n步回报作为目标,但是使用向后的方法在资格迹(eligibility trace)中结合不同的回报已经变得更为常见。通过使用其他估计优势函数的方法——比如Schulman等人(2015b)的泛化优势估计——可能会切实改善A3C算法。所有研究的基于价值的方法,都有可能受益于用各种方式降低Q值的高估误差(over-estimation bias)。而另一个更值得揣摩的方向是,尝试结合近期真正的在线时间差分方法的研究与非线性函数逼近。

虽然Atari游戏具备很大程度的多样性,但是它们依然只是2D精灵(sprite)视频游戏。最近,我们发布了 Labyrinth(迷宫),这是一款3D的游戏。再次的,智能体只是通过视觉即时观察到的像素输入,找到了游戏中的藏宝路线。

令人惊讶地,A3C算法也获得了人类水平的表现,跳出了原有框架(out-of-the-box),在许多迷宫任务中。另一个基于情节记忆的方法也被证明获得了成功。在接下来的几个月内,Labyrinth将开源。

对于连续控制的问题,比如机器人控制和移动,我们也开发了一系列深度增强学习的方法。我们的Deterministic Policy Gradients(DPG)算法提供了一个具备连续性的DQN,利用Q-network的差异性来解决大量的持续控制任务。Asynchronous RL在这些领域都表现得很好,并且,当使用一个分级控制策略来增强时,它能解决一些具有挑战性的难题,比如下面视频中的蚂蚁足球(ant soccer)和54维的类人障碍滑雪游戏,在这一过程中并不需要具备任何的先验知识。

在经典的游戏中,围棋是最具挑战性的。虽然几十年来人们一直在努力,但是之前的方法获得都是比较业余的表现水平。我们发展了的深度增强学习算法,能在自我对局中学习评价网络(预测胜者)和策略网络(选择行动)。我们的AlphaGo把这些深度神经网络与一个前沿的树形搜索结合起来,在2015年10月, AlphaGo成为首个击败专业棋手的程序,2016年3月,AlphaGo击败李世石。

此外,我们还发展了深度增强学习博弈论,让程序成为了一个超人类的德州扑克手。相对于围棋这种完美信息博弈(落子明确,无需猜测),扑克是不完美信息博弈(需要猜测对手的牌),也更接近现实生活情景。程序在没有任何先验知识的前提下,使用可扩展的端到端学习近似纳什均衡的方法,结合深度强化学习技术和虚拟自我对局。实验中,计算机通过自学成功掌握了德州扑克的技巧,其表现已经接近人类专家水平。

从Atari到Labyrinth,从移动到操作,从扑克到围棋,在大范围的挑战任务中,我们的深度增强学习智能体展示了卓越的进步。我们的目标是提升我们的智能体的能力,用重要的应用为社会带来更多积极的影响,比如在医疗领域。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-06-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
GPU 云服务器
GPU 云服务器(Cloud GPU Service,GPU)是提供 GPU 算力的弹性计算服务,具有超强的并行计算能力,作为 IaaS 层的尖兵利器,服务于深度学习训练、科学计算、图形图像处理、视频编解码等场景。腾讯云随时提供触手可得的算力,有效缓解您的计算压力,提升业务效率与竞争力。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档