前沿 | 如何解决深度学习中的多体问题

选自Medium

机器之心编译

参与:乾树

多个智能体如何协同工作才能高效完成任务?深度学习领域中的多体问题就像物理领域中的一样难解。很多研究机构正致力于研发先进技术处理多代理系统的问题。

「多体问题」(又叫 N 体问题)是看似简单,实际上在当今数学中极难攻克的问题。多体问题是指多个相互作用的实体。在物理学中,任何三体问题都没有一个封闭的形式或解析解(见:https://en.wikipedia.org/wiki/Three-body_problem)。像这样简单的问题反映了我们分析工具的局限性。这并不意味着它是不可解的,它只意味着我们必须诉诸于近似和数值技术来进行计算。可以用足够精确的数值计算分析太阳、月球和地球之间的三体问题以帮助宇航员登陆月球。

在深度学习领域,我们也有一个新兴的 N 体问题。许多更先进的系统现在正在处理多代理系统的问题。每个代理都可能有与全局目标合作或竞争的目标(即目标函数)。在多代理深度学习系统中,甚至在模块化的深度学习系统中,研究人员需要设计可扩展的合作方法。

Johannes Kepler 大学、DeepMind、OpenAI 和 Facebook 最近纷纷发表论文探讨了这个问题的各个方面。

在 Johannes Kepler 大学的团队,包括 Sepp Hochreiter(LSTM 的提出者)已提出利用模拟库仑力(即电磁力大小与反向距离的平方成比例)作为一种训练生成对抗网络(GAN)的替代目标函数。

找到两个对抗网络之间的平衡状态是一个热门的研究课题。在深度学习中解决二体问题相当困难。研究发现,使用这种方法可以防止「模式崩溃」的不良情况。此外,设置确保收敛到一个最佳的解决方案,而且只有一个恰好也是全局的局部极小值。Wasserstein 目标函数(又名 Earth Mover Distance)可能是一个更好的解决方案,这在几个月前极其热门。这个团队已经把他们的创造命名为「库仑 GAN」。

微软 Maluuba 发表了一篇论文介绍了一个人工智能玩吃豆人游戏的系统,它的水平已经超过了人类。研究人员挑战的吃豆人游戏跟此类游戏最初的版本类似,人物在收集小球和水果的同时避免怪物。论文的题目是「强化学习的混合式奖励架构」。本文介绍了不同于典型的强化结构的强化学习(RL)的实现(即 HRA):

这篇文章令人惊讶的是所使用的目标函数的数量。本文描述了使用 1800 值函数作为其解决方案的一部分,也就是说,每个小球、每个水果和每个怪物都使用了代理。微软的研究表明使用数以千计的微型代理将问题分解成子问题并实际解决它是有效的!在这个模型中,代理之间的耦合显然是隐式的。

DeepMind 解决了具有共享内存的多代理程序的问题。在论文《Distral: Robust Multitask Reinforcement Learning》中,研究人员通过「思想融合」灵感的代理协调方法来解决一个共同的问题。为此,研究人员采用了一种封装每个代理的方法。然而,它们允许一些信息通过代理的封装边界,希望狭窄的通道更具伸缩性和鲁棒性。

我们提出了多任务联合训练的新方法,我们称之为 distral(提取和迁移学习)。我们不建议在不同的网络之间共享参数,而是共享一个「提取」的策略,以捕获跨任务的共同行为。每个网络都被训练用来解决自己的任务,同时受限于近似共享的策略,而共享策略通过提取训练成为所有任务策略的中心。

其结果引出了更快,更稳定的学习,从而验证了狭窄通道的方法。在这些多代理(N 体问题)开放性问题是这种耦合的本质。DeepMind 的论文表明了更低的耦合相对于原生的紧耦合的方法的有效性(即权重共享)。

OpenAI 最近发表了在他们的系统中训练模型匹配其他代理的多系统的有趣的论文。论文题目为《Learning with Opponent-Learning Awareness》。该论文表明,「以牙还牙」战略的出现源自赋予多代理系统社会意识能力。尽管结果具有弹性问题,但它确实是一种非常令人着迷的方法,因为它解决了人工智能的一个关键维度(参见:多维智能)。

总而言之,许多领先的深度学习研究机构正在积极探索模块化深度学习。这些团体正在探索由不同的对象函数组成的多代理系统,所有这些都用于合作解决单一的全局目标函数的。仍然有许多问题需要解决,但显然,这种做法确实非常有希望取得进展。去年,我发现博弈论的变化对未来进步极具指导意义。在今年,我们将看到更多探索多代理系统的松散耦合尝试。

原文链接:https://medium.com/intuitionmachine/the-deep-learning-many-body-problem-3665d3947628

本文为机器之心编译,转载请联系本公众号获得授权。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2017-09-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

9大Python深度学习库,选出最适合你的那个

如果你对深度学习和卷积神经网络感兴趣,但是并不知道从哪里开始,也不知道使用哪种库,那么这里就为你提供了许多帮助。 在这篇文章里,我详细解读了9个我最喜欢的Pyt...

40340
来自专栏CDA数据分析师

带你十分钟看懂机器学习与 TensorFlow(GDD 2017)(附视频中字)

TensorFlow是世界上最流行的开源机器学习框架。在2017年谷歌开发者大会欧洲站中,Andrew Gasparovic介绍了TensorFlow以及发展的...

49780
来自专栏机器之心

从Zero到Hero,OpenAI重磅发布深度强化学习资源

在项目主页中,OpenAI 提供了非常完整的使用教程,包括 Spinning Up 的详细介绍、各种环境下的安装方法、收录的算法,以及实验实现的教程等。除此之外...

8900
来自专栏AI科技评论

多图见证模拟机器人的逆天成长:论进化策略在强化学习中的应用

AI 科技评论按:本文是 otoro.net 的系列技术博客之一,以通俗可视化的方法讲解了进化策略(Evolution Strategies)中的诸多概念。本篇...

459100
来自专栏机器之心

ACL 2018 | 百度提出交互式语言学习新方法:让智能体具备单次概念学习能力

20040
来自专栏机器之心

业界 | 百度人机交互新研究:仅用少量样本生成高质量多说话者语音

28850
来自专栏AI科技大本营的专栏

AI 行业实践精选:通过机器学习刺激销量——如何利用NLP挖掘潜在客户

【AI100 导读】在这篇博客中,作者会向大家介绍如何以更有效的方式通过 Xeneta 进行营销,会训练一个机器学习算法,通过对于公司的描述来预测潜在客户的质量...

39280
来自专栏新智元

【IEEE Spectrum】神经网络视觉分类算法的意外弱点

【新智元导读】以往的对抗攻击需要进行复杂的数据处理,但最近华盛顿大学、密歇根大学、石溪大学和加州大学伯克利分校的一组研究人员发表了一篇文章,表明在物理世界中进行...

348130
来自专栏程序人生 阅读快乐

Keras快速上手:基于Python的深度学习实战

《Keras快速上手:基于Python的深度学习实战》系统地讲解了深度学习的基本知识、建模过程和应用,并以深度学习在推荐系统、图像识别、自然语言处理、文字生成和...

10120
来自专栏PPV课数据科学社区

基础篇:从 0 到 1 掌握 Python 机器学习(附资源)

Python 可以说是现在最流行的机器学习语言,而且你也能在网上找到大量的资源。你现在也在考虑从 Python 入门机器学习吗?本教程或许能帮你成功上手,从 0...

51780

扫码关注云+社区

领取腾讯云代金券