前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >前沿 | 如何解决深度学习中的多体问题

前沿 | 如何解决深度学习中的多体问题

作者头像
机器之心
发布于 2018-05-08 03:56:17
发布于 2018-05-08 03:56:17
1.3K0
举报
文章被收录于专栏:机器之心机器之心

选自Medium

机器之心编译

参与:乾树

多个智能体如何协同工作才能高效完成任务?深度学习领域中的多体问题就像物理领域中的一样难解。很多研究机构正致力于研发先进技术处理多代理系统的问题。

「多体问题」(又叫 N 体问题)是看似简单,实际上在当今数学中极难攻克的问题。多体问题是指多个相互作用的实体。在物理学中,任何三体问题都没有一个封闭的形式或解析解(见:https://en.wikipedia.org/wiki/Three-body_problem)。像这样简单的问题反映了我们分析工具的局限性。这并不意味着它是不可解的,它只意味着我们必须诉诸于近似和数值技术来进行计算。可以用足够精确的数值计算分析太阳、月球和地球之间的三体问题以帮助宇航员登陆月球。

在深度学习领域,我们也有一个新兴的 N 体问题。许多更先进的系统现在正在处理多代理系统的问题。每个代理都可能有与全局目标合作或竞争的目标(即目标函数)。在多代理深度学习系统中,甚至在模块化的深度学习系统中,研究人员需要设计可扩展的合作方法。

Johannes Kepler 大学、DeepMind、OpenAI 和 Facebook 最近纷纷发表论文探讨了这个问题的各个方面。

在 Johannes Kepler 大学的团队,包括 Sepp Hochreiter(LSTM 的提出者)已提出利用模拟库仑力(即电磁力大小与反向距离的平方成比例)作为一种训练生成对抗网络(GAN)的替代目标函数。

找到两个对抗网络之间的平衡状态是一个热门的研究课题。在深度学习中解决二体问题相当困难。研究发现,使用这种方法可以防止「模式崩溃」的不良情况。此外,设置确保收敛到一个最佳的解决方案,而且只有一个恰好也是全局的局部极小值。Wasserstein 目标函数(又名 Earth Mover Distance)可能是一个更好的解决方案,这在几个月前极其热门。这个团队已经把他们的创造命名为「库仑 GAN」。

微软 Maluuba 发表了一篇论文介绍了一个人工智能玩吃豆人游戏的系统,它的水平已经超过了人类。研究人员挑战的吃豆人游戏跟此类游戏最初的版本类似,人物在收集小球和水果的同时避免怪物。论文的题目是「强化学习的混合式奖励架构」。本文介绍了不同于典型的强化结构的强化学习(RL)的实现(即 HRA):

这篇文章令人惊讶的是所使用的目标函数的数量。本文描述了使用 1800 值函数作为其解决方案的一部分,也就是说,每个小球、每个水果和每个怪物都使用了代理。微软的研究表明使用数以千计的微型代理将问题分解成子问题并实际解决它是有效的!在这个模型中,代理之间的耦合显然是隐式的。

DeepMind 解决了具有共享内存的多代理程序的问题。在论文《Distral: Robust Multitask Reinforcement Learning》中,研究人员通过「思想融合」灵感的代理协调方法来解决一个共同的问题。为此,研究人员采用了一种封装每个代理的方法。然而,它们允许一些信息通过代理的封装边界,希望狭窄的通道更具伸缩性和鲁棒性。

我们提出了多任务联合训练的新方法,我们称之为 distral(提取和迁移学习)。我们不建议在不同的网络之间共享参数,而是共享一个「提取」的策略,以捕获跨任务的共同行为。每个网络都被训练用来解决自己的任务,同时受限于近似共享的策略,而共享策略通过提取训练成为所有任务策略的中心。

其结果引出了更快,更稳定的学习,从而验证了狭窄通道的方法。在这些多代理(N 体问题)开放性问题是这种耦合的本质。DeepMind 的论文表明了更低的耦合相对于原生的紧耦合的方法的有效性(即权重共享)。

OpenAI 最近发表了在他们的系统中训练模型匹配其他代理的多系统的有趣的论文。论文题目为《Learning with Opponent-Learning Awareness》。该论文表明,「以牙还牙」战略的出现源自赋予多代理系统社会意识能力。尽管结果具有弹性问题,但它确实是一种非常令人着迷的方法,因为它解决了人工智能的一个关键维度(参见:多维智能)。

总而言之,许多领先的深度学习研究机构正在积极探索模块化深度学习。这些团体正在探索由不同的对象函数组成的多代理系统,所有这些都用于合作解决单一的全局目标函数的。仍然有许多问题需要解决,但显然,这种做法确实非常有希望取得进展。去年,我发现博弈论的变化对未来进步极具指导意义。在今年,我们将看到更多探索多代理系统的松散耦合尝试。

原文链接:https://medium.com/intuitionmachine/the-deep-learning-many-body-problem-3665d3947628

本文为机器之心编译,转载请联系本公众号获得授权。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-09-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
新年快乐!这是份值得收藏的2017年AI与深度学习要点大全
若朴 夏乙 编译自 WILDML 量子位 出品 | 公众号 QbitAI 2017已经正式离我们远去。 过去的一年里,有很多值得梳理记录的内容。博客WILDML的作者、曾在Google Brain做了一年Resident的Denny Britz,就把他眼中的2017年AI和深度学习的大事,进行了一番梳理汇总。 量子位进行概要摘录如下,详情可前往原文查看,地址:http://www.wildml.com/2017/12/ai-and-deep-learning-in-2017-a-year-in-review
量子位
2018/03/22
6190
新年快乐!这是份值得收藏的2017年AI与深度学习要点大全
DeepMind已经悄悄地开放了三个令人印象深刻的强化学习框架
近年来,深度强化学习(DRL)一直是人工智能(AI)一些重大突破的核心。然而,尽管DRL方法取得了很大的进步,但由于缺少工具和库,它仍然难以应用于主流解决方案中。因此,DRL在很大程度上仍然是一种研究活动,并没有在现实世界中大量采用机器学习解决方案。解决这个问题需要更好的工具和框架。在当前一代人工智能(AI)领导者中,DeepMind是唯一一家在推进DRL研发方面做得最多的公司。最近,Alphabet子公司发布了一系列新的开源技术,可以帮助简化DRL方法的采用。
AiTechYun
2019/10/14
4580
DeepMind已经悄悄地开放了三个令人印象深刻的强化学习框架
2017 年最推荐的五篇深度学习论文
企鹅号小编
2018/01/04
7730
2017 年最推荐的五篇深度学习论文
强化学习:DQN与Double DQN讨论
强化学习逐渐引起公众的注意要归功于谷歌的DeepMind公司。DeepMind公司最初是由Demis Hassabis, Shane Legg和Mustafa Suleyman于2010年创立的。创始人Hassabis有三重身份:游戏开发者,神经科学家以及人工智能创业者。Hassabis游戏开发者的身份使人不难理解DeepMind在Nature上发表的第一篇论文是以雅达利(atari)游戏为背景的。同时,Hassabis又是国际象棋高手,他在挑战完简单的雅达利游戏后再挑战深奥的围棋游戏也就不难理解了。这就有了AlphaGo和李世石的2016之战,以及他在Nature发表的第二篇论文。一战成名之后,深度强化学习再次博得世人的眼球。当然,DeepMind的成功离不开近几年取得突破进展的深度学习技术。本节主要讲解DQN,也就是DeepMind发表在Nature上的第一篇论文,名字是Human-level Control throughDeep Reinforcement Learning。
博文视点Broadview
2020/06/11
1.4K0
强化学习:DQN与Double DQN讨论
2017最火的五篇深度学习论文 总有一篇适合你
【导读】最近,MIT博士生学生GREGORY J STEIN在博客中总结了2017年他最喜欢的深度学习论文,并且列出了这一年对他研究思考影响最深的五篇论文,其中包括《CycleGAN, Deep Image Prior,苹果的simGAN, Wasserstein GAN, AlphaGo zero》,并且详细地解释了为什么会选择这篇论文的原因,值得大家细细品味!专知内容组编辑整理。 MY FAVORITE DEEP LEARNING PAPERS OF 2017 2017年我最喜欢的深度学习论文
企鹅号小编
2018/01/16
8590
2017最火的五篇深度学习论文 总有一篇适合你
DeepMind 一次性开源 3 个新框架!深度强化学习应用落地即将迎来春天?
深度强化学习(Deep Reinforcement Learning,DRL)一直是近年来人工智能的一些重大突破的核心。然而,尽管 DRL 有了很大的进步,但由于缺乏工具和库,DRL 方法在主流解决方案中仍然难以应用。因此,DRL 仍然主要是以研究形式存在,并没有在现实世界看到许多采用机器学习的应用方案;而解决这个问题就需要更好的工具和框架。
AI科技评论
2019/09/23
1.6K0
DeepMind 一次性开源 3 个新框架!深度强化学习应用落地即将迎来春天?
DeepMind提出可微分逻辑编程,结合深度学习与符号程序优点
夏乙 编译自 DeepMind Blog 量子位 出品 | 公众号 QbitAI 神经网络的强大功能有目共睹,但它往往需要大量与目标测试领域数据分布相似的训练数据;而用于符号领域的归纳逻辑编程只需少量
量子位
2018/03/21
7790
DeepMind提出可微分逻辑编程,结合深度学习与符号程序优点
热门 | Google Brain前员工深度盘点2017人工智能和深度学习各大动态
翻译 | AI科技大本营 参与 | shawn 编辑 | Donna 2017年是人工智能井喷的一年。Google Brain团队前成员Denny Britz在自己的博客WILDML上对过去一年人工智能和深度学习领域的大事件进行了细致的梳理,并对2018年某些领域的发展进行了预测。 标志性事件 强化学习在玩游戏上打败人类 2017年AI界风头最劲的可能要数强化学习程序AlphaGo,过去一年它打败了数位世界围棋冠军。由于围棋的搜索空间大的漫无天际,人们曾认为机器学习要想攻克这项游戏还得几年。结果这么快就
AI科技大本营
2018/04/27
9310
热门 | Google Brain前员工深度盘点2017人工智能和深度学习各大动态
Facebook推基于NetHack的深度强化学习利器,超轻量级架构性价比远超GPT-2和BERT
近日,Facebook 的研究人员表示,NetHack这款游戏是专门为训练、测试和评估人工智能模型而设计的。为此,他们今日发布了 NetHack 学习环境,这是用于对强化学习智能体的鲁棒性和泛化性进行基准测试的研究工具。
新智元
2020/06/29
4900
Facebook推基于NetHack的深度强化学习利器,超轻量级架构性价比远超GPT-2和BERT
7 papers | 周志华深度森林新论文;谷歌目标检测新SOTA
论文 1:Multi-label Learning with Deep Forest
机器之心
2019/12/06
4670
7 papers | 周志华深度森林新论文;谷歌目标检测新SOTA
DeepMind 让AI 拥有记忆并实现序列学习,AlphaGo 一周年技术盘点
【新智元导读】在 AlphaGo 获胜一周年的今天,DeepMind 发表最新研究成果,让神经网络成功在学习新任务的同时,不忘老的任务,向着自适应学习迈出重要一步。新智元盘点 DeepMind 一年多以来的技术和商业成果,他们确实一直向着“解决智能”在努力。在赞叹的同时,我们也需要问自己——中国的 DeepMind 在哪里? “以前,我们有一个能够学会玩任何游戏的系统,但它一次只能学会玩一个游戏,” DeepMind 研究科学家 James Kirkpatrick 在接受 Wired 采访时表示,“现在我
新智元
2018/03/27
9550
DeepMind 让AI 拥有记忆并实现序列学习,AlphaGo 一周年技术盘点
资源 | 机器学习十大热文新鲜出炉,这个月你该读哪篇?
翻译 | 林椿眄 编辑 | SuiSui 一直为开发者提供优质学习资源的Mybridge最近又发布了一篇资源性文章:《2018年2月机器学习10大热文精选》 ,这10篇文章是Mybridge是对近期发布的1400篇文章进行了排名并挑选出来的。为了让开发者对文章有更直观的了解,营长对这10篇资源进行了摘要式翻译。 以下文章讨论的话题主要包括:张量生成库,Deepfakes,神经网络,深度强化学习,语音,DMLab-30,医学图像分析,歌词分析,IRL等。 ▌No.1 张量生成库(Tensor Compre
AI科技大本营
2018/04/26
7930
资源 | 机器学习十大热文新鲜出炉,这个月你该读哪篇?
盘点深度学习一年来在文本、语音和视觉等方向的进展,看强化学习如何无往而不利
【AI科技大本营导读】AlphaZero自学成才,机器人Atlas苦练后空翻……2017年,人工智能所取得的新进展真是让人应接不暇。而所有的这些进展,都离不开深度学习一年来在底层研究和技术开发上的新突破。圣诞节前后,Statsbot的数据科学家Ed Tyantov专门评估了深度学习这一年在文本、语音和视觉等方向的各项研究成果,并进一步试图总结出一些可能影响未来的全新趋势。 具体都是些什么呢?我们来看文章。 作者 | Eduard Tyantov 翻译 | 林椿眄 文本 Google神经网络翻译机器 大约
AI科技大本营
2018/04/27
8460
盘点深度学习一年来在文本、语音和视觉等方向的进展,看强化学习如何无往而不利
DeepMind 的新强化学习系统是迈向通用 AI 的一步吗?
这篇文章是我们对 AI 研究论文评论的一部分,这是一系列探索人工智能最新发现的文章。
AI科技大本营
2021/10/14
5660
【深度】为什么Alphago Zero是深度学习领域的一次巨大突破?
【导读】Google DeepMind在Nature上发表最新论文,介绍了迄今最强最新的版本AlphaGo Zero,不使用人类先验知识,使用纯强化学习,将价值网络和策略网络整合为一个架构,3天训练后
WZEARW
2018/04/09
1.1K0
【深度】为什么Alphago Zero是深度学习领域的一次巨大突破?
前沿 | DeepMind提出SPIRAL:使用强化对抗学习,实现会用画笔的智能体
选自DeepMind 作者:Ali Eslami等 机器之心编译 参与:路雪 近日,DeepMind 发布博客,提出一种结合了对抗训练和强化学习的智能体 SPIRAL。该智能体可与绘图程序互动,在数位画布上画画、改变笔触的大小、用力和颜色,并像街头艺人一样画画。也就是说,通过向 SPIRAL 提供人类用于描绘周围世界的工具,它们也可以生成类似的表征。 人类眼中的世界不只是角膜映射出的图像。比如,当我们看一幢建筑,赞美其设计精巧复杂时,我们能够欣赏到它的精巧工艺。通过创造事物的工具来解读事物是帮助我们理解世界
机器之心
2018/05/08
6910
前沿 | DeepMind提出SPIRAL:使用强化对抗学习,实现会用画笔的智能体
除了深度学习,你还应该关注这 6 大 AI 领域
AI的这6个领域对未来的数字化产品和服务有着巨大影响。 编者按:因为深度学习最近在语音识别、图像识别等领域取得的突破,很多人都把人工智能与深度学习混为一谈。但深度学习只是AI的一方面,实际上还有其他一
昱良
2018/04/08
7700
除了深度学习,你还应该关注这 6 大 AI 领域
强化学习如何入门?看这篇文章就够了
对于大脑的工作原理,我们知之甚少,但是我们知道大脑能通过反复尝试来学习知识。我们做出合适选择时会得到奖励,做出不切当选择时会受到惩罚,这也是我们来适应环境的方式。如今,我们可以利用强大的计算能力,在软件中对这个具体过程进行建模,这就是强化学习。
量子位
2018/07/20
1.1K0
DeepMind 升级深度强化学习,仅10小时训练16个机器人灵活操纵物体
【新智元导读】DeepMind 研究人员改进深度确定策略梯度算法,在虚拟环境中训练机械臂叠协同完成堆叠积木的任务,每架机械臂的结果都被用于改进核心算法,10个小时训练好 16 台机器人。研究人员表示,他们的方法可以很快就能用于训练真实世界机器人完成精确堆叠的任务。 让机器人相互学习一个最简单的方法就是将所有关于成功和失败的经验都汇总到一起。去年,谷歌大脑展示了他们的协作机械臂研究项目——合作式增强学习让机器人掌握通用技能:一台机械臂学会的东西,可以在所有机械臂之间共享,这样所有的机械臂都能以更快的速度学习、
新智元
2018/03/27
1.4K0
DeepMind 升级深度强化学习,仅10小时训练16个机器人灵活操纵物体
深度学习求解「三体」问题,计算速度提高一亿倍
早在牛顿的时代,三体问题就已经被提出,即三个可视为质点的天体在相互之间万有引力作用下的运动规律问题,至今无法被精确求解。与之相对的,描述两个天体相互运动的二体问题可以通过牛顿力学完美解决。三体问题在国内的知名度部分来自于科幻小说家刘慈欣的小说《三体》,其中就描述了一个生活在三体星系的地外文明,忍受着三颗恒星复杂多变的运行轨迹带来的变化多端的天气,由此产生了星际移民并试图占领地球的故事。
AI科技评论
2019/11/07
1.1K0
深度学习求解「三体」问题,计算速度提高一亿倍
推荐阅读
新年快乐!这是份值得收藏的2017年AI与深度学习要点大全
6190
DeepMind已经悄悄地开放了三个令人印象深刻的强化学习框架
4580
2017 年最推荐的五篇深度学习论文
7730
强化学习:DQN与Double DQN讨论
1.4K0
2017最火的五篇深度学习论文 总有一篇适合你
8590
DeepMind 一次性开源 3 个新框架!深度强化学习应用落地即将迎来春天?
1.6K0
DeepMind提出可微分逻辑编程,结合深度学习与符号程序优点
7790
热门 | Google Brain前员工深度盘点2017人工智能和深度学习各大动态
9310
Facebook推基于NetHack的深度强化学习利器,超轻量级架构性价比远超GPT-2和BERT
4900
7 papers | 周志华深度森林新论文;谷歌目标检测新SOTA
4670
DeepMind 让AI 拥有记忆并实现序列学习,AlphaGo 一周年技术盘点
9550
资源 | 机器学习十大热文新鲜出炉,这个月你该读哪篇?
7930
盘点深度学习一年来在文本、语音和视觉等方向的进展,看强化学习如何无往而不利
8460
DeepMind 的新强化学习系统是迈向通用 AI 的一步吗?
5660
【深度】为什么Alphago Zero是深度学习领域的一次巨大突破?
1.1K0
前沿 | DeepMind提出SPIRAL:使用强化对抗学习,实现会用画笔的智能体
6910
除了深度学习,你还应该关注这 6 大 AI 领域
7700
强化学习如何入门?看这篇文章就够了
1.1K0
DeepMind 升级深度强化学习,仅10小时训练16个机器人灵活操纵物体
1.4K0
深度学习求解「三体」问题,计算速度提高一亿倍
1.1K0
相关推荐
新年快乐!这是份值得收藏的2017年AI与深度学习要点大全
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档