腾讯 AI Lab : 全面解读 ICML 2017 五大研究热点

感谢阅读腾讯AI Lab微信号第五篇文章,我们将深度解析机器学习领域顶会ICML的热门研究。第一部分解析了五大热门研究领域的重点文章,包括强化学习、随机优化、连续(非)凸优化、分布式机器学习及递归神经网络等。第二部分简介本届ICML,第三部分为腾讯AI Lab机器学习团队的首次公开亮相。

腾讯AI Lab去年四月成立,今年是首次参加ICML,共计四篇文章被录取,位居国内企业前列。此次团队由机器学习和大数据领域的专家、腾讯AI Lab主任张潼博士带领到场交流学习,张潼博士还担任了本届ICML领域主席。在本次130人的主席团队中,华人不超过10位,内地仅有腾讯AI Lab、清华大学和微软研究院三家机构。

图:本届ICML领域主席、腾讯AI Lab主任张潼博士现场发表演讲

图:腾讯AI Lab机器学习团队

图:展台前络绎不绝的学者

以下为腾讯AI Lab机器学习团队在会后对五大研究领域的回顾与独家解析。

所提及论文下载地址:http://t.cn/R9WyXxz

强化学习

Reinforcement Learning

强化学习是机器学习的重要分支,通过试错或模仿专家的方式学习可靠策略,解决序列决策问题。其应用领域包括视频游戏AI、无人驾驶、机器人控制、物流管理和仓储调度等。粗略统计,本届ICML有40余篇强化学习相关论文,涵盖了收敛性分析、连续控制、搜索与探索、多智能体与博弈论、模仿学习与转导、端到端深度强化学习等多个方面。

这次会议的研究中体现出三大特点:一、深度学习范式被广为采用,研究者将对问题的理解和先验知识做成了复杂网络模型的子模块,并采用端到端的方式训练;二、来自机器人领域的学者持续影响连续控制方面的研究;三、团队配合多智能体方面的研究吸引了越来越多的注意力。另外,「视频游戏与机器学习」研讨会(Workshop)环节发布了新的强化学习模拟器平台。我们重点关注了以下文章:

1) FeUdal Networks for Hierarchical Reinforcement Learning

本文由Google DeepMind发表。策略网络被划分为两个模块:管理者和工作者。管理者模块在低时间分辨率工作,产生中长期子目标;工作者模块在高时间分辨率工作,从管理者模块拿到子目标,并上原始的环境观测一起输出当前时刻的决策动作。本文这种精巧设计的网络结构能自动「发现」子目标,并自动学出相应的「子策略」,而之前的工作都采用了手调子目标的方式,在灵活性和通用性不如本文所提出的算法。

本文的管理者-工作者网络结构

实验表明该方法确实能够成功的自动发现「子目标」并学出「子策略」。下图展示了该方法在「蒙特祖玛的复仇」游戏环境[1]上的结果。 [1]该游戏特点是有多幕切换,奖励信号稀疏且延迟很长,例如在某一幕拿到了剑要再回到前两幕斩杀某个骷髅怪。

2)Improving Stochastic Policy Gradients in Continuous Control with Deep Reinforcement Learning using the Beta Distribution

本文由卡内基梅隆大学发表。假设输出的连续控制信号从Beta分布中采样,本文通过一个深度神经网络直接学习、预测Beta分布的两个参数。在连续控制的文献中,以往工作多采用高斯分布假设并直接学习和预测高斯分布的均值和方差。但高斯分布在数值上是无界的,对一些需要安全策略的场合这种性质极不合理。例如,自动驾驶中,左右打盘的角度无论如何不能太大。而Beta分布刚好满足左右有界这一性质(如下图)。

本文方法的实现非常简单但又十分有效,在机器人控制模拟环境mujoco的多个任务中取得的结果超过了基于高斯分布的连续控制方法(如下图)。

3) Coordinated Multi-Agent Imitation Learning

本文由加州理工大学、迪斯尼研究院和STATS公司(该公司有大量体育比赛的各类实际数据)联合发表,通过模仿学习方式学出多智能体控制模型。本文收集了大量英超足球比赛数据,使用结构学习方式自动学出智能体和实际数据的合理对应关系。这里的对应关系是指,比如当前智能体在某个具体位置到底是更适合学习前锋、前卫还是中场的行为。

通过动态构造对应关系,本文算法绕开了多智能体模仿学习中对应关系可能存在模糊或不确定性这一难题,例如边后卫助攻到前场后,到底该表现得更像后卫还是更像前锋。实验表明该方法学出的控制策略与专家数据(来自实际的英超比赛)更为接近,见下左图中的白圈,而定量结果可见下图右。

4)其他话题

在「视频游戏与机器学习」研讨会环节,暴雪公司宣布开源并发布《星际争霸2》的C++编程接口,开发者通过其可获得游戏内部状态、操纵游戏单位执行指定动作等。其还公布了几十万一对一比赛回放文件,记录了匿名玩家的操作序列。暴雪还与Google DeepMind合作,推出了相应的Python版本接口。

C++ APIs效果现场演示

Python接口,访问特征图层

另外,Facebook AI Research发布了新的强化学习框架ELF,其特点为支持多种环境-执行器的并发模型(一对一,多对一、一对多,多对多),这会为现代强化学习算法的实现,如模特卡罗树搜索(MCTS)和自我对战(Self Play),带来极大便利。

随机优化

Stochastic Optimization

随机优化算法是指每次只随机采样一个或少量几个(Mini-batch)训练样本对模型更新的优化方法。因其有低内存消耗、低单次迭代计算复杂度等特点,被广泛应用于大规模机器学习模型训练中,包括绝大多数深度学习模型的训练。粗略统计,本届ICML有20余篇随机优化相关论文,大致可分为一阶随机优化、二阶随机优化和非凸随机优化三个大方向。

本次会议的相关论文中体现出两大特点:二阶随机优化算法被更多研究者所关注;非凸随机优化,特别是针对深度学习的非凸随机优化算法成为一个新的研究热点。我们重点关注了以下几篇论文:

1)Follow the Moving Leader in Deep Learning

本文由香港科技大学发表。在深度学习中,参数以及数据分布都会随着迭代进行不断变化,这使得深度学习模型的训练一直是一个具有挑战性的问题。针对这一问题,本文提出了全新的FTML算法,具有更快收敛速度。与已有优化算法(如FTRL)不同的是,本文的FTML算法迭代中,越新样本具有越大权重,这使算法更能适应数据分布变化,有更快收敛速度。多个数据集上深度学习模型训练实验结果显示,FTML比其他已有算法收敛更快。

模型训练实验结果

2)Natasha: Faster Non-Convex Stochastic Optimization Via Strongly Non-Convex Parameter

本文由微软研究院发表。随机梯度下降和梯度下降是当前求解非凸机器学习模型的常用方法,本文借用方差下降随机优化算法SVRG的关键思路,并对目标函数的强非凸性做更细致的分析,提出了针对于非凸随机优化问题的新算法Natasha,比目前标准算法更高效。作者的创新之处,是提出了一套针对强非凸函数更细致的分析方法,并在此基础上设计了针对非凸优化问题更精细的随机算法,能有效利用强非凸函数的结构信息。理论分析结果显示,在强非凸参数大于某个常数时,本文所提出的算法具有更低的计算复杂度。

计算复杂度对比结果

3)A Unifying Framework for Convergence Analysis of Approximate Newton Methods

本文由上海交通大学和北京大学联合发表。近似牛顿算法,如Sketched-Newton和Subsampled-Newton,是一类高效的二阶随机优化算法,因其单次迭代计算复杂度较低、收敛速度快等特点受到广泛关注。但已有理论的分析结果和其在实际应用中的性能表现在很多方面并不一致。本文为二阶随机优化算法提出了一套新的分析工具,解决了多个理论及应用中表现不一致的问题。

在创新点上,作者将多种近似牛顿算法统一到同一个算法框架中,对其局部收敛性质做统一分析,解决了多个理论分析结果和实际应用性能不一致的问题,并为新算法设计提供了新的思路。本文从理论上证明了:一、近似牛顿算法的线性收敛速度不需要Hessian矩阵满足Lipschitz连续,但是算法平方收敛速度需要此连续。二、Hessian矩阵的条件数和Sketched-Newton的性能不相关。

连续(非)凸优化

Continuous Optimization

连续(非)凸优化在机器学习中起着举足轻重的作用,大部分机器学习问题均可建模成某一类连续(非)凸优化问题。粗略统计,本届ICML大概有40篇连续优化的论文,其中半数以上为非凸连续优化内容。另外,由于深度学习的流行,一阶优化算法相关论文也占有相当大的比重。我们将重点介绍以下三个研究:

1)GSOS: Gauss-Seidel Operator Splitting Algorithm for Multi-Term Nonsmooth Convex Composite Optimization

这篇论文由腾讯AI Lab、中山大学和香港中文大学合作完成,提出了新的求解多块非光滑复合凸优化问题的算子分裂算法。该算法采用Gauss-Seidel迭代及算子分裂的技巧处理不可分的非光滑正则项。通过用单调算子理论,文中给出多块非光滑复合凸优化问题最优解集以及算法的等价刻画,并利用该等价刻画来巧妙的建立了所提算法的全局收敛性。最后本文以实验证实了该算法的有效性。

2)Exploiting Strong Convexity from Data with Primal-Dual First-Order Algorithms

这篇论文由芝加哥大学和微软研究院共同完成,提出两类新的原对偶一阶算法来求解经验风险最小化的凸优化问题。通过自适应地利用样本数据中暗含的强凸性质,文中证明了这两类新算法的线性收敛速率。另外,通过利用Dual-free的技巧,文中将算法中Euclidean距离下的邻近算子替换为Bregman距离下的邻近算子,从而得到两类Dual-free原对偶算法变体。最后实验证明该算法的有效性。

3)Dual Iterative Hard Thresholding: From Non-convex Sparse Minimization to Non-smooth Concave Maximization

这篇论文由罗格斯大学和南京信息工程大学共同完成,作者首次建立了有稀疏约束的极小化问题Lagrange对偶理论。基于此,本文提出了求解具有稀疏约束的极小化问题的对偶硬阈值(Dual ITH)算法及其随机版本的变体,并在无需采样算子满足限制同构性质(RIP)的条件下建立了算法收敛性。这篇论文从实验上说明了该算法在具有稀疏约束的极小化问题上效果为目前最佳。

分布式机器学习

Distributed Machine Learning

分布式机器学习旨在研究如何以平行、分布式方式来设计算法和系统,实现对大规模海量数据的高效处理。其研究涉及算法和系统两个方面,本届ICML的相关研究主要以算法设计为主。依照分布式类型,主要有中心化分布式和去中心化分布式两种。

粗略统计,本届ICML有13篇分布式机器学习相关论文。其中6篇为传统分布式机器学习算法(优化算法)设计,中心化分布式和去中心化分布式各占3篇;此外,1篇论文讨论了中心化分布式场景下,如何利用数据稀疏性降低通信消耗;1篇讨论了通信限制条件下的中心化分布式算法设计;另外几篇则涉及高斯过程、汤普森采样和聚类算法等的中心化分布式算法设计。

从研究上本届ICML有三大研究趋势:一、去中心化的分布式机器学习得到了越来越多关注;二、异步通信仍是分布式机器学习关注的重要方向;三、在贝叶斯优化、高斯过程、聚类算法等具体领域,开始有更多分布式研究。我们重点关注了以下几篇文章:

1) Projection-free Distributed Online Learning in Networks

本文由清华大学计算机系与腾讯AI Lab联合发表,首次提出了免投影的分布式在线学习算法,并给出了它的悔界上界(Regret Bound)。后者依赖于网络大小和拓扑结构,随网络增大而增大,随网络拓扑连接性能提升而减小。相较于传统的有投影分布式在线算法,本文的算法计算复杂度明显降低,能高效处理分布式在线数据流,克服了传统有投影算法需复杂投影计算的问题。

2) Asynchronous Stochastic Gradient Descent with Delay Compensation

本文由中国科技大学与微软亚洲研究院(MSRA)联合发表,提出了延迟补偿的异步随机梯度下降算法。传统异步随机梯度下降算法直接使用延迟的梯度,而该文则给出了一种补偿延迟梯度的算法。补偿方法利用梯度函数的一阶近似,即损失函数的二阶近似来估计延迟的梯度,使算法能取得优于异步随机梯度算法的效果。从创新点上,该文首次提出了对延迟梯度的估计思路,并应用在实际的深度学习训练当中。

3) A Parallel and Distributed Thompson Sampling for Large-scale Accelerated Exploration of Chemical Space

本文由剑桥大学和IBM联合发表。汤普森采样算法是贝叶斯优化领域的经典算法,可对搜索空间做高效探索,但当前算法无法实现大规模并行化。本文提出了分布式的汤普森采样算法,并在具有大规模搜索空间的化学实验中验证了该算法的有效性。

递归神经网络

Recurrent Neural Networks

递归神经网络(RNN),尤其是LSTM和GRU,已经在时序性数据(Sequential Data)建模与生成都取得了显著的效果。RNN研究已是深度学习一个重要研究方向。去年的ICML,所有深度学习相关论文、至少三个Session都提及了神经网络与深度学习。而今年的ICML中,有4个session专门介绍最近RNN的进展,包括一些新的RNN模型,如Recurrent Highway Networks,和一些RNN在音乐、音频和视频数据上的应用。这说明主流学术界与工业界近期对RNN有很大关注度。我们也重点关注了以下几篇研究:

1) Recurrent Highway Networks 本文由苏黎世联邦理工学院及卢加诺大学的IDSIA实验室联合完成。Recurrent Highway Network (RHN) 是对LSTM框架的一种扩展。LSTM Step之间的变换深度(Transition Depth)为1,而RHN允许该深度高于1,因而进一步学习信号间的复杂关系。在一些语言建模任务上,RHN显示了更强大的能力,如在Penn Treenbank数据集上Word Level的perplexity从90.4降到了65.4。

2) Attentive Recurrent Comparators

本文由北卡罗来纳大学和印度科学研究院共同完成。Attentive Recurrent Comparator (ARC) 可学习一个近似的动态表示空间用于极小样本学习。在极小样本学习公开数据集合Omniglot上,错误率降低为1.5%,可以说是在这个人物的公开测评库上,AI超过了人类的识别水平。这个工作主要模拟人类比较两个图像相似度的行为,用一个RNN网络协调整个过程,采用相应注意力模型让两幅图像交替比对。在每一个Time Step,结合图像局部区域信息和RNN的前一个时刻状态,产生当前时刻状态。RNN的最终状态可推导出两副图像的相关性表示(Relative Representation)。

ARC在极小样本应用上有两种处理方式:一是采用朴素的ARC模型,将给定测试图像与数据集合的所有图像比对,返回最相似的图像对应的所属类别;第二种方式成为Full Context ARC,在采用朴素的ARC将测试图像与数据集合的图像比对后,得到相应的相关性表示。这一步学习了局部的两两之间比对关系,基于相关性表示,进而使用双向LSTM学习全局的比对信息。朴素ARC模型和Full Context ARC模型在Omniglot数据集上都取得了超过人类的识别能力;另外,前者在MiniImageNet数据集上的测试结果也超越了Matching Networks等模型。

3)Learning to Generate Long-term Future via Hierarchical Prediction

本文由谷歌大脑、Adobe和密歇根大学联合发表,文中介绍了一个层次(Hierarchical)方法预测长时(long-term)视频未来帧。模型先估计输入视频帧的高阶结构信息,再预测此信息如何在未来视频帧进化,最终给定一个单帧图像和预测得到的高阶结构信息,来重构未来视频帧像素级别的信息。文中提出的模型使用LSTM预测视频结构信息,和一个Analogy-based encoder-decoder CNN产生未来视频帧。其预测性能在Human3.6M和Peen Action datasets数据集上均取得了很好结果。

4) Delta Networks for Optimized Recurrent Network Computation

本文由苏黎世联邦理工学院、苏黎世大学和三星综合技术院等机构共同发布。神经网络的激活模式(Activation Pattern)一般呈现出稳定输出,为进一步处理这样的自然信号,该论文提出了一个Delta Network,其中每个神经元只在其激活值超越一个阈值时传输相应的信号。虽然一个朴素的Delta Network在内存使用和计算量上有一定程度提升,但是其能在训练阶段以较快时间得到较高准确度。在TIDIGITS Audio Digit Recognition Benchmark数据集上提高了9倍训练效率,而准确度基本无损失。在另一个自动驾驶数据集上,使用一个端到端的CNN-RNN网络来完成Steering Angle Prediction,RNN训练效率显著提高了100倍。在WSJ的语音识别数据集上,Delta Networks可在不损失精度的情况下,提高5.7倍训练效率。

5)The Statistical Recurrent Unit

本文由卡内基梅隆大学发表,文中提出了一个没有门操作的RNN单元,即Statistical Recurrent Unit (SRU),可保证Moving Average of Statistics来学习序列信号的长时(long-term)依存特性。SRU结构简单,没有相应门操作,跟LSTM的参数量比较一致。在合成数据上,相较于LSTM/GPU,SRU可学习多尺度循环统计特性(Multi-scale Recurrent Statistic)。而且SRU在学习一维信号的长时依赖,其性能也优于LSTM/GRU。具体说来,SRU在MNIST数据集分类、多声部音乐(polyphonic music)建模、一维天气数据建模等任务上性能优于LSTM或GRU。

6)Tensor-Train Recurrent Neural Networks for Video Classification

该论文由西门子公司与德国慕尼黑大学联合发表,通过Tensor-train Decomposition的方式分解Input-to-hidden矩阵,以处理RNN中高维度的输入信号,如视频建模(video modeling)任务。现阶段对视频类高维度的输入信号,都通过CNN操作将视频每一帧表示为一个特征向量,降低相应维度,后使用RNN建模时序信息。在UCF101等现有视频数据集上,该方法取得了与当前最优方法匹敌的结果,但是其计算复杂度远低于朴素的RNN。本文提出的Tensor-train Factorization可构建一个Tensor-train Layer替换Input-to-hidden的大矩阵,还可与RNN共同用端对端训练方式完成训练。

除了上述的RNN模型创新外,RNN应用于时序数据,尤其是音频、音乐、语音等数据,也取得了显著的进展。比如研究Text-to-speech的进展[1]、音频合成工作[2]和巴赫音乐的产生[3]等。 相关论文为:[1] Deep voice: Real-time neural Text-to-speech;[2] Neural Audio Synthesis of Musical Notes with WaveNet Autoencoders;[3] DeepBach: A Steerable Model for Bach Chorales Generation

腾讯AI Lab

机器学习团队首度亮相

腾讯AI Lab成立于2016年4月,专注于机器学习、计算机视觉、语音识别和自然语言理解四个领域「基础研究」,及内容、游戏、社交和平台工具型四大AI「应用探索」,提升AI的决策、理解及创造力,向「Make AI Everywhere」的愿景迈进。

腾讯AI Lab主任及第一负责人是机器学习和大数据专家张潼博士(详情可点链接),副主任及西雅图实验室负责人是语音识别及深度学习专家俞栋博士。目前团队共有50余位AI科学家及200多位应用工程师。

机器学习团队(ML团队)是实验室最早组建的研究团队之一,目前有十多位基础研究科学家,涉及该领域的总监和研究专家包括刘威、黄俊洲和刘晗等博士,由张潼博士直接领导。

在基础和前沿研究方向上,机器学习团队着重研究前沿的机器学习理论及算法,研发和部署大规模机器学习/深度学习系统。在大数据和互联网背景下,探索其在社交网络、广告推荐、行业大数据、智能游戏,及基于感知和决策的AI等方向的应用。

正在进行的项目研究项目包括机器学习理论、优化算法、大规模分布式计算、异构平台,及创新监督、半监督和增强机器学习算法等诸多有既有实际应用需求,也有学术前沿期许的项目,吸引了海内外众多优秀人才参与。

腾讯AI Lab四篇论文被ICML接收

论文一:Scaling Up Sparse Support Vector Machines by Simultaneous Feature and Sample Reduction 本文提出了第一个能在模型训练开始前,同时检测和去除稀疏支持向量机中不活跃样本和特征的筛选算法,并从理论和实验中证明其能不损失任何精度地把模型训练效率提升数个量级。

论文二:GSOS: Gauss-Seidel Operator Splitting Algorithm for Multi-Term Nonsmooth Convex Composite Optimization 本文提出了求解多块非光滑复合凸优化问题的算子分裂新算法,该算法采用Gauss-Seidel迭代以及算子分裂的技巧处理不可分的非光滑正则项,并以实验证实了该算法的有效性。

论文三:Efficient Distributed Learning with Sparsity 本文提出了一个高维大数据中能更有效学习稀疏线性模型的分布式算法。在单个机器训练样本足够多时,该算法只需一轮通信就能学习出统计最优误差模型;即使单个机器样本不足,学习统计最优误差模型的通信代价只随机器数量对数曲线上升,而不依赖于其他条件数。

论文四:Projection-free Distributed Online Learning in Networks 本文提出了去中心化的分布式在线条件梯度算法。该算法将条件梯度的免投影特性推广到分布式在线场景,解决了传统算法需要复杂的投影操作问题,能高效处理去中心化的流式数据。

文章来自:腾讯AI Lab微信(tencent_ailab)

原创声明,本文系作者授权云+社区-专栏发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

4 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

关于机器学习,你需要知道的三件事!

关键词:MATLAB、机器学习、机器学习算法、 正文如下: 导读:MATLAB开发运营团队深度解析何为机器学习,什么时候使用机器学习,如何选择机器学习算法,MA...

3395
来自专栏腾讯高校合作

全面解读ICML 2017五大研究热点 | 腾讯AI Lab独家解析

文章转载自微信号腾讯AI实验室(tencent_ailab) 腾讯AI Lab去年四月成立,今年是首次参加ICML,共计四篇文章被录取,位居国内企业前列。此次团...

3379
来自专栏AI科技评论

论文|ACL2016最佳论文:用于口语对话系统策略优化的在线自动奖励学习

摘要 计算正确奖励函数的能力对于通过加强学习优化对话系统十分的关键。在现实世界的应用中,使用明确的用户反馈作为奖励信号往往是不可靠的,并且收集反馈花费也十分地高...

2695
来自专栏新智元

【DeepMind最新Nature论文】探索人类行为中的强化学习机制

【新智元导读】DeepMind与来自普林斯顿、NYU、达特茅斯学院、UCL和哈佛大学的研究人员合作,探索了人类行为中的强化学习,为开发智能体强化学习提供了新的策...

2474
来自专栏人工智能快报

AI系统能帮助合成新材料

麻省理工学院的三位材料科学家及其同事发表的论文中,描述其 AI系统可通过科学论文和提取“食谱”合成特定类型的材料。 2017年11月,美国麻省理工学院的三位材料...

2694
来自专栏新智元

Facebook AI实验室最新论文:图像检测的无监督学习(下载)

新智元导读】Facebook最近在美国的日子不算好过。据英国《卫报》报道,Facebook平台上广受欢迎的新闻推送功能实际上严重依赖于编辑团队来决定新闻内容的取...

3608
来自专栏新智元

【LeCun台大演讲】AI最大缺陷是缺乏常识,无监督学习突破困境

【新智元导读】近日,在台湾大学,卷积神经网络之父、FacebookAI 研究院院长 Yann LeCun 以「Deep Learning and the Pat...

3074
来自专栏新智元

【重磅】谷歌发布 Zero-Shot 神经机器翻译系统:AI 巴别塔有望成真(附论文)

【新智元导读】谷歌今日更新博客,介绍了谷歌神经机器翻译系统重大更新,实现了用单一模型对多语种通用表征。这种新的模型体积不仅与多语言翻译模型一样,参数相同,而且速...

3977
来自专栏数据科学与人工智能

特征工程简介|机器学习

(I)特征工程可以解决什么样的问题? 特征工程是一个非常重要的课题,是机器学习中不可缺少的一部分,但是它几乎很少出现于机器学习书本里面的某一章。在机器学习方面的...

2708
来自专栏量化投资与机器学习

LSTM Networks在股票市场上的探究

LSTM Networks 简介 LSTM Networks是递归神经网络(RNNs)的一种,该算法由Sepp Hochreiter和Jurgen Schmid...

2787

扫码关注云+社区