机器之心整理
参与:一鸣、思源
本周 Hinton、李飞飞都有新论文面世。Hinton 等提出了新的优化算法,而李飞飞等在视频预测任务上实现了新的 SOTA 模型。此外还有自然语言理解评价方法、文本+图像数据融合任务的综述,以及对深度学习的硬件进行评价的文章等。
目录:
1.标题:Lookahead Optimizer: k steps forward, 1 step back
摘要:这篇论文提出 Lookahead 算法与已有的方法完全不同,它迭代地更新两组权重。直观来说,Lookahead 算法通过提前观察另一个优化器生成的「fast weights」序列,来选择搜索方向。该研究发现,Lookahead 算法能够提升学习稳定性,不仅降低了调参需要的功夫,同时还能提升收敛速度与效果。研究表示,Lookahead 在残差网络(ImageNet)、Transformer(WMT 2014)等模型上,算法的性能显著优于 SGD 和 Adam。
推荐:首先这篇论文表示 Lookahead 可以大幅度提升 Adam 等优化器的效果,且作者包括图灵奖得主 Geoffrey Hinton 和 Adam 原论文作者 Jimmy Ba,所以非常值得我们一读。此外,因为算法实现起来并不困难,而且在各种任务上都能有很稳定的表现,因此也非常值得我们一试。
如上左图展示了 Lookahead 的两种参数更新方法:Fast 和 Slow。相比蓝色线的标准 SGD,红色线的 Slow weights 在接近收敛时能探索到更好的最优解。右图展示了 Lookahead 的伪代码,我们可以看到,快更新相当于做了一系列实验,然后慢更新再根据实验结果选一个好方向。
2.标题:Eidetic 3D LSTM: A Model for Video Prediction and Beyond
摘要:时空预测尽管被认为是一种有效的自监督特征学习策略,但目前仍很少体现出在视频预测之外的效果。这是因为,学习短期帧的依赖和长期的高级关系的表示非常困难。研究人员在这篇论文中提出了一个新的模型,名为「Eidetic 3D LSTM (E3D-LSTM)」。模型可以将三维的卷积信息融合在 RNN 中。这种内嵌的三维卷积层使得 RNN 具有局部的动作敏感性,并可以使机器单元储存更好的短期特征。
对于长期关系,研究人员使用门控制自注意力单元,使得现在的记忆状态和历史记录进行交互。研究人员称这种记忆转移机制为「eidetic」,因为它能够使模型「回忆」起多个时间步前记忆的信息。研究人员首先在广泛使用的视频预测数据集上进行了测试,结果达到了 SOTA。然后,他们展示了模型在早期活动检测(early activity recognition)任务上的表现。模型能够在观察少量帧数的视频后推断出发生了什么,以及将要发生什么。这个任务和视频预测中的建模动作意图和趋势的任务很好地配合。
推荐:视频预测任务新 SOTA,作者包括李飞飞等,团队包括清华大学、斯坦福大学、谷歌大脑等的研究人员。
如上展示了三种将三维卷积融合到循环神经网络的方式,蓝色箭头表示使用三维卷积的数据转换路径。a 和 b 分别在时空 LSTM 的前后加上三维卷积运算,它们本质上没有什么区别,而且将三维卷积放在 LSTM 单元外效果并不好。c 则展示了 E3D-LSTM 的编码器解码器结构,它将三维卷积嵌入到 LSTM 单元内,从而将卷积特征用于循环网络的隐状态。
3.标题:Discourse-Based Evaluation of Language Understanding
摘要:在本文中,研究者介绍了 DiscEval,它包含 11 个评估数据集,并以语篇为重点,可用于英语自然语言理解的评估。他们证明,语篇评估任务被忽视了,并且自然语言推理(NLI)预训练可能无法学习到真正的通用型表征。DiscEval 还可以用作多任务学习系统的补充训练数据,它是公开可用的,同时提供收集和预训练数据集的代码。
推荐:本文总结了自然语言理解的评估方法,可作为评价语言模型性能的重要参考。
表 1:DiscEval 的文本分类数据集。
4.标题:Trends in Integration of Vision and Language Research: A Survey of Tasks, Datasets, and Methods
摘要:近年来,由于机器学习、计算机视觉和神经语言处理等多学科社区日益高涨的兴趣,视觉与语言任务的整合已经取得了显著的进展。在这篇综述文章中,研究者重点讲述了十项不同的视觉与语言整合任务,并就这些任务的问题界定、方法、现有数据集、评估度量以及以相应 SOTA 方法所实现结果的对比进行详解。本次调研较以往更为深入,先前的研究要么针对特定任务,要么仅集中于图像或视频等单一类型的内容。最后,研究者探讨了未来视觉与语言研究整合可能的发展方向。
推荐:目前,文本和图像数据融合模型的论文综述依然不多,本文不失为系统理解这一新兴机器学习分支领域的优秀论文。
图 1:论文中展示的十种需要融合文本和图像数据的机器学习任务。
5.标题:Neural Point-Based Graphics
摘要:在本文中,研究者提出了一种新的基于点的复杂场景建模方法。该方法使用原始点云作为场景的几何表征,并且利用能够编码局部几何结构和外观的可学习神经描述符来增大每个点。深度渲染网络与描述符同时进行学习,这样从新视点将点云的光栅部分穿过这个网络,从而获得场景的新视图。研究表明,这种新方法可用于建模复杂场景、得到这些场景的逼真视图,同时能够避免显式表面估计和网格化。具体来讲,使用手持商用 RGB-D 传感器和标准 RGB 摄像头可以在场景扫描任务中获得令人信服的结果。
推荐:仅用点云和视频结合就完成了实时动态的视频渲染,还不需要特别昂贵的景深相机,这样新奇的论文值得读者阅读。
论文对图像的渲染效果和其他方法及 Ground Truth 的对比。第二行中间为论文的方法,最右侧为 Ground Truth。肉眼可见,论文的方法效果更好。
6.标题:Benchmarking TPU, GPU, and CPU Platforms for Deep Learning
摘要:为了系统地对深度学习平台进行基准测试,研究者提出了 ParaDnn,这是一个用于深度学习的参数化基准测试套件,它能够为全连接(FC)、卷积(CNN)和循环(RNN)神经网络生成端到端的模型。研究者使用 6 个实际模型对 Google 的云 TPU v2/v3、NVIDIA 的 V100 GPU,以及 Intel 的 Skylake CPU 平台进行了基准测试。他们深入研究了 TPU 的架构,揭示了它的瓶颈,并重点介绍了能够用于未来专业系统设计的宝贵经验。研究者还提供了平台的全面对比,发现每个平台对某些类型的模型都有自己独特的优势。最后,他们量化了专用的软件堆栈对 TPU 和 GPU 平台提供的快速性能改进。
有关深度学习算法的基准测试论文已是汗牛充栋,但对硬件平台进行测试的论文很少见。通过本论文,读者可系统了解各种机器学习训练的平台特性,并针对自身的需求选择。
上表展示了所有基准测试得出来的结果与见解,它测试了不同神经网络结构在不同硬件平台上的效果。每一条观察结果或结论都有具体的实验图标支持,读者可详细查阅原论文。
7.标题:Unifying Logical and Statistical AI with Markov Logic
摘要:多年来,人工智能的主要两大分支为:逻辑人工智能和统计人工智能。逻辑人工智能使用一等逻辑和相关表示捕捉复杂关系和知识。然而,在许多应用中,逻辑人工智能在处理不确定性和噪声时较为脆弱。统计人工智能则使用概率表示,如概率图模型,来捕捉不确定性。然而,图模型只能表示显式的全局信息,无法处理关系领域。本文提出一种名为马尔科夫逻辑的方法,结合两种模型。
推荐:Keras 之父日前表示,目前机器学习没能解决人工智能的基本问题。本论文值得想要了解逻辑人工智能的读者阅读。
虽然从属于 AI 这个大领域,但如上所示逻辑方法与统计方法在不同的子领域上都有自己的一套方法。本文尝试通过马尔可夫逻辑统一这两种方法,并利用它们各自的优势,感兴趣的读者可详细阅读论文。