本周有一些较为前沿的研究成果,包括微信团队提出的 NumNet——即 DROP 榜首的 NumNet+的前身。还有关于量子计算、神经算术逻辑单元评价方法等方面的最新研究。
目录:
论文 1:Parameterized quantum circuits as machine learning models
摘要:混合量子经典系统使得现有量子计算机得到充分利用。在这种框架下,参数化量子电路可以看做是具有卓越表现能力的机器学习模型。在本文中,来自英国剑桥量子计算有限公司(Cambridge Quantum Computing Limited)和伦敦大学学院计算机科学系的研究者介绍了这些模型的组成部分,并探讨了它们在监督学习和生成建模等各种数据驱动任务中的应用。随着实际量子硬件进行的实验演示越来越多以及软件的积极开发,这一快速发展的领域将在现实世界中具有广泛的应用范围。
如何将量子计算和传统计算机结合,达成机器学习。
图 8:量子生成模型示意图。
推荐:本文提出了如何将量子电路转换为神经网络中的模型的方法,包括了将一些电路转换为我们熟知的模型的方法。这样一种研究对推动量子计算机驱动的机器学习模型有着很大的作用。
论文 2:On Empirical Comparisons of Optimizers for Deep Learning
摘要:优化器选择是当前深度学习管道的重要步骤。在本文中,研究者展示了优化器比较对元参数调优协议的灵敏度。研究结果表明,在解释文献中由最近实证比较得出的排名时,元参数搜索空间可能是唯一最重要的因素。但是,当元参数搜索空间改变时,这些结果会相互矛盾。随着调优工作的不断增加,更一般的优化器性能表现不会比近似于它们的那些优化器差,但最近比较优化器的尝试要么假设这些包含关系没有实际相关性,要么通过破坏包含的方式限制元参数。研究者在实验中发现,优化器之间的包含关系实际上很重要,并且通常可以对优化器比较做出预测。具体来说,流行的自适应梯度方法的性能表现绝不会差于动量或梯度下降法。
推荐:如何选择优化器?本文从数学角度论证了不同优化器的特性,可作为模型构建中的参考资料。
论文 3:Measuring Arithmetic Extrapolation Performance
摘要:神经算术逻辑单元(NALU)是一种神经网络层,可以学习精确的算术运算。NALU 的目标是能够进行完美的运算,这需要学习到精确的未知算术问题背后的底层逻辑。评价 NALU 性能是非常困难的,因为一个算术问题可能有许多种类的解法。因此,单实例的 MSE 被用于评价和比较模型之间的表现。然而,MSE 的大小并不能说明是否是一个正确的方法,也不能解释模型对初始化的敏感性。因此,研究者推出了一种「成功标准」,用来评价模型是否收敛。使用这种方法时,可以从很多初始化种子上总结成功率,并计算置信区间。通过使用这种方法总结 4800 个实验,研究者发现持续性的学习算术推导是具有挑战性的,特别是乘法。
推荐:尽管神经算术逻辑单元的出现说明了使用神经网络进行复杂运算推导是可行的,但是至今没有一种合适的评价神经网络是否能够成功收敛的标准。本文填补了这一遗憾,可供对本领域感兴趣的读者参考
论文 4:Stabilizing Transformers for Reinforcement Learning
摘要:得益于预训练语言模型强大的能力,这些模型近来在 NLP 任务上取得了一系列的成功。这需要归功于使用了 transformer 架构。但是在强化学习领域,transformer 并没有表现出同样的能力。本文说明了为什么标准的 transformer 架构很难在强化学习中优化。研究者同时提出了一种架构,可以很好地提升 transformer 架构和变体的稳定性,并加速学习。研究者将提出的架构命名为 Gated Transformer-XL (GTrXL),该架构可以超过 LSTM,在多任务学习 DMLab-30 基准上达到 SOTA 的水平。
推荐:本文是 DeepMind 的一篇论文,将强化学习和 Transformer 结合是一种新颖的方法,也许可以催生很多相关的交叉研究。
论文 5:GDP:Generalized Device Placement for Dataflow Graphs
摘要:大型神经网络的运行时间和可扩展性会受到部署设备的影响。随着神经网络架构和异构设备的复杂性增加,对于专家来说,寻找合适的部署设备尤其具有挑战性。现有的大部分自动设备部署方法是不可行的,因为部署需要很大的计算量,而且无法泛化到以前的图上。为了解决这些问题,研究者提出了一种高效的端到端方法。该方法基于一种可扩展的、在图神经网络上的序列注意力机制,并且可以迁移到新的图上。在不同的表征深度学习模型上,包括 Inception-v3、AmoebaNet、Transformer-XL 和 WaveNet,这种方法相比人工方法能够取得 16% 的提升,以及比之前的最好方法有 9.2% 的提升,在收敛速度上快了 15 倍。为了进一步减少计算消耗,研究者在一系列数据流图上预训练了一个策略网络,并使用 superposition 网络在每个单独的图上微调,在超过 50k 个节点的大型图上得到了 SOTA 性能表现,例如一个 8 层的 GNMT。
图 1:GDP 方法的总体架构,是一个结合了图嵌入和序列注意力机制的网络。
推荐:本文是谷歌大脑的一篇论文,通过图网络的方法帮助将模型部署在合适的设备上。推荐收到硬件设备限制,需要找到合适部署图的方法的读者参考。
论文 6:A General Framework for Uncertainty Estimation in Deep Learning
摘要:神经网络的预测通常是不可靠的,特别是当输入的样本不在训练集的分布中,或者因为噪声而损坏的情况下。深度学习算法应当具有自动预测这种失败的能力,然而现有的不确定性预测方法需要对网络和优化流程进行调整,尤其忽略了数据中先验知识的重要性。这些方法倾向于过度简化假设,从而低估了不确定性。为了解决这些问题,研究者提出了一种新的不确定性估计框架。基于贝叶斯信念网络和蒙特卡洛采样,研究者的框架不仅能够完善模型对不同来源的不确定性预测,还可以和之前的感知噪声等数据信息相结合。研究者从理论上说明这一模型相比现有模型可以更好地捕捉不确定性。相比之前的方法,在计算机视觉和控制任务上,研究者的方法最多可以超出 23% 的表现。
图 1:模型的架构。给定变量 x 作为输入,以及噪声 v^(0),和训练好的神经网络。研究者的方法需要计算输出的置信度。
推荐:对于神经网络预测结果的不确定性研究是近来关注的一个热点。本文提出了一种新颖的方法,推荐读者参考。
论文 7:NumNet: Machine Reading Comprehension with Numerical Reasoning
摘要:数字推理,如加减、排序和计数是人类阅读理解中的重要能力,但是现有的机器阅读理解模型却考虑得很少。为了解决这一问题,研究者提出了一个数字机器阅读理解模型,名为 NumNet。这一模型通过使用数字感知的图神经网络来对比信息,并进行数字推理。研究者的模型在 DROP 数据集上取得了 64.56% 的 EM 分数,相比现有的机器阅读理解模型在数字关系上的表现更好。