新智元报道
来源; topbots.com、Reddit
编辑:肖琴、三石
今天,Reddit上的一条帖子火了:
对于初学者来说,在机器学习和人工智能领域必须的论文有哪些?
想必这个问题引起了许多人的共鸣。
网友推荐的Statistical Modeling: The Two Cultures大受好评,强调经典统计数据和ML预测/建模之间的重要区别。
https://projecteuclid.org/euclid.ss/1009213726
也有网友表示,对于初学者,最好还是可以从书籍入手,而不是文献。并推荐了Norvig & Russell的Artificial Intelligence,以及Goodfellow的Deep Learning 。并强调若是没有良好的基础,直接读单个的论文是十分困难的,因为论文通常在页数上是有限的,所以在上下文理解上还是有一定局限性。
而近期,作者Mariya Yao在Topbots上发表一篇文章,对今年AI论文Top10做了大盘点。
考虑到AI领域的快速发展,试图跟上AI的最新研究可能非常困难。如果你埋头于那些你还没来得及阅读的论文,那么本文能助你一力。 为了帮助你赶上进度,我们总结了2018年以来最重要的10篇AI研究论文,让你对今年机器学习的进展有一个大致的了解。当然,还有很多具有突破性的论文值得一读,但我们认为这是一个很好的列表,你可以从它开始。 此外,我们计划在未来几周发布自然语言处理(NLP)和计算机视觉方面的重要论文,敬请期待。 以下是我们推荐的2018必读Top 10论文:
1、文本分类的通用语言模型微调
标题:Universal Language Model Fine-tuning for Text Classification
作者:Jeremy Howard & Sebastian Ruder (2018)
https://arxiv.org/abs/1801.06146
论文摘要
迁移学习已经对计算机视觉领域产生了很大的影响,但NLP领域的现有方法仍然需要针对任务进行修改和从零开始进行训练。本文提出一种有效的迁移学习方法——通用语言模型微调(Universal Language Model Fine-tuning, ULMFiT),该方法可应用于任何NLP任务,并介绍了对语言模型进行微调的关键技术。
我们的方法在六个文本分类任务上显著优于最先进的技术,在大多数数据集上将错误率降低了18-24%。此外,仅使用100个标记示例,它的性能不比在100倍以上的数据上从零开始训练的模型的性能差。我们将开源预训练模型和代码。
概要总结
这篇论文建议使用预训练的模型来解决广泛的NLP问题。使用这种方法,你不需要从头开始训练模型,只需要对原始模型进行微调。他们的方法称为通用语言模型微调(ULMFiT),其性能优于最先进的结果,误差降低了18-24%。更重要的是,只使用100个标记示例,ULMFiT的性能与在10K标记示例上从零开始训练的模型的性能相当。
核心思想
为了解决标记数据的缺乏的困难,使NLP分类任务更容易、更省时,研究人员建议将迁移学习应用于NLP问题。因此,你不用从头开始训练模型,而是可以使用另一个经过训练的模型作为基础,然后只对原始模型进行微调来解决特定问题。
但是,为了取得成功,微调应考虑几个重要因素:
最重要的成果
AI社区的评价
在计算机视觉领域,经过预处理的ImageNet模型的可用性已经改变了这一领域,ULMFiT对于NLP问题也同样重要。
该方法适用于任何语言的任何NLP任务。来自世界各地的报告表明,该方法在德语、波兰语、北印度语、印度尼西亚语、汉语和马来语等多种语言方面,都取得了显著进步。
未来研究方向
可能的应用
ULMFiT可以更好地解决广泛的NLP问题,包括:
这种方法还可能有助于序列标记和自然语言生成。
2、混淆梯度
标题:Obfuscated Gradients Give a False Sense of Security: Circumventing Defenses to Adversarial Examples
作者:Anish Athalye, Nicholas Carlini, David Wagner
https://arxiv.org/abs/1802.00420
论文摘要
我们发现“混淆梯度”(obfuscated gradients)作为一种梯度掩码(gradient masking),会在防御对抗样本中导致一种错误的安全感。虽然造成混淆梯度的防御似乎可以击败基于迭代优化的攻击,但我们发现依赖这种效果的防御可以被规避。我们描述了表现出这种效应的防御特征行为,对于我们发现的三种混淆梯度,我们都开发了攻击技术来克服它。在一个案例中,我们检查了发表在ICLR 2018的论文的未经认证的白盒安全防御,发现混淆梯度是常见的情况,9个防御中有7个依赖于混淆梯度。在每篇论文所考虑的原始威胁模型中,我们的新攻击成功地完全规避了6个,部分规避了1个。
概要总结
研究人员发现,针对对抗性样本的防御通常使用混淆梯度,这造成了一种虚假的安全感,实际上这种防御很容易被绕过。该研究描述了三种防御混淆梯度的方法,并展示了哪些技术可以绕过防御。这些发现可以帮助那些依赖混淆梯度来防御的组织强化他们当前的方法。
核心思想
防御混淆梯度有三种常见的方法:
有很多线索表明梯度有问题,包括:
最重要的成果
说明目前使用的大部分防御技术容易受到攻击,即:
AI社区的评价
未来研究方向
在仔细且全面的评估下构建防御,这样它们不仅可以防御现有的攻击,而且还可以防御未来可能发生的攻击。
可能的应用
通过使用研究论文中提供的指导,组织可以识别他们的防御是否依赖于混淆梯度,并在必要时改用更强大的方法。
3、ELMo:最好用的词向量
标题:Deep contextualized word representations
作者:Matthew E. Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, Luke Zettlemoyer
https://arxiv.org/abs/1802.05365
论文摘要
我们提出一种新的深层语境化的词表示形式,它既模拟了词使用的复杂特征(如语法和语义),也模拟了这些用法在不同语言语境中的变化(即,一词多义)。我们的词向量是一个深度双向语言模型(biLM)内部状态的学习函数,该模型是在一个大型文本语料库上预训练的。我们证明,这些表示可以很容易地添加到现有的模型中,并在六个具有挑战性的NLP问题(包括问题回答、文字蕴涵和情感分析)中显著地提升了技术的最先进水平。我们还提供了一项分析,表明暴露预训练网络的深层内部结构是至关重要的,它允许下游模型混合不同类型的半监督信号。
概要总结
艾伦人工智能研究所的团队提出一种新型的深层语境化单词表示——语言模型嵌入(Embeddings from Language Models, ELMo)。在ELMo增强的模型中,每个单词都是基于它所使用的整个上下文向量化的。在现有的NLP系统中加入ELMo可以减少6-20%的相对误差,显著减少训练模型所需的时间,以及显著减少达到基线性能所需的训练数据量。
核心思想
最重要的成果
AI社区的评价
未来研究方向
可能的应用
4、序列建模:时间卷积网络取代RNN
标题:An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling
作者:Shaojie Bai, J. Zico Kolter, Vladlen Koltun
https://arxiv.org/abs/1803.01271
论文摘要
对于大多数深度学习实践者来说,序列建模与循环网络是同义词。然而,最近的研究结果表明,卷积架构在语音合成和机器翻译等任务上的表现优于循环网络。给定一个新的序列建模任务或数据集,应该使用哪种架构?我们对序列建模的一般卷积和循环架构进行了系统的评价。我们在广泛的标准任务中评估这些模型。我们的结果表明,一个简单的卷积架构在不同的任务和数据集上的表现优于LSTM等典型的循环网络。我们的结论是,需要重新考虑序列建模和循环网络之间的共同关联,卷积网络应该被视为序列建模任务的一个自然起点。我们提供了相关代码:http://github.com/locuslab/TCN
概要总结
本文的作者质疑了一个常见假设,即循环架构应该是序列建模任务的默认起点。他们的结果表明,时间卷积网络(TCNs)在多个序列建模任务中明显优于长短期记忆网络(LSTMs)和门控循环单元网络(GRUs)等典型的循环架构。
核心思想
最重要的成果
AI社区的评价
在使用RNN之前,一定要先尝试CNN。你会惊讶于你能走多远。——特斯拉人工智能主管Andrej Karpathy。
未来研究方向
为了提高TCN在不同序列建模任务中的性能,需要进一步精化架构和算法。
可能的应用
TCN的提出可以提高依赖于循环架构的AI系统的序列建模能力,包括:
5、探索机器学习的公平性
标题:Delayed Impact of Fair Machine Learning
By Lydia T. Liu, Sarah Dean, Esther Rolf, Max Simchowitz, Moritz Hardt (2018)
https://arxiv.org/abs/1803.04383
论文摘要
机器学习中的公平性主要是在静态的分类设置进行研究,而不考虑决策如何随时间改变基础样本总体。传统观点认为,公平性标准能够促进它们所保护的群体的长期利益。
我们研究了静态公平标准与幸福感的时间指标是如何相互作用的,如长期改善、停滞和利益变量下降。我们证明,即使在单步反馈模型中,一般的公平标准也不会随着时间的推移而促进改善,并且不受约束的目标不仅不会促进改善,甚至可能造成损害。我们描述了三个标准的延迟影响,对比了这些标准表现出不同行为的机制。此外,我们还发现一种自然形式的测量误差扩大了公平标准发挥有利作用的机制。
我们的结果突出了测量和时间建模在公平标准评估中的重要性,提出了一系列新的挑战和权衡取舍。
概要总结
当使用基于分数的机器学习算法来决定谁可以获得机会(例如贷款、奖学金、工作),谁得不到机会时,目标是确保不同人口群体被公平对待。伯克利人工智能研究实验室的研究人员表明,由于某些延迟的结果,使用共同的公平标准实际上可能会损害代表性不足或处境不利的群体。因此,他们鼓励在设计一个“公平”的机器学习系统时考虑长期结果。
核心思想
考虑实施公平标准的延迟结果显示,这些标准可能对他们旨在保护的群体的长期利益有不利影响。由于公平标准可能会对弱势群体造成主动的伤害,解决的办法可以是使用结果最大化的决策规则,或者一个结果模型。
最重要的成果
AI社区的评价
未来研究方向
可能的应用
通过从公平性标准强加的约束转向结果建模,企业可能会开发出更有利可图、也“更公平”的ML系统,用于放贷或招聘。
6、世界模型
标题:World Model
By David Ha,Jurgen Schmidhuber(2018)
https://worldmodels.github.io
论文摘要
我们探索并建立了流行的强化学习环境的生成神经网络模型。我们的world model可以以无监督的方式快速训练,用来学习环境的压缩空间和时间表示。通过使用从world model中提取的特征作为agent的输入,我们可以训练一个非常紧凑和简单的策略,可以解决所需的任务。我们甚至可以完全在智能体自身的world model所产生的“幻觉梦境(hallucinated dream)”中训练智能体,并将该策略转换回实际环境中。
概览
Ha和Schmidhuber开发了一种world model,这种模型可以在无监督的情况下快速训练,以学习环境的时空表现形式。在赛车任务中,智能体成功的在赛道上行驶,避开了VizDom实验中怪物射击的火球。这些任务对以前的方法来说太具有挑战性了。
核心思想
该解决方案由三个不同的部分组成:
最重要的成果
AI社区的评价
未来研究方向
可能的应用
在运行计算密集型游戏引擎时,现在可以在模拟环境中尽可能多地训练智能体,而不是在实际环境中浪费大量的计算资源来进行训练。
7、分解任务迁移学习
标题:Taskonomy: Disentangling Task Transfer Learning
By Amir R. Zamir,Alexander Sax,William Shen,Leonidas J. Guibas,Jitendra Malik,Silvio Savarese(2018)
https://arxiv.org/abs/1804.08328
论文摘要
视觉任务之间有关联吗?例如,表面法线可以简化对图像深度的估计吗?直觉回答了这些问题,暗示了视觉任务中存在结构。了解这种结构具有显著的价值;它是迁移学习的基本概念,提供了一种原则性的方法来识别任务之间的冗余。
我们提出了一种完全计算的可视化任务空间结构建模方法。 这是通过在潜在空间中的二十六个2D,2.5D,3D和语义任务的字典中查找(一阶和更高阶)传递学习依赖性来完成的。该产品是用于任务迁移学习的计算分类映射。我们研究这种结构的结果,例如出现的非平凡关系,并利用它们来减少对标记数据的需求。例如,我们展示了在保持性能几乎相同的情况下,解决一组10个任务所需的标记数据点的总数可以减少大约2/3(与独立训练相比)。我们提供了一组用于计算和探测这种分类结构的工具,包括一个解决程序,用户可以使用它来为他们的用例设计有效的监督策略。
概览
自现代计算机科学的早期以来,许多研究人员就断言视觉任务之间存在一个结构。现在Amir Zamir和他的团队试图找到这个结构。他们使用完全计算的方法建模,并发现不同可视化任务之间的许多有用关系,包括一些重要的任务。他们还表明,通过利用这些相互依赖性,可以实现相同的模型性能,标记数据要求大约减少2/3。
核心思想
最重要的成果
AI社区的评价
未来研究方向
可能的应用
8、SQuAD无法解决的问题
标题: Know What You Don't Know: Unanswerable Questions For SQuAD
By Pranav Rajpurkar,Robin Jia,Percy Liang
https://arxiv.org/abs/1806.03822
论文摘要
摘要抽取式阅读理解系统通常可以在上下文文档中找到问题的正确答案,但对于没有在上下文中陈述正确答案的问题,它们往往会做出不可靠的猜测。现有的数据集要么只关注可回答的问题,要么使用自动生成的容易识别的不可回答的问题。为了解决这些缺点,我们提供了SQuAD 2.0,这是斯坦福问答数据集(SQuAD)的最新版本。SQuAD 2.0结合了现有的SQuAD数据和超过50000个由众包工人以对抗性方式写下的无法回答的问题,使其看起来与能够回答的问题相似。为了在SQuAD 2.0上做得好,系统不仅必须尽可能回答问题,还要确定段落何时不支持答案并且不回答问题。 对于现有模型,SQuAD 2.0是一项具有挑战性的自然语言理解任务:在SQUAD 1.1上获得86%F1的强大神经系统在SQuAD 2.0上仅获得66%的F1。
概览
斯坦福大学的一个研究小组扩展了著名的斯坦福问答数据集(SQUAD),提出了超过50,000个难以回答的问题。这些问题的答案不能在支持段落(supporting paragraph)中找到,但是这些问题看起来与可回答的问题非常相似。更重要的是,支持段落包含了对这些问题的合理(但不正确)的回答。这使得新的SQuAD 2.0对于现有的最先进的模型来说极具挑战性。
核心思想
最重要的成果
AI社区的评价
未来研究的方向
可能的应用
9、用于高保真自然图像合成的大规模GAN训练
标题:Large Scale GAN Training For High Fidelity Natural Image Synthesis
By Andrew Brock,Jeff Donahue,Karen Simonyan(2018)
https://arxiv.org/abs/1809.11096
论文摘要
尽管生成图像建模最近取得了进展,但从ImageNet等复杂数据集成功生成高分辨率、多样化的样本仍然是一个难以实现的目标。为此,我们在最大的规模下进行了生成对抗网络的训练,并研究了这种规模下的不稳定性。我们发现,将正交正则化应用于发生器,使其服从于一个简单的“截断技巧”,可以允许通过截断潜在空间来精细控制样本保真度和多样性之间的权衡。 我们的修改使得模型在类条件图像合成中达到了新的技术水平。 当我们在ImageNet上以128×128分辨率进行训练时,我们的模型(BigGAN)的初始得分(IS)为166.3,Frechet初始距离(FID)为9.6。
概览
DeepMind团队发现,当前的技术足以从现有数据集(如ImageNet和JFT-300M)合成高分辨率、多样化的图像。他们特别指出,生成对抗网络(GANs)可以生成看起来非常逼真的图像,如果它们在非常大的范围内进行训练,即使用比以前实验多2到4倍的参数和8倍的批处理大小。这些大规模的GAN,或BigGAN,是类条件图像合成的最新技术。
核心思想
最重要的成果
AI社区的评价
未来研究方向
可能的应用
10、BERT:深度双向变换器语言理解的预训练
标题:BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding
By Jacob Devlin,Ming-Wei Chang,Kenton Lee,Kristina Toutanova(2018)
https://arxiv.org/abs/1810.04805
论文摘要
我们介绍了一种新的语言表示模型,称为BERT,它代表转换器的双向编码器表示。与最近的语言表示模型不同,BERT的设计是通过在所有层中对左右上下文进行联合条件作用来预先训练深层双向表示。因此,只需要一个额外的输出层,就可以对预训练的BERT表示进行微调,从而为广泛的任务(如回答问题和语言推断)创建最先进的模型,而无需对特定于任务的体系结构进行大量修改。
BERT概念简单且功能丰富。它在11项自然语言处理任务中获得了最新的结果,包括将GLUE基准提高到80.4%,多项精度提高到86.7,以及将SQuAD v1.1答题测试F1提高到93.2,比人类表现高出2.0%。
概览
谷歌AI团队提出了一种新的最前沿的自然语言处理(NLP)模型——BERT,Bidirectional Encoder Representations from Transformers。它的设计允许模型从左右两边考虑每个单词的上下文。在概念简单的同时,BERT在11个NLP任务上获得了最新的最先进的结果,这些任务包括回答问题、命名实体识别和其他与一般语言理解相关的任务。
核心思想
最重要的成果
AI社区的评价
未来研究方向
可能的应用
参考链接:
https://www.topbots.com/most-important-ai-research-papers-2018/
https://www.reddit.com/r/MachineLearning/comments/a21d0q/what_are_the_must_read_papers_for_a_beginner_in/