OpenAI新研究:通过非监督学习提升NLP任务表现

唐旭 编译整理 量子位 出品 | 公众号 QbitAI

今天,OpenAI在其官方博客上发布了一篇题为《用非监督学习来提升语言理解》的文章,介绍了他们最近的一项研究:Improving Language Understanding by Generative Pre-Training

这项研究提出了一种将Transformer和非监督预学习相结合来处理语言任务的方法,并称,他们通过这种方法获得了“顶尖的”结果。

OpenAI表示,希望这些结果能够推动进一步的研究,将这种方法应用到更大、更多样的数据集中。

量子位将博客文章主要内容整理如下:

我们的系统运行分两个阶段:

首先,我们以一种非监督的方式,在一个非常大的数据规模下训练一个Transformer——使用语言模型作为训练信号;

然后,我们在一个小得多的数据集上对该模型进行调参,以帮助其解决特定的任务。

这种方法延续了我们之前的情绪神经元研究。此处,我们希望能对这种想法做进一步探索:我们是否而能够开发一个模型,在大规模数据下以非监督的方法对其进行训练,然后对其调参,使其能在多种不同任务上获得好的表现?

事实证明这种方法成效显著。只需要最小程度的调参,相同的核心模型就能被应用到差异极大的任务上。

我们的研究引入了半监督序列学习,这种方法展示了如何通过使用有监督调参后的非监督LSTM预训练来提高文本分类表现。它同时也延伸了ULMFiT,即对于一个数据集不可知的LSTM语言模型进行调参,来在一系列文本分类数据集上获得最佳表现的研究。

我们的研究还展示了如何在该方法中使用一个依托于Transformer的模型,使其在除文本分类数据集外更大范围的任务上获得成功,如常识推理、语义相似度和阅读理解。

它与ELMo类似,但具有更强的任务不可知性。

让我们感到尤其兴奋的结果,是这种方法在COPA, RACE和ROCStories三种数据集上的表现。这三种数据集为测试常识推理和阅读理解的表现而设计。

这证明了通过非监督技术来开发复杂语言理解能力的途径大有希望。

为什么是非监督学习?

监督式学习是近年来机器学习所获成功的核心组成部分。然而,它需要大规模的、仔细净化过的、昂贵的数据集才能有效发挥作用。

而正因为有潜力解决这些弊端,非监督学习才如此吸引人。因其避开了人工标注的瓶颈,非监督学习还能出色地配合当今计算力和原始数据可用性提升的趋势。对于非监督学习的研究非常活跃,但实际应用却很少。

有研究正试图通过利用非监督学习来增强那些包含大量无标注数据的系统,从而提升语言能力;通过非监督技术训练的语词表示,能够使用包含兆兆字节的大型数据集,结合监督式学习,来提升在一系列NLP任务上的表现。

直到最近,这些针对NLP的非监督技术使用了简单的模型和训练信号。Skip-Thought Vectors就是对这种方法潜力的一个早期展示。现在,研究者们正在使用一些新技术来进一步提升表现。这些方法包括使用预训练语句表示模型、语境化词向量以及通过自定义结构来融合非监督预训练和有监督调参的方法,比如我们自己的研究。

我们同时注意到,我们不需在某些特定任务上进行训练,就能使用底层语言模型执行这些任务。比如,在从多选题中选出正确答案任务上的表现,随着底层语言模型的改进而持续提升。

虽然,这种方法的表现同监督式学习相比仍然相差很远,其在一系列领域任务上的鲁棒性依旧令人鼓舞。使用随机生成的、不包含任何任务和常识信息的网络获得的表现并没有比随机使用这些启发式的方法更好。

我们还可以用存在于该模型中的语言功能性来执行情感分析。针对由正面和负面影评组成的Stanford Sentiment Treebank数据集,我们可以利用该语言模型,通过在语句后输入“很”,观察模型“正面”或“负面”的预测结果来判断一条影评的情感倾向。在完全没有针对任务对模型进行任何调整的情况下,这种方法能达到80%的准确性,与经典基准线持平。

我们的研究同样是对Transformer结构鲁棒性和功效的确认。

缺陷

这一项目有几个突出的问题值得注意:

计算需求:许多之前针对NLP任务的方法,都是从头开始在一块单独的GPU上对相对较小的模型进行训练。而我们的方法需要高成本的预训练步骤——在8快GPU上训练一个月。所幸该步骤只需进行一次,我们也会放出我们的模型,以便其他人避免这种情况。

这也是个大型模型(相较于之前的研究),需要更多的计算力和内存——我们使用了一个37层的Transformer结构,训练的序列长度打到了512个token。绝大部分实验都是在4块和8块GPU的系统上进行。该模型在新任务上的调参完成得非常快,在一定程度上缓和了额外的资源需求。

通过文本学习世界的局限性和偏见:网络上可用的书籍和文本并不包含关于世界的完整的、甚至准确的信息。最近有研究证明,特定种类的信息很难只通过文本来学习,另外有研究展示了模型会从数据分布中学习、挖掘出偏见。

依然脆弱的可推广性:尽管我们的方法提升了在多种不同类别任务上的表现,当今的深度学习NLP模型依然展现了令人惊讶的、违反直觉的行为,特别是当它们以系统的、对抗性的或去分布的方式被评估时。

尽管观测到了某些进展,我们的方法并没能避免这些问题。相较于之前的纯神经途径,我们的方法展现了鲁棒性上的提升。在Glockner et al. (2018)中引入的数据集上,我们的模型拿到了83.75%的成绩,与KIM的表现类似,而后者通过WordNet吸收进了外部知识。

未来

提升规模:我们观察到,该语言模型在表现上的提升与下游任务的提升密切相关。我们目前所用的是商品级的硬件(一台8CPU机器)和一个只有几千本书的训练数据集)大约5GB文本)。这说明在更强的计算力和更大的数据量下,这种方法还有巨大的提升空间。

改进调参:我们的方法目前还十分简单。更精细的调试和技术的转移(如ULMFiT中的技术)可能带来实质性的提升。

对于生成式与训练的更好理解:尽管我们在这里讨论了一些我们偏爱的观点,更加有针对性的实验和研究将会帮助区分那些竞争性的解释。比如,我们观察到的优点中,有多少是来自处理更大范围文本能力的提升?又有多少是来自关于世界知识的提升?

传送门

博客原文:https://blog.openai.com/language-unsupervised/

论文:

Improving Language Understanding by Generative Pre-Training 作者:Alec Radford、Karthik Narasimhan、Tim Salimans、Ilya Sutskever 地址:https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf

Code:https://github.com/openai/finetune-transformer-lm

作者系网易新闻·网易号“各有态度”签约作者

原文发布于微信公众号 - 量子位(QbitAI)

原文发表时间:2018-06-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能

机器学习和深度学习概念入门(下)

目 录 1人工智能、机器学习、深度学习三者关系 2什么是人工智能 3什么是机器学习 4机器学习之监督学习 5机器学习之非监督学习 6机器学习之半监督学习 7机...

2108
来自专栏大数据文摘

让你上瘾的网易云音乐推荐算法,用Word2vec就可以实现

1414
来自专栏ATYUN订阅号

OpenAI:通过无监督学习提高语言理解能力

研究者通过一个可扩展的,与任务无关的系统获得了一系列不同语言任务的最新成果,这一系统也即将发布。此方法结合了两种现有的想法:Transformer和无监督的预训...

1294
来自专栏AI科技大本营的专栏

五个案例,三大心得,Meratix创始人带你进阶深度学习的实践应用之路

不谈理论,只谈实战。 当我们需要用深度学习处理现实问题时,除了相关的技术和数据,你还需要掌握一系列的小诀窍,并将这些技巧用在级联模型、智能增强、合理的评价标...

3779
来自专栏AI科技评论

学界 | 发美照时打上「#」,还能帮Facebook提升图片识别率哟

AI 科技评论按:近日 Facebook 科学家团队发布基于主题标签的深度学习方法,使用已有的拥有主题标签的图片作为训练数据,从而大幅提升了训练数据集的大小。数...

1172
来自专栏人工智能LeadAI

为什么在实际的 kaggle 比赛中 gbdt 和 random forest 效果非常好?

这是一个非常好,也非常值得思考的问题。换一个方式来问这个问题:为什么基于 tree-ensemble 的机器学习方法,在实际的 kaggle 比赛中效果非常好?...

4383
来自专栏PPV课数据科学社区

学习攻略 | 机器学习和深度学习技能树、面试宝典

人工智能的浪潮正在席卷全球,这些得益于数据量的上涨、运算力的提升和机器学习新算法(深度学习)的出现。机器学习是一种实现人工智能的方法,深度学习是一种实现机器学习...

4205
来自专栏人工智能

深度学习与机器学习

机器学习和深度学习变得风靡一时!突然之间,每个人都在谈论他们 —— 不管他们是否了解这两者的区别!无论您是否关注数据科学,你肯定听过这些术语。

29711
来自专栏机器之心

学界 | 为数据集自动生成神经网络:普林斯顿大学提出NeST

3325
来自专栏CDA数据分析师

技能 | 开发者成功使用机器学习的10大诀窍

基于云的机器学习工具带来了使用机器学习创造和提供新的功能的可能性。然而,当我们使用不当时,这些工具会输出不好的结果。想要在应用程序中成功地融入机器学习的开发者...

18510

扫码关注云+社区

领取腾讯云代金券