专栏首页量子位OpenAI新研究:通过非监督学习提升NLP任务表现

OpenAI新研究:通过非监督学习提升NLP任务表现

唐旭 编译整理 量子位 出品 | 公众号 QbitAI

今天,OpenAI在其官方博客上发布了一篇题为《用非监督学习来提升语言理解》的文章,介绍了他们最近的一项研究:Improving Language Understanding by Generative Pre-Training

这项研究提出了一种将Transformer和非监督预学习相结合来处理语言任务的方法,并称,他们通过这种方法获得了“顶尖的”结果。

OpenAI表示,希望这些结果能够推动进一步的研究,将这种方法应用到更大、更多样的数据集中。

量子位将博客文章主要内容整理如下:

我们的系统运行分两个阶段:

首先,我们以一种非监督的方式,在一个非常大的数据规模下训练一个Transformer——使用语言模型作为训练信号;

然后,我们在一个小得多的数据集上对该模型进行调参,以帮助其解决特定的任务。

这种方法延续了我们之前的情绪神经元研究。此处,我们希望能对这种想法做进一步探索:我们是否而能够开发一个模型,在大规模数据下以非监督的方法对其进行训练,然后对其调参,使其能在多种不同任务上获得好的表现?

事实证明这种方法成效显著。只需要最小程度的调参,相同的核心模型就能被应用到差异极大的任务上。

我们的研究引入了半监督序列学习,这种方法展示了如何通过使用有监督调参后的非监督LSTM预训练来提高文本分类表现。它同时也延伸了ULMFiT,即对于一个数据集不可知的LSTM语言模型进行调参,来在一系列文本分类数据集上获得最佳表现的研究。

我们的研究还展示了如何在该方法中使用一个依托于Transformer的模型,使其在除文本分类数据集外更大范围的任务上获得成功,如常识推理、语义相似度和阅读理解。

它与ELMo类似,但具有更强的任务不可知性。

让我们感到尤其兴奋的结果,是这种方法在COPA, RACE和ROCStories三种数据集上的表现。这三种数据集为测试常识推理和阅读理解的表现而设计。

这证明了通过非监督技术来开发复杂语言理解能力的途径大有希望。

为什么是非监督学习?

监督式学习是近年来机器学习所获成功的核心组成部分。然而,它需要大规模的、仔细净化过的、昂贵的数据集才能有效发挥作用。

而正因为有潜力解决这些弊端,非监督学习才如此吸引人。因其避开了人工标注的瓶颈,非监督学习还能出色地配合当今计算力和原始数据可用性提升的趋势。对于非监督学习的研究非常活跃,但实际应用却很少。

有研究正试图通过利用非监督学习来增强那些包含大量无标注数据的系统,从而提升语言能力;通过非监督技术训练的语词表示,能够使用包含兆兆字节的大型数据集,结合监督式学习,来提升在一系列NLP任务上的表现。

直到最近,这些针对NLP的非监督技术使用了简单的模型和训练信号。Skip-Thought Vectors就是对这种方法潜力的一个早期展示。现在,研究者们正在使用一些新技术来进一步提升表现。这些方法包括使用预训练语句表示模型、语境化词向量以及通过自定义结构来融合非监督预训练和有监督调参的方法,比如我们自己的研究。

我们同时注意到,我们不需在某些特定任务上进行训练,就能使用底层语言模型执行这些任务。比如,在从多选题中选出正确答案任务上的表现,随着底层语言模型的改进而持续提升。

虽然,这种方法的表现同监督式学习相比仍然相差很远,其在一系列领域任务上的鲁棒性依旧令人鼓舞。使用随机生成的、不包含任何任务和常识信息的网络获得的表现并没有比随机使用这些启发式的方法更好。

我们还可以用存在于该模型中的语言功能性来执行情感分析。针对由正面和负面影评组成的Stanford Sentiment Treebank数据集,我们可以利用该语言模型,通过在语句后输入“很”,观察模型“正面”或“负面”的预测结果来判断一条影评的情感倾向。在完全没有针对任务对模型进行任何调整的情况下,这种方法能达到80%的准确性,与经典基准线持平。

我们的研究同样是对Transformer结构鲁棒性和功效的确认。

缺陷

这一项目有几个突出的问题值得注意:

计算需求:许多之前针对NLP任务的方法,都是从头开始在一块单独的GPU上对相对较小的模型进行训练。而我们的方法需要高成本的预训练步骤——在8快GPU上训练一个月。所幸该步骤只需进行一次,我们也会放出我们的模型,以便其他人避免这种情况。

这也是个大型模型(相较于之前的研究),需要更多的计算力和内存——我们使用了一个37层的Transformer结构,训练的序列长度打到了512个token。绝大部分实验都是在4块和8块GPU的系统上进行。该模型在新任务上的调参完成得非常快,在一定程度上缓和了额外的资源需求。

通过文本学习世界的局限性和偏见:网络上可用的书籍和文本并不包含关于世界的完整的、甚至准确的信息。最近有研究证明,特定种类的信息很难只通过文本来学习,另外有研究展示了模型会从数据分布中学习、挖掘出偏见。

依然脆弱的可推广性:尽管我们的方法提升了在多种不同类别任务上的表现,当今的深度学习NLP模型依然展现了令人惊讶的、违反直觉的行为,特别是当它们以系统的、对抗性的或去分布的方式被评估时。

尽管观测到了某些进展,我们的方法并没能避免这些问题。相较于之前的纯神经途径,我们的方法展现了鲁棒性上的提升。在Glockner et al. (2018)中引入的数据集上,我们的模型拿到了83.75%的成绩,与KIM的表现类似,而后者通过WordNet吸收进了外部知识。

未来

提升规模:我们观察到,该语言模型在表现上的提升与下游任务的提升密切相关。我们目前所用的是商品级的硬件(一台8CPU机器)和一个只有几千本书的训练数据集)大约5GB文本)。这说明在更强的计算力和更大的数据量下,这种方法还有巨大的提升空间。

改进调参:我们的方法目前还十分简单。更精细的调试和技术的转移(如ULMFiT中的技术)可能带来实质性的提升。

对于生成式与训练的更好理解:尽管我们在这里讨论了一些我们偏爱的观点,更加有针对性的实验和研究将会帮助区分那些竞争性的解释。比如,我们观察到的优点中,有多少是来自处理更大范围文本能力的提升?又有多少是来自关于世界知识的提升?

传送门

博客原文:https://blog.openai.com/language-unsupervised/

论文:

Improving Language Understanding by Generative Pre-Training 作者:Alec Radford、Karthik Narasimhan、Tim Salimans、Ilya Sutskever 地址:https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf

Code:https://github.com/openai/finetune-transformer-lm

作者系网易新闻·网易号“各有态度”签约作者

本文分享自微信公众号 - 量子位(QbitAI)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-06-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 无人车是怎样一步步学会开车的? | 自动驾驶科普

    原作:Marty Jacobs 安妮 编译自 Zore Equals False 量子位 出品 | 公众号 QbitAI ? 无人车到底是怎样一步一步学会开车的...

    量子位
  • 想把自拍背景改成马尔代夫?手把手教你用深度学习分分钟做到

    王小新 编译自 TowardsDataScience 量子位 出品 | 公众号 QbitAI 以前,从照片里抠出人像去掉背景,是要到处求PS大神帮忙的。大神时间...

    量子位
  • 连线Face++前方团队:COCO夺冠背后的细节,不是拼硬件这么简单

    李根 发自 凹非寺 量子位 报道 | 公众号 QbitAI 昨天,量子位报道了中国团队再次称雄AI大赛,把谷歌微软和FB甩在身后的消息。 简而言之,在计算机视...

    量子位
  • 深度学习带你抠像表演

    前情 回顾这些年机器学习的进展,我也一直想弄点真正的机器学习产品。 几个月前,我参加了超棒的Fast.ai深度学习课程之后,我好像就开窍了,我也有了机会:得益于...

    小莹莹
  • 【AAAI 2018】腾讯 AI Lab 11篇论文解读:图像描述、NMT 模型、图卷积神经网络、DNN优化等

    来源:腾讯AI Lab 【新智元导读】2 月 2 日至 2 月 7 日,AAAI 2018 将在美国新奥尔良举行,新智元将持续为读者带来本届大会的最新干货。在A...

    新智元
  • 【AAAI 2018】腾讯 AI Lab 11篇论文精选:图像描述、NMT 模型、图卷积神经网络、DNN优化等

    AAAI 2018 将于2月2日至7日在美国新奥尔良举行, 腾讯 AI Lab 有11篇论文被录用,本文精选了11篇论文的精彩内容。

    腾讯技术工程官方号
  • Hadoop 2.0 上深度学习的解决方案

    波士顿的数据科学团队正在利用尖端工具和算法来优化商业活动,且这些商业活动是基于对用户数据中的深刻透析。数据科学大量使用机器算法,可以帮助我们在数据中识别和利用模...

    CSDN技术头条
  • Hadoop 2.0 上深度学习的解决方案

    用户1737318
  • 手把手教你从零搭建深度学习项目(可下载PDF版)

    昱良
  • 【开源】简单4步搞定QQ登录,无需什么代码功底【无语言界限】

    说17号发超简单的教程就17号,qq核审通过后就封装了这个,现在放出来~~ 这个是我封装的一个开源项目:https://github.com/dunitian/...

    逸鹏

扫码关注云+社区

领取腾讯云代金券