前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >OpenAI新研究:通过非监督学习提升NLP任务表现

OpenAI新研究:通过非监督学习提升NLP任务表现

作者头像
量子位
发布2018-07-24 16:06:36
4750
发布2018-07-24 16:06:36
举报
文章被收录于专栏:量子位量子位
唐旭 编译整理 量子位 出品 | 公众号 QbitAI

今天,OpenAI在其官方博客上发布了一篇题为《用非监督学习来提升语言理解》的文章,介绍了他们最近的一项研究:Improving Language Understanding by Generative Pre-Training

这项研究提出了一种将Transformer和非监督预学习相结合来处理语言任务的方法,并称,他们通过这种方法获得了“顶尖的”结果。

OpenAI表示,希望这些结果能够推动进一步的研究,将这种方法应用到更大、更多样的数据集中。

量子位将博客文章主要内容整理如下:

我们的系统运行分两个阶段:

首先,我们以一种非监督的方式,在一个非常大的数据规模下训练一个Transformer——使用语言模型作为训练信号;

然后,我们在一个小得多的数据集上对该模型进行调参,以帮助其解决特定的任务。

这种方法延续了我们之前的情绪神经元研究。此处,我们希望能对这种想法做进一步探索:我们是否而能够开发一个模型,在大规模数据下以非监督的方法对其进行训练,然后对其调参,使其能在多种不同任务上获得好的表现?

事实证明这种方法成效显著。只需要最小程度的调参,相同的核心模型就能被应用到差异极大的任务上。

我们的研究引入了半监督序列学习,这种方法展示了如何通过使用有监督调参后的非监督LSTM预训练来提高文本分类表现。它同时也延伸了ULMFiT,即对于一个数据集不可知的LSTM语言模型进行调参,来在一系列文本分类数据集上获得最佳表现的研究。

我们的研究还展示了如何在该方法中使用一个依托于Transformer的模型,使其在除文本分类数据集外更大范围的任务上获得成功,如常识推理、语义相似度和阅读理解。

它与ELMo类似,但具有更强的任务不可知性。

让我们感到尤其兴奋的结果,是这种方法在COPA, RACE和ROCStories三种数据集上的表现。这三种数据集为测试常识推理和阅读理解的表现而设计。

这证明了通过非监督技术来开发复杂语言理解能力的途径大有希望。

为什么是非监督学习?

监督式学习是近年来机器学习所获成功的核心组成部分。然而,它需要大规模的、仔细净化过的、昂贵的数据集才能有效发挥作用。

而正因为有潜力解决这些弊端,非监督学习才如此吸引人。因其避开了人工标注的瓶颈,非监督学习还能出色地配合当今计算力和原始数据可用性提升的趋势。对于非监督学习的研究非常活跃,但实际应用却很少。

有研究正试图通过利用非监督学习来增强那些包含大量无标注数据的系统,从而提升语言能力;通过非监督技术训练的语词表示,能够使用包含兆兆字节的大型数据集,结合监督式学习,来提升在一系列NLP任务上的表现。

直到最近,这些针对NLP的非监督技术使用了简单的模型和训练信号。Skip-Thought Vectors就是对这种方法潜力的一个早期展示。现在,研究者们正在使用一些新技术来进一步提升表现。这些方法包括使用预训练语句表示模型、语境化词向量以及通过自定义结构来融合非监督预训练和有监督调参的方法,比如我们自己的研究。

我们同时注意到,我们不需在某些特定任务上进行训练,就能使用底层语言模型执行这些任务。比如,在从多选题中选出正确答案任务上的表现,随着底层语言模型的改进而持续提升。

虽然,这种方法的表现同监督式学习相比仍然相差很远,其在一系列领域任务上的鲁棒性依旧令人鼓舞。使用随机生成的、不包含任何任务和常识信息的网络获得的表现并没有比随机使用这些启发式的方法更好。

我们还可以用存在于该模型中的语言功能性来执行情感分析。针对由正面和负面影评组成的Stanford Sentiment Treebank数据集,我们可以利用该语言模型,通过在语句后输入“很”,观察模型“正面”或“负面”的预测结果来判断一条影评的情感倾向。在完全没有针对任务对模型进行任何调整的情况下,这种方法能达到80%的准确性,与经典基准线持平。

我们的研究同样是对Transformer结构鲁棒性和功效的确认。

缺陷

这一项目有几个突出的问题值得注意:

计算需求:许多之前针对NLP任务的方法,都是从头开始在一块单独的GPU上对相对较小的模型进行训练。而我们的方法需要高成本的预训练步骤——在8快GPU上训练一个月。所幸该步骤只需进行一次,我们也会放出我们的模型,以便其他人避免这种情况。

这也是个大型模型(相较于之前的研究),需要更多的计算力和内存——我们使用了一个37层的Transformer结构,训练的序列长度打到了512个token。绝大部分实验都是在4块和8块GPU的系统上进行。该模型在新任务上的调参完成得非常快,在一定程度上缓和了额外的资源需求。

通过文本学习世界的局限性和偏见:网络上可用的书籍和文本并不包含关于世界的完整的、甚至准确的信息。最近有研究证明,特定种类的信息很难只通过文本来学习,另外有研究展示了模型会从数据分布中学习、挖掘出偏见。

依然脆弱的可推广性:尽管我们的方法提升了在多种不同类别任务上的表现,当今的深度学习NLP模型依然展现了令人惊讶的、违反直觉的行为,特别是当它们以系统的、对抗性的或去分布的方式被评估时。

尽管观测到了某些进展,我们的方法并没能避免这些问题。相较于之前的纯神经途径,我们的方法展现了鲁棒性上的提升。在Glockner et al. (2018)中引入的数据集上,我们的模型拿到了83.75%的成绩,与KIM的表现类似,而后者通过WordNet吸收进了外部知识。

未来

提升规模:我们观察到,该语言模型在表现上的提升与下游任务的提升密切相关。我们目前所用的是商品级的硬件(一台8CPU机器)和一个只有几千本书的训练数据集)大约5GB文本)。这说明在更强的计算力和更大的数据量下,这种方法还有巨大的提升空间。

改进调参:我们的方法目前还十分简单。更精细的调试和技术的转移(如ULMFiT中的技术)可能带来实质性的提升。

对于生成式与训练的更好理解:尽管我们在这里讨论了一些我们偏爱的观点,更加有针对性的实验和研究将会帮助区分那些竞争性的解释。比如,我们观察到的优点中,有多少是来自处理更大范围文本能力的提升?又有多少是来自关于世界知识的提升?

传送门

博客原文:https://blog.openai.com/language-unsupervised/

论文:

Improving Language Understanding by Generative Pre-Training 作者:Alec Radford、Karthik Narasimhan、Tim Salimans、Ilya Sutskever 地址:https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf

Code:https://github.com/openai/finetune-transformer-lm

作者系网易新闻·网易号“各有态度”签约作者
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-06-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 为什么是非监督学习?
  • 缺陷
  • 未来
  • 传送门
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档