首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

GPT2-无监督学习和通用人工智能又一城?

学术界发展很快,最近被强大的NLP模型GPT-2刷屏了。今天特意好好研究了一下。基本都搞明白了。下面写的都是我的视角。应该跟大家的视角不一样。

一开始,我一直认为,数据集不一样,任务不一样,方法要不一样,设计的网络结构也应该不一样的。现在通过GPT-2来看,我之前的认识要修正了。

不过GPT-2也没有媒体翻译的那么牛逼。

通俗来说,这篇论文干了两件事:第一,自己用爬虫爬了很大一个文本数据集叫WebText,在这个上面训练了一个通用语言模型GPT-2,这个模型训练好后,直接可以在一些专用数据集上刷分,并且比在专门数据集上训练的模型分数高。第二件事情是,这个通用语言模型不止在language modeling tasks上表现惊人,即不光能完成瞎编续集的功能,还能在自动问答,阅读理解,翻译,写摘要上有好的表现,且不需要重新训练。虽然还不能达到第一的水平,但是,继续加数据加大网络训练,或者fine-tune一下,应该有更好表现。

下面列出几个我看论文时的疑问,和我自己的解答。

疑问一:自己爬些数据就能训练模型了,这个无监督学习是怎么玩的?

解答:爬些数据后,他做了一些清洗。他的无监督学习是这样做的:

样本:一篇文章。从前往后读文章。

Input:读过的文字。

Output(监督信号):下一个单词是什么。然后跟读到的下一个单词比较计算误差。论文没有说具体是怎么训练的,根据论文意思就是这样计算误差的。

所以说本质上还是有监督信号的。只是不是按照某个具体业务需求具体标注数据,而是自己去学语言内部的概率分布。

疑问二:它的本质是什么?表现这么好的数学原理是什么?

人类的语言表达极为丰富,所谓的丰富用通俗的数学语言来描述就是一篇文章里面,词语之间的线性相关和非线性相关、复杂的非线性相关的容量很大。有点绕?拿图片分类来说,一张狗的图片,如果感兴趣的区域提取的好—即狗在图片中占据的地方提取的好,卷积特征提取的好,那么,它就转化成了一个线性关系,可以解释为“”这样形状的就是狗。

语言模型极为丰富,前后词语之间不是简单的线性或非线性,而是复杂糅合的线性+非线性关系,因而它用了一个很大的15亿参数的tranformer模型来学习这些关系,结构深,参数多,不怕冗余,只管学会里面的逻辑规律。

表现好数学原理是什么?我觉得本质上是中心极限定理。中心极限定理的意思是,所有的分布,累加在一起,如果分布数N足够多,它们分布的和应该是正态分布。

因此,GPT-2通过学习很多的概率分布,收敛到了一个稳定的正态分布,当它预测的时候,根据前面的词语分布和训练得到的大正态分布的偏差,自动去调取符合这些词语分布的语句,组成一个续写的片段。

疑问三:为啥他不公开训练过程或者代码?或者训练好的15亿参数模型?

解答:公布出来的模型,如果用来生成了很多文本放到网上,然后OpenAI爬取到了这些数据,拿来当作更大的训练数据集训练的话,这些文本的语言模型会影响到真实数据的概率分布。

因此,这也是一个机会。openAI在他发布这篇文章的博客上说谁对语言模型感兴趣欢迎加入,如果你能训练一个分类模型,精准的分类出GPT-2和真实的文本数据的话,我认为是openAI非常需要的,同时也是GPT-2更上一层楼的必由之路了。你这个分类模型将是它训练优化的另一个监督信号。

疑问四:GPT-2能续写红楼梦?

肯定不行嘛。它只是学会了现有文本的概率分布,能回答的问题也是简单的名词概念数值,例如爬过的最高的山峰:珠穆朗玛峰。这样的东西。它没法完整的重构一个故事的。就别说写小说了。需要刻画复杂的人物心理状况的。

为什么呢?因为它训练的时候本质是学一个条件概率,它是学习预测下一个词应该是什么,这样的学习是碎片化的。

科研方向:如果你能让它达到语义层的预测,自动学习就牛逼了,例如,输入故事的前半段,给一个开头,看GPT-N能猜到故事的结尾不?哪怕能续写一个爱恨情仇的故事,也算是比较小的误差。那就是真理更进了一步。

疑问五:如何理解文章的标题

文章的中心句我认为是这个:Our speculationis that a language model with sufficient capacity will begin to learn to inferand perform the tasks demonstrated in natural language sequences in order tobetter predict them,regardless of their method of procurement. If a language modelis able to do this it will be, in effect, performing unsupervised multitasklearning. We test whether this is the case by analyzing the performance oflanguage models in a zero-shot setting on a wide variety of tasks.

它认为语言模型应该是一个非监督的多任务学习者,如果训练一个大容量的模型,它应该能拿到干很多事。事实上,这个也很好理解,你训练了一个语言模型后,当有人问你:王石爬过的最高的山是什么?相关性的条件概率预测就是珠穆朗玛峰了。这个你也可以当作是续写了。前一句是:**爬过的最高的山是什么?后一句是***山。

疑问六:如何评价这篇文章?

本质上是搞了一个更深的tranformer模型,跑了一个大的数据集。然后做了一个zero-shot setting去解决其他问题。模型大为了收敛,他做了个优化,叫做层归一化。

这篇文章是 17号写的,今天抽空发出来分享给大家。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190219B1CJD600?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券