GPT2-无监督学习和通用人工智能又一城？

文章来源：企鹅号 - 樱园的玻尔兹曼机

学术界发展很快，最近被强大的NLP模型GPT-2刷屏了。今天特意好好研究了一下。基本都搞明白了。下面写的都是我的视角。应该跟大家的视角不一样。

一开始，我一直认为，数据集不一样，任务不一样，方法要不一样，设计的网络结构也应该不一样的。现在通过GPT-2来看，我之前的认识要修正了。

不过GPT-2也没有媒体翻译的那么牛逼。

通俗来说，这篇论文干了两件事：第一，自己用爬虫爬了很大一个文本数据集叫WebText，在这个上面训练了一个通用语言模型GPT-2,这个模型训练好后，直接可以在一些专用数据集上刷分，并且比在专门数据集上训练的模型分数高。第二件事情是，这个通用语言模型不止在language modeling tasks上表现惊人，即不光能完成瞎编续集的功能，还能在自动问答，阅读理解，翻译，写摘要上有好的表现，且不需要重新训练。虽然还不能达到第一的水平，但是，继续加数据加大网络训练，或者fine-tune一下，应该有更好表现。

下面列出几个我看论文时的疑问，和我自己的解答。

疑问一：自己爬些数据就能训练模型了，这个无监督学习是怎么玩的？

解答：爬些数据后，他做了一些清洗。他的无监督学习是这样做的：

样本：一篇文章。从前往后读文章。

Input：读过的文字。

Output（监督信号）：下一个单词是什么。然后跟读到的下一个单词比较计算误差。论文没有说具体是怎么训练的，根据论文意思就是这样计算误差的。

所以说本质上还是有监督信号的。只是不是按照某个具体业务需求具体标注数据，而是自己去学语言内部的概率分布。

疑问二：它的本质是什么？表现这么好的数学原理是什么？

人类的语言表达极为丰富，所谓的丰富用通俗的数学语言来描述就是一篇文章里面，词语之间的线性相关和非线性相关、复杂的非线性相关的容量很大。有点绕?拿图片分类来说，一张狗的图片，如果感兴趣的区域提取的好—即狗在图片中占据的地方提取的好，卷积特征提取的好，那么，它就转化成了一个线性关系，可以解释为“”这样形状的就是狗。

语言模型极为丰富，前后词语之间不是简单的线性或非线性，而是复杂糅合的线性+非线性关系，因而它用了一个很大的15亿参数的tranformer模型来学习这些关系，结构深，参数多，不怕冗余，只管学会里面的逻辑规律。

表现好数学原理是什么？我觉得本质上是中心极限定理。中心极限定理的意思是，所有的分布，累加在一起，如果分布数N足够多，它们分布的和应该是正态分布。

因此，GPT-2通过学习很多的概率分布，收敛到了一个稳定的正态分布，当它预测的时候，根据前面的词语分布和训练得到的大正态分布的偏差，自动去调取符合这些词语分布的语句，组成一个续写的片段。

疑问三：为啥他不公开训练过程或者代码？或者训练好的15亿参数模型？

解答：公布出来的模型，如果用来生成了很多文本放到网上，然后OpenAI爬取到了这些数据，拿来当作更大的训练数据集训练的话，这些文本的语言模型会影响到真实数据的概率分布。

因此，这也是一个机会。openAI在他发布这篇文章的博客上说谁对语言模型感兴趣欢迎加入，如果你能训练一个分类模型，精准的分类出GPT-2和真实的文本数据的话，我认为是openAI非常需要的，同时也是GPT-2更上一层楼的必由之路了。你这个分类模型将是它训练优化的另一个监督信号。

疑问四：GPT-2能续写红楼梦？

肯定不行嘛。它只是学会了现有文本的概率分布，能回答的问题也是简单的名词概念数值，例如爬过的最高的山峰:珠穆朗玛峰。这样的东西。它没法完整的重构一个故事的。就别说写小说了。需要刻画复杂的人物心理状况的。

为什么呢？因为它训练的时候本质是学一个条件概率，它是学习预测下一个词应该是什么，这样的学习是碎片化的。

科研方向：如果你能让它达到语义层的预测，自动学习就牛逼了，例如，输入故事的前半段，给一个开头，看GPT-N能猜到故事的结尾不？哪怕能续写一个爱恨情仇的故事，也算是比较小的误差。那就是真理更进了一步。

疑问五：如何理解文章的标题

文章的中心句我认为是这个：Our speculationis that a language model with sufficient capacity will begin to learn to inferand perform the tasks demonstrated in natural language sequences in order tobetter predict them,regardless of their method of procurement. If a language modelis able to do this it will be, in effect, performing unsupervised multitasklearning. We test whether this is the case by analyzing the performance oflanguage models in a zero-shot setting on a wide variety of tasks.

它认为语言模型应该是一个非监督的多任务学习者，如果训练一个大容量的模型，它应该能拿到干很多事。事实上，这个也很好理解，你训练了一个语言模型后，当有人问你：王石爬过的最高的山是什么？相关性的条件概率预测就是珠穆朗玛峰了。这个你也可以当作是续写了。前一句是：**爬过的最高的山是什么？后一句是***山。

疑问六：如何评价这篇文章？

本质上是搞了一个更深的tranformer模型，跑了一个大的数据集。然后做了一个zero-shot setting去解决其他问题。模型大为了收敛，他做了个优化，叫做层归一化。

这篇文章是 17号写的，今天抽空发出来分享给大家。

发表于: 2019-02-192019-02-19 22:04:57
原文链接：https://kuaibao.qq.com/s/20190219B1CJD600?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

GPT2-无监督学习和通用人工智能又一城？

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐