前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【NLP】 理解NLP中网红特征抽取器Tranformer

【NLP】 理解NLP中网红特征抽取器Tranformer

作者头像
用户1508658
发布2019-07-31 15:36:53
9910
发布2019-07-31 15:36:53
举报
文章被收录于专栏:有三AI

本篇介绍目前NLP领域的“网红”特征抽取器Transformer。首先,作为引子,引入 Transformer是什么的问题;接着,详细介绍了Transformer的结构和其内部的机制;最后,再总结Transformer的本质和定义。

作者&编辑 | 小Dream哥

1 Transformer是什么?

很早就不断的有读者问小Dream哥什么时候介绍Transformer。确实,Transformer是现在NLP领域最大的网红特征抽取器,基本现在所有的前沿研究都基于Transformer来做特征提取,不奇怪大家对他颇有兴致。

但是,小Dream哥其实并不是很想写Transformer,主要是网上写它的文章真的太多太多了,基本上能说的,各路神仙都把它说了一遍,要写出新意真的太难。

今天小Dream哥就在这里说说,我所理解的Transformer吧,如有不对的地方,请大家指正。

在《Attention is all you need》中,Transformer是一个用于机器翻译的编解码结构,这也是它为什么叫Transformer的原因。后来,因为在序列编码中强大的特征抽取能力和高效的运算特性,Transformer被从编解码结构里抽离出来,成为了在NLP领域,目前最流行的特征抽取器。

我们暂且把对Transformer的认知,停留在这个层面,看完Transformer里到底有什么之后,再来思考这个问题,看能不能有更多的收获。

2 Transformer里有什么

安利一下,上图来自http://jalammar.github.io/illustrated-transformer/该篇博客讲tranformer的网络结构讲的非常细和形象,想要了解这方面的读者开源仔细读一下。

上图是Transformer中,第一个sub-layer的结构示意图。其特别之处只有输入接收的为字向量和位置编码的和,其他sub-layer的输入为上一层sub-layer的输出。每一个sub-layer,除上述差异之外,别无二致,所以我们只需要了解一个就可以。

通常,会有多层这样的sub-layer,在Bert-base中,有12层,GPT-2.0则更深,所以参数量都很大。GPT-2.0的参数量达到了“丧心病狂”的3亿之多,是名副其实的大模型了。曾经刚入NLP坑的时候,会庆幸自己不用像CV的同学那样,天天看着贵的显卡乍舌叹气。不过小Dream哥现在也不用看了,训练最新模型的显卡,是一定买不起了。话说回来,NLP中,模型参数已经大大超过了CV模型的参数量,正在朝着超大规模网络的方向狂奔。真有点担心,这样下去,后面NLP的玩家就只剩下那几个大玩家了。

好了,我们先看看sub-layer都有些什么内容。

(1) self-attention

上图是Transformer中self-attention的计算过程。其实在Transformer中,Q,K,V指的都是输入序列乘上不同的权重W_Q,W_K,W_V。上述过程,可以用如下的公式概括:

看过我们上一篇Attention文章的同学,应该对这个公式很熟悉。在Transformer中,主要通过这样一层self-Attention对输入序列进行编码。

该编码过程的一个特点是,在编码序列中的某一个词时,让该词充分的与序列中的其他词进行运算,从而能够得到该词与序列中所有词的句法和语义关系编码

该编码过程的另外一个重要的特点是,序列是并行输入的,因此运算效率很高

(2) Multi-head Attention

Multi-head Attention,即多头注意力机制。大概的处理流程如下图所示:

更多的细节,读者可以参考原文,这里不再详述。总的来说,多头机制就是8组权重,计算出了8个不同的输出,再通过拼接和运算得到新的序列编码

那么,增加了8倍的参数和运算量。引入这样的机制有什么好处呢?

1) 极大的增强了模型的序列编码能力,特别是序列内词之间关系的语义表征能力。这个可以这样去想,假如只有一个头的话,因为是self-attention,在计算过程中,很有可能该词与该词的的计算结果可能会比较大,从而词与自身的运算占据了很大的影响。如果引入多头机制,不同的权重,则可以避免这种弊端,增强模型的编码能力。

2) 实现了Attention的多个表征子空间。这样的好处是,每个子空间可以表征序列不同方面语义信息。这方面小Dream哥也没有看到相关论文的解释和支撑,就不多说了,了解的小伙伴可以留言指教。

(3) Feed-forward

每一个sub-layer还会接一个Feed-forward Neural Network(FNN),FNN的计算公式如下:

即在每个sub-layer,针对self-Attention层的输出,先使用一个线性变换,再针对该线性变换的输出使用RELU函数,最后再针对RELU函数的输出使用一个线性变化。那么,做这么繁琐的变换有什么意义呢?

我们将FNN与CNN做对比,其实可以发现,其效果与加上一层卷积核大小为1*1的CNN是一样的。那么这就好理解了,这层所谓的FNN其实也是做特征提取的。至于它为什么不直接取名为1*1CNN layer,这就要去问Tranformer的发明者了。

在Transformer中,还有其他的层,例如Poition-Encoding层,The Residuals残差连接等,这些都好理解,读者可以参考前面推荐的Jay Alammar的博客。

3 再说Transformer

前面大概讲述了Transformer的结构及其每个sub-layer的组成。那么我们再来讨论一下,Transformer到底是什么?

我们可不可以这样说,Transformer其实是一个用于对序列输入进行特征编码的工具。它以self-Attention机制为基础,从而能够编码序列输入的语义信息,对序列输入内不同词之间的关系也具有较强的编码能力,特别是Multi-Attention的引入,极大的增强了其编码能力。同时,Transformer内其实还有CNN的影子,尽管原作者避免提及。并且,因为其结构上的优势,像CNN一样,Transformer天然就能够并行计算,这一点是RNN等模型无法具备的。

总结

Transformer中最重要的特点就是引入了Attention,特别是Multi-Head Attention。作为一个序列输入的特征抽取器,其编码能力强大,没有明显的缺点。短期内难以看到可以匹敌的竞争对手。NLP领域的同学们,务必好好研究。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-07-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 有三AI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档