前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >GPT : Improving Language Understanding by Generative Pre-Training

GPT : Improving Language Understanding by Generative Pre-Training

作者头像
张凝可
发布2019-08-22 16:16:56
2.2K0
发布2019-08-22 16:16:56
举报
文章被收录于专栏:技术圈技术圈

版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。

代码语言:txt
复制
                 本文链接:[https://blog.csdn.net/qq\_27717921/article/details/99670843](https://blog.csdn.net/qq_27717921/article/details/99670843) 

前言

在之前的博客中讲过预训练的好处,并且预训练可以以多种方式参与到后续的下游任务中,这里就不再赘述。在这篇论文中,探索出了一种对自然语言理解任务的半监督方法,融合了无监督的预训练(pre-training)和有监督的微调(fine-tuning)过程。本文提出了一种通用表示,能够在范围广泛的任务中稍加修改、适应就能快速进行transfer.整个过程分成两个阶段。

阶段一:在无标签的海量数据中训练语言模型,学习神经网络模型的参数。

阶段二:应用阶段一训练完成模型参数用相关标签数据训练target task。

文本分类这篇论文采用了3层的单向LSTM,无attention,带有少量dropout 参数,而本文的模型结构采用了Transformer,在多个任务中,比如机器翻译, 文档生成和句法分析都表现更好。选择这个模型相对与rnn网络能更好地解决长依赖的问题,在跨多样任务迁移模型时能够高效适用。在迁移过程中,这篇论文基于traversal-style将结构化文本处理为单一连续词条序列,这样的处理使得fine-tune对pre-trained model做小改动就可以兼容多种不同任务。

并且经实验验证,本文所采用的方法在12种nlp任务中有9种任务的效果都有显著提高。

框架

Unsupervised pre-training

给定无标签语料

,我们采用标准语言模型去极大化下式:

k是基于语境窗口的大小,条件概率P表示在参数

下采用神经网络建模的可能性。训练参数可以通过梯度下降获得。

在本文的实验中,我们采用了多层的Transformer decoder来建立语言模型,模型采用多头自注意力

是上下文窗口的token 序列,n是层的个数,We是词项量矩阵,Wp是位置嵌入矩阵。

Supervised fine-tuning

基于公式1训练的模型,本文将训练获得的参数应用于有监督的目标任务。假定有带标签的数据集C,包含的每个实例是词序列,如

,带有标签y,首先作为输入通过已经预训练好的pre-trained model获得最终transformer block's activation

,然后输入带有Wy的线性输出层来预测y

在处理输入序列时,可以针对不同任务进行拼接来进行fine-tuning, 如下图:

从上图可以看出,对于不同的任务有不同的处理方式。

实验

有效因子分析

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2019年08月16日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 前言
  • 框架
  • 实验
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档