首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【LLMs-GPT2-2018】OpenAI第二代生成技术出现GPT2

2 前期提要

1) Transformer 架构

Transformer模型架构是由编码器( Encoder )与解码器( Decoder )组成。

1)每个编码器(左边)由 1个位置编码层(Positional Encoding)与N(= 6)个编码层( Encoder Layer )组成。

2)每个解码器(右边)由1个位置编码层与N个解码层( Decoder Layer )以及1个以全连接层和Sotfmax为激活函数组成。

重点关注:「解码器」

2)GPT1模型

GPT1模型 =  Transformer - Decoder(除去Multi-Head Attention)

「GPT1」网络结构是基于transformer的「解码器」有12层。

3)GPT1数据集

对于「无监督预训练」

使用了 BooksCorpus 数据集,其中包含 7,000 多本独特的未出版书籍(冒险、奇幻和浪漫)。

对于「有监督的微调」,使用了以下数据集:

Natural Language Inference

SNLI

MultiNLI

Question NLI

RTE

SciTail

Question Answsering

RACE

Story Close

Sentence Similarity

MSR Paraphrase Corpus

Quora Question Pairs

STS Benchmark

Classification

Stanford Sentiment Treebank-2

CoLA

3 解决方案

1)网络结构

GPT-2使用Transformer解码器作为模型架构,除了维度、解码器数量和一些细微的变化之外,与GPT-1相同。

层归一化被移至每个子块的输入,类似于预激活 ResNet,并且在最终自注意力块之后添加了额外的层归一化。

词汇量扩大到50,257个。上下文大小也从 512 个token增加到 1024 个token,并且使用了更大的批量大小 512。

最小的模型相当于原来的GPT-1。

第二小的相当于BERT的最大模型。

最大的模型比GPT-1 的参数多一个数量级。

4 实验结论

1)数据集

数据集「WebText」包含这4500 万个链接的文本子集。本文中提出的所有结果均使用 WebText 的初步版本,该版本不包括 2017 年 12 月之后创建的链接,并且经过重复数据删除和一些基于启发式的清理后,包含略超过 800 万个文档,总共40 GB 文本。

WebText移除了涉及Wikipedia的文章。

2)下游任务的零样本结果

3)困惑度

4)机器翻译

5 Pascal曰

1)GPT-2 没有重大架构变化,但模型比GPT-1大得多。另外,GPT-2 是使用包含数百万个网页(称为WebText)的新的更大数据集进行训练的。

2)SOTA 性能是通过零样本任务传输获得的。

针对人群:

不知道如何「入门算法 「,对于」初学者」这里有完整的学习路径图(历史中「经典」模型文献和论文复现),完成后将成为合格「初级算法工程师」

不知道「行业解决方案」,对于「算法工程师」这里有具体的行业中落地方案和呈现出商业价值,阅读后提供新的解决方法想法和成为「算法专家」

蓦然回首,自己从算法(数学)专业学习以及工作已十年有余。

同时希望大家成为算法经历者、分享者和创造者。

入群

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20230627A083TL00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券