首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【LLMs-BERT-2018】BERT模型-开创精彩的大规模预训练语言模型热潮(下)

我们一起读起来!!!了解过往历史文献的方法和不足之处,展望最新的文献和技术。

「标题」:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

「时间」:2018

「被引用次数」:43322(截止目前)

3 解决方案

1)BERT网络结构

BERT模型 = Transformer - Encoder

BERT-Base(左)和BERT-Large(右)模型结构参数如下:

2) 输入表示

Bert的输入向量 = token embedding + position embedding + segment embedding

为了使 BERT 处理各种下游任务,输入表示能够在一个标记序列中明确表示单个句子和一对句子(例如,)。

使用具有 30,000 个标记词汇的WordPiece 嵌入(Wu 等人,2016),每个序列的第一个标记始终是一个特殊的分类标记 (「[CLS]」)。特殊标记 ( 「[SEP]」 ) 用于分隔。

3)BERT 训练步骤

训练的两个步骤:

「预训练」(Pre-training),模型通过不同的预训练任务在未标记数据上进行训练。

「微调」(Fine-Tuning),首先使用预训练的参数初始化 BERT 模型,然后使用来自下游任务的标记数据对所有参数进行微调。

3.1)无监督预训练(Pre-training)

「任务1」:屏蔽语言模型 Masked Language Model(「MLM」

MLM任务可以理解为完形填空(Cloze task)。

用 [MASK] 标记替换文本中 15% 的单词,然后该模型预测被 [MASK] 标记替换的原始单词。

除了屏蔽之外,屏蔽还混合了一些东西,以改进模型稍后进行微调的方式,因为 [MASK] 令牌在训练和微调之间造成了不匹配。

在这个模型中,我们在编码器输入的顶部添加了一个分类层,使用全连接和 softmax 层计算输出的概率。

「任务2」:下一句预测Next Sentence Prediction (「NSP」

在这个NSP任务中,提供两个句子目标是预测第二个句子是否是原始文本中第一个句子的下一个后续句子。

在训练 BERT 期间,我们从原始句子中获取 50% 的数据是下一个后续句子(标记为 isNext),并在 50% 的时间中获取不是原始文本中下一个句子的随机句子(标记为作为NotNext)。

由于这是一个分类任务,所以我们的第一个标记是 [CLS] 标记。

该模型还使用 [SEP] 标记来分隔我们传入模型的两个句子。

汇总以下,

[CLS] — 每个序列的第一个标记。最终隐藏状态是用于分类任务的聚合序列表示。

[SEP] — 分隔符,例如,分隔问题和相关段落。

[MASK] — 隐藏一些输入标记的标记

3.2)监督微调BERT

预训练的 BERT 模型可以为单个文本或文本对生成表示,这得益于特殊的标记和两种无监督语言建模预训练。

对于每个任务,特定于任务的输入和输出只需插入 BERT,所有参数都经过端到端的微调。

在BERT微调下实现四大类任务功能(以下):

由此,我们也解释是如何的预训练Pre-training和Fine-Tuning的,是如何的Bidirectional (双向)Transformers的。

尤其是通过「无监督预训练目标」「下游任务特定微调的自注意力机制」

4)训练细节

发现以下可能范围值适用于所有任务:

批大小:16,32

学习率(Adam):5e-5,3e-5,2e-5

epoch数:2,3,4

4 实验结论

1)GLUE数据集

通用语言理解评估(GLUE)基准(Wang等,2018)是各种自然语言理解任务的集合。

2)斯坦福问答数据集SQuAD v1.1

3)斯坦福问答数据集SQuAD v2.0

4)对抗生成情境数据集SWAG

5 消融实验

消融实验:就是去掉模型中的部分模块,然后看模型的性能会有怎样的影响。

1)预训练任务的效果

2)模型大小的影响

3)训练步数的影响

4)基于特征的BERT方法

6 Pascal曰

1)BERT首先在大规模无监督语料上进行预训练,然后在预训练好的参数基础上增加一个与任务相关的神经网络层,并在该任务的数据上进行微调训,最终取得很好的效果。

2)无监督训练的方式:1 Masked Language Model(MLM) 2 Next Sentence Prediction (NSP),也是关注的重点。

3)NLP新局面打开了!!!!

针对人群:

不知道如何「入门算法 「,对于」初学者」这里有完整的学习路径图(历史中「经典」模型文献和论文复现),完成后将成为合格「初级算法工程师」

不知道「行业解决方案」,对于「算法工程师」这里有具体的行业中落地方案和呈现出商业价值,阅读后提供新的解决方法想法和成为「算法专家」

蓦然回首,自己从算法(数学)专业学习以及工作已十年有余。

同时希望大家成为算法经历者、分享者和创造者。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20230626A06PQI00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券