前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >bert原理及代码解读

bert原理及代码解读

作者头像
MachineLP
发布2019-05-26 15:33:00
1.2K0
发布2019-05-26 15:33:00
举报
文章被收录于专栏:小鹏的专栏

BERT:

(Bidirectional Encoder Representations from Transformers)

BERT的新语言表示模型,它代表Transformer的双向编码器表示。与最近的其他语言表示模型不同,BERT旨在通过联合调节所有层中的上下文来预先训练深度双向表示。因此,预训练的BERT表示可以通过一个额外的输出层进行微调,适用于广泛任务的最先进模型的构建,比如问答任务和语言推理,无需针对具体任务做大幅架构修改。

基础比较弱的,直接看bert,可能要结合这个文章一起看:从Word Embedding到Bert模型——自然语言处理预训练技术发展史

简单一点可以这样概括:

后续方法的提出主要源于Word Embedding 存在 多义词问题,比如:bank(河岸、银行),熟悉word2vector应该很清楚为什么存在多义词问题了。

而下游 NLP 任务在使用 Word Embedding 的时候也类似图像有两种做法:(两种做法就是 18 年之前 NLP 领域里面采用预训练的典型做法)

(1)一种是 Frozen,就是 Word Embedding 那层网络参数固定不动;

(2)另外一种是 Fine-Tuning,就是 Word Embedding 这层参数使用新的训练集合训练也需要跟着训练过程更新掉。

基于上面的骚操作作用不是很大哦,故有了:ELMO、GPT等,到现在的Bert,具体细节还是看从Word Embedding到Bert模型——自然语言处理预训练技术发展史后面的部分吧,写的不错就不赘述了。

下面我们来解读一下tf代码和pytorch代码: (代码比较简单, 在考虑要不要解读一下哦)

tf代码:https://github.com/google-research/bert

pytorch代码:https://github.com/codertimo/BERT-pytorch

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2018年11月23日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档