首页
学习
活动
专区
工具
TVP
发布

mathor

专栏作者
447
文章
592187
阅读量
50
订阅数
BERT-of-Theseus
最近了解到一种称为"BERT-of-Theseus"的BERT模型压缩方法,源自论文《BERT-of-Theseus: Compressing BERT by Progressive Module Replacing》。这是一种以"可替换性"为出发点所构建的模型压缩方案,相比常规的剪枝、蒸馏等手段,它整个流程显得更为优雅、简洁。本文将对该方法做一个简要的介绍,并给出一个简单的Pytorch实现
mathor
2021-06-08
6390
Neural Machine Translation 论文阅读
这是2015年发表在ICLR上的论文,也是NLP中Attention机制的开山之作,Attention机制是为了解决一般的RNN Encoder-Decoder对长句子表现不佳的问题而设计的。从论文题目中我们可以看到,作者希望通过Attention机制将输入句子input和输出句子output进行"对齐"(SMT中也有所谓的词对齐模型)。但是,由于不同语言的句法语法结构千差万别,想将源句子与翻译句子严格的对齐是很困难的,所以这里的对齐实际上是软对齐(soft-alignment),也就是不必将源句子显式分割,因而又被形象地称为注意力机制(Attention Mechanism)
mathor
2020-03-17
7280
Softmax
上图中假设有三个输出,分别是2.0,1.0和0.1,如果将数值转换成概率的话,我们希望概率最大的值作为预测的label。即我们希望将最大值2.0所对应的索引作为相应的label输出,那么如何作为probilities输出呢?
mathor
2019-12-31
5250
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档