腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

mathor

专栏作者

447

文章

592187

阅读量

50

订阅数

BERT-of-Theseus

最近了解到一种称为"BERT-of-Theseus"的BERT模型压缩方法，源自论文《BERT-of-Theseus: Compressing BERT by Progressive Module Replacing》。这是一种以"可替换性"为出发点所构建的模型压缩方案，相比常规的剪枝、蒸馏等手段，它整个流程显得更为优雅、简洁。本文将对该方法做一个简要的介绍，并给出一个简单的Pytorch实现

2021-06-08

6390

Neural Machine Translation 论文阅读

机器学习深度学习人工智能机器翻译文件存储

这是2015年发表在ICLR上的论文，也是NLP中Attention机制的开山之作，Attention机制是为了解决一般的RNN Encoder-Decoder对长句子表现不佳的问题而设计的。从论文题目中我们可以看到，作者希望通过Attention机制将输入句子input和输出句子output进行"对齐"（SMT中也有所谓的词对齐模型）。但是，由于不同语言的句法语法结构千差万别，想将源句子与翻译句子严格的对齐是很困难的，所以这里的对齐实际上是软对齐（soft-alignment），也就是不必将源句子显式分割，因而又被形象地称为注意力机制（Attention Mechanism）

2020-03-17

7280

上图中假设有三个输出，分别是2.0，1.0和0.1，如果将数值转换成概率的话，我们希望概率最大的值作为预测的label。即我们希望将最大值2.0所对应的索引作为相应的label输出，那么如何作为probilities输出呢？

2019-12-31

5250

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态