首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

BERT知识蒸馏TinyBERT

TinyBERT[1]是一种针对transformer-based模型的知识蒸馏方法,以BERT为Teacher模型蒸馏得到一个较小的模型TinyBERT。...四层结构的TinyBERT在GLUE benchmark上可以达到BERT的96.8%及以上的性能表现,同时模型缩小7.5倍,推理速度提升9.4倍。...六层结构的TinyBERT可以达到和BERT同样的性能表现。 2....Fine-tuning,因此在TinyBERT模型的蒸馏训练过程中也设计了两阶段的学习框架,在预训练和Fine-tuning阶段都进行蒸馏,以确保TinyBERT模型能够从BERT模型中学习到一般的语义知识和特定任务知识...能够学习到BERT中的语义知识,能够提升TinyBERT的泛化能力,而task-specific distillation可以进一步获取到fine-tuned BERT中的知识。

36840

BERT知识蒸馏TinyBERT

TinyBERT[1]是一种针对transformer-based模型的知识蒸馏方法,以BERT为Teacher模型蒸馏得到一个较小的模型TinyBERT。...四层结构的TinyBERT在GLUE benchmark上可以达到BERT的96.8%及以上的性能表现,同时模型缩小7.5倍,推理速度提升9.4倍。...六层结构的TinyBERT可以达到和BERT同样的性能表现。2....Fine-tuning,因此在TinyBERT模型的蒸馏训练过程中也设计了两阶段的学习框架,在预训练和Fine-tuning阶段都进行蒸馏,以确保TinyBERT模型能够从BERT模型中学习到一般的语义知识和特定任务知识...能够学习到BERT中的语义知识,能够提升TinyBERT的泛化能力,而task-specific distillation可以进一步获取到fine-tuned BERT中的知识。

40260
您找到你想要的搜索结果了吗?
是的
没有找到

TinyBERT 搜索:比BERT快10倍,小20倍

我们构建 NBoost 是为了让非 Google 用户也能方便地使用高级搜索排名模型,在这个过程中,我们开发了 TinyBERT,这就是我在本文中要介绍的内容。...图片来源:https://nervanasystems.github.io/distiller/knowledge_distillation.html TinyBERT 架构 我们使用此 repo...搜索分数对(问题,答案)或(搜索,搜索结果),然后根据这些分数对结果进行排序 下面是我们使用的 tinyBERT 架构的 bert_config.json 示例,与标准的 bert_config 有显著的区别...开始使用 TinyBERT 吧!虽然没有 BERT-Base 对重新评分有效,但我们的实验表明,它保留了 BERT-Base 的 MRR 评分的 90%,同时使模型快了约 10 倍,小了约 20 倍。...via:https://towardsdatascience.com/tinybert-for-search-10x-faster-and-20x-smaller-than-bert-74cd1b6b5aec

51221

华为刘群团队构造两阶段知识蒸馏模型TinyBERT,模型压缩7.5倍,推理时间快9.4倍

假设 Teacher BERT 有M层,TinyBERT有N层(N<M), n = g(m) 是TinyBERT到Teacher BERT 映射函数,表示TinyBERT的第m层是从Teacher BERT...的监督信息,从而训练TinyBERT,训练的loss可表示为如下公式: ‍‍ ‍‍‍‍其中 为当前层衡量Teacher BERT络和TinyBERT的差异性的loss函数, 是超参数,代表当前层的重要程度...CoLA是判断一句话是否语法正确的数据集,需要更多语言学知识,需要更大的网络去拟合,随着TinyBERT参数增大,也能提高TinyBERT在该数据集上的效果,Table 4 也证明了这个结论。...推理速度 TinyBERT 就在几天前,出现了一种新的 BERT 蒸馏方法,来自华为诺亚方舟实验室的刘群团队提出了 TinyBERT。...他们获得了可以对各种下游任务进行微调的通用 TinyBERT

2.9K40

TinyBERT:模型小7倍,速度快8倍,华中科大、华为出品

实证研究结果表明,TinyBERT 是有效的,在 GLUE 基准上实现了与 BERT 相当(下降 3 个百分点)的效果,并且模型大小仅为 BERT 的 13.3%(BERT 是 TinyBERT 的 7.5...为了表述清楚,研究者在详解 TinyBERT 之前阐述了以下问题。...图 2:TinyBERT 的两段式学习图示。 通用蒸馏可以帮助 student TinyBERT 学习到 teacher BERT 中嵌入的丰富知识,对于提升 TinyBERT 的泛化能力至关重要。...然而,由于隐藏/嵌入层大小及层数显著降低,通用 TinyBERT 的表现不如 BERT。 针对特定任务的蒸馏 研究者提出通过针对特定任务的蒸馏来获得有竞争力的微调 TinyBERT 模型。...不同蒸馏目标的影响 研究者还探索了不同目标对 TinyBERT 学习的影响,结果如下表 6 所示: ? 表 6:不同蒸馏目标对 TinyBERT 学习的影响。

70910

寒假干点啥?看懂这25个核心概念,就没有啃不动的机器学习论文

论文解读示例 TinyBERT解读 在大模型越来越成为AI核心研究方向的当下,回顾这些经典的语言模型论文是大有裨益的。...Github上的这个论文解读项目就精选了多篇相关论文,以一篇对知识蒸馏方法TinyBERT的解读为例: 这项工作由年华中科技大学和华为诺亚方舟实验室合作,在2019年提出。...另外,解读作者还在这里引用了另一项相关研究,为TinyBERT的进一步工作提出了一个有趣的方向。 然后是两步蒸馏法。...这里说明了TinyBERT所使用的蒸馏过程遵循了原始BERT的训练方法——在大规模的通用数据集上进行预训练以获得语言特征,然后针对特定任务数据进行微调。...之后文章精简地呈现了原始论文中TInyBERT的关键数据,如该模型的性能在基准测试中达到了BERT基础教师模型的96%,同时体积缩小了7.5倍,速度提高了9.4倍。

14810

看懂这25个核心概念,就没有啃不动的机器学习论文

2 论文解读示例 TinyBERT解读 在大模型越来越成为AI核心研究方向的当下,回顾这些经典的语言模型论文是大有裨益的。...Github上的这个论文解读项目就精选了多篇相关论文,以一篇对知识蒸馏方法TinyBERT的解读为例: 这项工作由年华中科技大学和华为诺亚方舟实验室合作,在2019年提出。...另外,解读作者还在这里引用了另一项相关研究,为TinyBERT的进一步工作提出了一个有趣的方向。 然后是两步蒸馏法。...这里说明了TinyBERT所使用的蒸馏过程遵循了原始BERT的训练方法——在大规模的通用数据集上进行预训练以获得语言特征,然后针对特定任务数据进行微调。...之后文章精简地呈现了原始论文中TInyBERT的关键数据,如该模型的性能在基准测试中达到了BERT基础教师模型的96%,同时体积缩小了7.5倍,速度提高了9.4倍。

28630

广告行业中那些趣事系列50:一文看懂BERT知识蒸馏发展进程

for Natural Language Understanding》提出了预训练和微调两阶段蒸馏方法,TinyBERT两阶段蒸馏如下图所示: 图5 TinyBERT两阶段蒸馏 TinyBERT第一阶段是预训练阶段蒸馏...得到老师模型去蒸馏得到任务相关的六层TinyBERT模型。...TinyBERT还提出了一种针对Transformer的蒸馏方法,不同层对应的损失函数如下: 图6 TinyBERT针对不同层的损失函数 当m=0时对输入embedding进行蒸馏;当m=M+1时对最后一层进行蒸馏...层目标函数蒸馏对模型效果影响最大,而Embedding层和最后一层影响最小,下面是实验结果: 图9 不同目标函数对蒸馏效果的影响 对应到实际业务实践中,蒸馏textCNN的优化版本就是TinyBERT...相比于蒸馏textCNN来说,TinyBERT效果会提升很多,但是相对来说实现也比较复杂。至于模型效果和推理速度的选择可以根据实际的需求确定蒸馏Transformer的层数。

20310

双周动态|三大运营商开放用户14天内访地查询;用TinyBERT做搜索,性能达BERT 90%;区块链技术可助力公益慈善更透明

而针对BERT这样的庞大模型难以部署到算力、内存有限的设备中的问题,华为诺亚方舟实验室和华中科技大学另辟蹊径,联手打造了开源TinyBERT。...TinyBERT应用知识蒸馏的方法,使大型教师模型BERT中的大量知识能很好地迁移到小型学生模型TinyBERT中。...研究人员还提出了一种专门用于TinyBERT的两段式学习框架,,分别在预训练阶段和特定任务学习阶段进行transformer蒸馏,以确保TinyBERT可以获取教师模型在通用和特定任务知识上的经验。...在TinyBERT搜索效果检验中,TinyBERT的性能只达到了BERT的90%,但速度提升了5倍,并且模型大小仅为BERT的1/20。...在GLUE基准上,TinyBERT的性能与BERT相当,仅下降了3个百分点,且模型大小不到不到BERT的1/7,推理速度是BERT的9.4倍。

52732
领券