专栏首页arxiv.org翻译专栏通过知识蒸馏迁移归纳偏差(CS LG)
原创

通过知识蒸馏迁移归纳偏差(CS LG)

在数据或计算资源受限的许多任务或场景中,或者在测试时训练数据不能完全代表实际条件的情况下,拥有正确的归纳偏差是至关重要的,然而,定义、设计并有效地适应归纳偏差并不一定简单。在这篇文章中,我们探讨了知识蒸馏在将归纳偏差的影响从一个模型迁移到另一个模型过程中的巨大帮助。因为在任务和场景中,具有正确的电感偏差是至关重要的,所以我们考虑了具有不同电感偏差的模型族,LSTMs与变压器,CNNs与MLPs,我们还从性能以及收敛解的不同方面研究了如何通过知识蒸馏来传递归纳偏差的影响。

原文题目:Transferring Inductive Biases through Knowledge Distillation

原文:Having the right inductive biases can be crucial in many tasks or scenarios where data or computing resources are a limiting factor, or where training data is not perfectly representative of the conditions at test time. However, defining, designing and efficiently adapting inductive biases is not necessarily straightforward. In this paper, we explore the power of knowledge distillation for transferring the effect of inductive biases from one model to another. We consider families of models with different inductive biases, LSTMs vs. Transformers and CNNs vs. MLPs, in the context of tasks and scenarios where having the right inductive biases is critical. We study how the effect of inductive biases is transferred through knowledge distillation, in terms of not only performance but also different aspects of converged solutions.

原文作者:Samira Abnar, Mostafa Dehghani, Willem Zuidema

原文链接:https://arxiv.org/abs/2006.00555

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Facebook开源高效图像Transformer,速度、准确率与泛化性能媲美SOTA CNN

    Transformer 是自然语言处理领域的主流方法,在多项任务中实现了 SOTA 结果。近期越来越多的研究开始把 Transformer 引入计算机视觉领域,...

    小白学视觉
  • 速度、准确率与泛化性能媲美SOTA CNN,Facebook开源高效图像Transformer

    Transformer 是自然语言处理领域的主流方法,在多项任务中实现了 SOTA 结果。近期越来越多的研究开始把 Transformer 引入计算机视觉领域,...

    深度学习技术前沿公众号博主
  • ICLR2021 | 显著提升小模型性能,亚利桑那州立大学&微软联合提出SEED

    本文主要聚焦于小模型(即轻量型模型)的自监督学习问题,作者通过实证发现:对比自监督学习方法在大模型训练方面表现出了很大进展,然这些方法在小模型上的表现并不好。

    AIWalker
  • 【深度学习】深度学习中的知识蒸馏技术(上)简介

    在化学中,蒸馏是一种有效的分离不同沸点组分的方法,大致步骤是先升温使低沸点的组分汽化,然后降温冷凝,达到分离出目标物质的目的。化学蒸馏条件:(1)蒸馏的液体是混...

    黄博的机器学习圈子
  • 【AI不惑境】模型压缩中知识蒸馏技术原理及其发展现状和展望

    进入到不惑境界,就是向高手迈进的开始了,在这个境界需要自己独立思考。如果说学习是一个从模仿,到追随,到创造的过程,那么到这个阶段,应该跃过了模仿和追随的阶段,进...

    用户1508658
  • 旷视15篇论文入选ECCV 2020(含目标检测/NAS/人体姿态估计等)

    8月23-28日,全球计算机视觉三大顶会之一,两年一度的 ECCV 2020(欧洲计算机视觉国际会议)即将召开。受到疫情影响,今年的 ECCV 将以线上形式举办...

    Amusi
  • ICML 2018 | 再生神经网络:利用知识蒸馏收敛到更优的模型

    机器之心
  • 降低预测过程计算成本,这些NLP模型压缩方法要知道

    近年来,基于谷歌Transformer的语言模型在神经机器翻译,自然语言推理和其他自然语言理解任务上取得了长足进展。

    AI科技大本营
  • 深度总结 | 知识蒸馏在推荐系统中的应用

    链接 | https://zhuanlan.zhihu.com/p/143155437

    张小磊
  • 腾讯优图 | 分布式知识蒸馏损失改善困难样本

    今天我们“计算机视觉研究院”先给大家讲讲什么是“知识蒸馏”,下一期我们再来深入解读优图的“分布式知识蒸馏损失改善人脸识别困难样本”技术。

    计算机视觉研究院
  • TinyBERT:模型小7倍,速度快8倍,华中科大、华为出品

    在自然语言处理(NLP)领域,BERT 等预训练语言模型极大地提升了诸多 NLP 任务的性能。但是,这类预训练语言模型通常计算开销大,内存占用也大,因此很难在一...

    机器之心
  • 15篇论文全面概览BERT压缩方法

    模型压缩可减少受训神经网络的冗余——由于几乎没有BERT或者BERT-Large模型可用于GPU及智能手机上,这一点就非常有用了。另外,内存与推理速度的提高也能...

    AI科技大本营
  • 从Hinton开山之作开始,谈知识蒸馏的最新进展

    蒸馏可以提供student在one-shot label上学不到的soft label信息,这些里面包含了类别间信息,以及student小网络学不到而teach...

    AI科技大本营
  • 深度学习: 模型压缩

    预训练后的深度神经网络模型往往存在着严重的 过参数化 问题,其中只有约5%的参数子集是真正有用的。为此,对模型进行 时间 和 空间 上的压缩,便谓之曰“模型压缩...

    JNingWei
  • 广告行业中那些趣事系列:从理论到实战BERT知识蒸馏

    摘要:本篇主要分享从理论到实战知识蒸馏。首先讲了下为什么要学习知识蒸馏。一切源于业务需求,BERT这种大而重的模型虽然效果好应用范围广,但是很难满足线上推理的...

    guichen1013
  • BAM!利用知识蒸馏和多任务学习构建的通用语言模型

    在今年年初,微软发布了一个多任务自然语言理解模型,它在通用语言理解评估基准 GLUE 上取得了当时最好的效果:11 项 NLP 基准任务中有 9 项超过了 BE...

    机器之心
  • BERT蒸馏完全指南|原理/技巧/代码

    今天rumor就结合Distilled BiLSTM/BERT-PKD/DistillBERT/TinyBERT/MobileBERT/MiniLM六大经典模型...

    NewBeeNLP
  • 【源头活水】从对比链接中蒸馏自知识:非消息传递的图节点分类

    “问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精...

    马上科普尚尚
  • 华为刘群团队构造两阶段知识蒸馏模型TinyBERT,模型压缩7.5倍,推理时间快9.4倍

    链接 | https://arxiv.org/pdf/1909.10351.pdf

    AI科技评论

扫码关注云+社区

领取腾讯云代金券