前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >直播预告 | 姚班校友李远志​:理解深度学习中的集成、知识蒸馏和自蒸馏

直播预告 | 姚班校友李远志​:理解深度学习中的集成、知识蒸馏和自蒸馏

作者头像
机器之心
发布2023-03-29 18:40:12
3190
发布2023-03-29 18:40:12
举报
文章被收录于专栏:机器之心

自2019年至今,清华大学交叉信息研究院-海华研究院AI前沿系列讲座已成功举办36场,来自世界顶尖学府及知名跨国企业的教授、首席科学家,研究人员汇聚在这里,与观众探索交流人工智能领域的前沿问题,分享科研经验。这其中包括:

美国艺术与科学研究院院士、美国国家科学院院士Sanjeev Arora;

多智能体系统创始人、IJCAI卓越奖得主Victor Lessor;

亚马逊首席科学家,美国卡内基梅隆大学计算机科学博士李沐;

德扑算法研发者Noam Brown;

在理论计算机顶会STOC,FOCS,CCC,SODA上发表了十余篇论文,并且获得了2019年STOC最佳学生论文的姚班校友陈立杰;

⋯⋯

本周三,我们即将迎来2021年第一场海华人工智能与前沿信息讲座,届时,现任美国卡内基梅隆大学机器学习系助理教授,微软研究院访问研究员的李远志将分享他的研究成果。

李远志,于2010年到2014年在清华姚班进行本科学习,2018年在普林斯顿大学获得博士学位,导师为Sanjeev Arora。他曾在斯坦福大学做了一年博士后,其研究方向主要为深度学习的基础理论与实践、凸优化算法与非凸优化算法设计、数据处理算法分析等。

Title: Towards understanding ensemble, knowledge distillation, and self-distillation in deep learning.

讲座主题:理解深度学习中的集成、知识蒸馏和自蒸馏。

Time: 10:30,Wednesday, June 23, 2021

时间:2021年6月23日,星期三,上午10点30分

Attendance: Free entrance and this lecture will be given in English

讲座免费向公众开放,本场讲座为线上英文讲座。

李远志/Yuanzhi Li

讲座摘要:

集成神经网络是提高深度学习模型表现的最强大工具之一。在实践中,即使对几个经过相同训练的神经网络(具有相同的架构,在相同的训练数据基础上,使用相同的训练配置),仅使它与训练中使用的随机种子不同,例如初始化或随机梯度下降的选择,再与任何单个模型相比,都可以显著提高其性能。此外,集成模型的卓越测试性能可在之后“提炼”为单个模型,只需训练此模型以匹配原始训练数据集上的集成输出,而无需真实的标签。

在这项工作中,我们研究了这种简单的神经网络集成为何提高性能,以及为何将这种模型改进提炼成单个模型。首先,实验表明深度学习中的集成/知识蒸馏与传统学习方式非常不同,尤其是与随机特征映射或神经切线内核特征映射不同,甚至可能超出现有定理的范围。

因此,为了正确理解深度学习中的集成和知识蒸馏,我们研究出一个理论,当数据具有我们称为“多视图”的结构时,独立训练的神经网络的集成被证明可以提高测试准确性,同时无需真实的标签,仅通过训练单个模型来匹配集成输出,这种卓越的测试准确性也体现在提炼的单个模型上。我们的研究结果揭示了集成如何以与传统定理完全不同的方式在深度学习中发挥作用,以及与真实数据标签相比,可用于知识蒸馏的“暗知识”如何隐藏在集成的输出中。最后,我们证明了自蒸馏也可以被视为内隐地结合集成与知识蒸馏,以提高测试准确性。

【扫描图中二维码/阅读原文即可预约观看】

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-06-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • ⋯⋯
相关产品与服务
腾讯云服务器利旧
云服务器(Cloud Virtual Machine,CVM)提供安全可靠的弹性计算服务。 您可以实时扩展或缩减计算资源,适应变化的业务需求,并只需按实际使用的资源计费。使用 CVM 可以极大降低您的软硬件采购成本,简化 IT 运维工作。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档