前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >痛惜!让Hinton感叹要再听一万遍的「信息瓶颈」提出者Naftali Tishby与世长辞

痛惜!让Hinton感叹要再听一万遍的「信息瓶颈」提出者Naftali Tishby与世长辞

作者头像
新智元
发布2021-08-25 15:01:54
4550
发布2021-08-25 15:01:54
举报
文章被收录于专栏:新智元

新智元报道

来源:外媒

编辑:Priscilla 好困

【新智元导读】2021年8月9日,耶路撒冷希伯来大学计算机科学与工程学院教授、「信息瓶颈」理论提出者之一Naftali Tishby逝世,享年68岁。下面让我们一起哀悼这位学者,回顾他的学术生平吧。

巨星陨落,计算机科学界痛失一位指路人。

他如蜂鸟般在风中起舞,飞向往生

2021年8月9日,耶路撒冷希伯来大学计算机科学与工程学院教授、「信息瓶颈」理论提出者之一Naftali Tishby逝世,享年68岁。

耶路撒冷希伯来大学11日在其官网发布讣告,悼念Tishby的离世。

天妒英才

Naftali Tishby出生于1952年。1974年,获得希伯来大学数学和物理专业学士学位;1980年,获得特拉维夫大学物理专业硕士学位;1985年,获得希伯来大学理论物理专业博士学位。

1985-1986年期间在MIT进行博士后研究,1986-1991年在贝尔实验室工作,1992年成为希伯来大学计算机科学系的高级讲师,自1997年以来就一直是希伯来大学的教授。

Naftali Tishby是希伯来大学神经计算跨学科中心、Edmond and Lily Safra脑科学中心(ELSC)和Sudarsky计算生物学中心的创始人。1998 年,创立并主持了计算机工程项目。

1999年,他与Fernando Pereira、William Bialek一起提出了信息论中的著名方法:信息瓶颈理论。

2015年,Tishby和他的学生Noga Zaslavsky发表论文「Deep Learning and the Information Bottleneck Principle」。

2017年与另一位学生Ravid Shwartz-Ziv发表论文「Opening the Black Box of Deep Neural Networks via Information」。

研究领域范围包括:机器与数据学习理论与应用、数据挖掘、网络安全等。

学术贡献

在Tishby的众多学术成就中,最为著名的就是「信息瓶颈」理论。

如果要换另一种最简单的方式来解释这个理论,想必大家都听说过:

「学习就是先把书读厚,再把书读薄。」

这是人类从信息中提取知识的两个过程,而深度学习也是如此:先拟合(fitting),再压缩(compression)。

「信息瓶颈」理论

1999年,Tishby首先在文章中提出了信息瓶颈理论。

https://arxiv.org/pdf/physics/0004057.pdf?ref=hackernoon.com

他在文章中指出,对于一随机变量,假设已知其与观察变量Y之间的联合概率分布p(X,Y)。

此时,当需要概括(如聚类)时,可以通过信息瓶颈方法来分析如何最优化地平衡准确度与复杂度(数据压缩)。

该方法的应用还包括分布聚类(distributional clustering)与降维等。

这个理论也用于分析深度学习的过程以及解释人脑的工作原理。

深度学习与信息瓶颈理论

经过多年的沉淀与深耕,Tishby终于在2015年再次发表论文:深度学习与信息瓶颈理论。

https://arxiv.org/pdf/1503.02406.pdf

在这篇文章中,他发现深度学习和信息瓶颈理论之间存在关联。

他假设深度学习是一个信息瓶颈程序,尽可能地压缩数据噪声,保留数据想表达的信息。

换句话说,深度神经网络在学习过程中像把信息从瓶颈中挤压出去一样,去除噪音输入,只保留与通用概念最相关的特征。

不过这篇论文只有一些定性分析,没有实验,并没有引起学界的广泛关注。

通过信息打开深度神经网络的黑箱

而在两年后,Tishby发表重磅论文,根据信息瓶颈理论进一步探索神经网络内部发生的一切。

https://arxiv.org/pdf/1703.00810.pdf

与之前Tishby的研究相比,这篇文章在给予信息瓶颈的基础上,观察到了大量的神经网络在训练过程中的行为。

他利用之前论文中提出的可视化工具「information plane」来分析DNN,展示了神经网络各层的表示与输入、标签之间的互信息的动态变化。

结果发现,信息经过逐层传递,最终收敛到信息瓶颈的理论边界:也就是Tishby、Pereira和Bialek在他们1999年论文中推导出的理论界限,代表系统在抽取相关信息时能够做到的最好的情况。在这个边界上,网络在没有牺牲准确预测标签能力的情况下,尽可能地压缩输入。

Tishby还提出了一个有趣的发现:即深度学习分为两个阶段:一个简短的「拟合」阶段以及一个更长时间的「压缩」阶段。

在拟合阶段,网络学着去标注训练数据;而在压缩阶段,网络的泛化能力变得很强。

学界评价

深度学习先驱Geoffrey Hinton在看完Tishby的柏林演讲后,给Tishby发电子邮件赞许他的想法。他认为,信息瓶颈理论是近年来少有的突破。

It’s extremely interesting. I have to listen to it another 10,000 times to really understand it, but it’s very rare nowadays to hear a talk with a really original idea in it that may be the answer to a really major puzzle. —— Geoffrey Hinton

信息瓶颈极其有趣,我要再听一万遍才能真正理解它,当今能听到如此原创的想法非常难得,或许它就是解开谜题的那把钥匙。

演讲地址:https://www.youtube.com/watch?v=bLqJHjXihK8&t=262s

曾共同发表过一篇论文的纽约大学教授Kyle Cranmer表示:「他有很强的洞察力和巨大的影响力,我会想念他的。」

2017年,Cranmer曾经参加了Tishby的讲座,并惊叹于教授从信息论和统计物理学的角度对学习理论提出的见解。

此外,其他的学术同僚也对这位信息瓶颈理论的先驱表示哀悼。

听到去世的消息,我感到心碎和难过。我在2014年访问希伯来大学时,曾非常荣幸地与他交流。愿你的遗产一直流传下去。

最后附上其他「信息瓶颈」的相关论文地址:

https://www.cs.huji.ac.il/labs/learning/Papers/IBM_list.html

参考资料:

https://www.cs.huji.ac.il/item/news/7269

https://en.wikipedia.org/wiki/Naftali_Tishby

https://naftali-tishby.mystrikingly.com/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-08-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 新智元报道
  • 学界评价
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档