痛惜！让Hinton感叹要再听一万遍的「信息瓶颈」提出者Naftali Tishby与世长辞

新智元

发布于 2021-08-25 15:01:54

4550

发布于 2021-08-25 15:01:54

文章被收录于专栏：新智元

新智元报道

来源：外媒

编辑：Priscilla 好困

【新智元导读】2021年8月9日，耶路撒冷希伯来大学计算机科学与工程学院教授、「信息瓶颈」理论提出者之一Naftali Tishby逝世，享年68岁。下面让我们一起哀悼这位学者，回顾他的学术生平吧。

巨星陨落，计算机科学界痛失一位指路人。

他如蜂鸟般在风中起舞，飞向往生

2021年8月9日，耶路撒冷希伯来大学计算机科学与工程学院教授、「信息瓶颈」理论提出者之一Naftali Tishby逝世，享年68岁。

耶路撒冷希伯来大学11日在其官网发布讣告，悼念Tishby的离世。

天妒英才

Naftali Tishby出生于1952年。1974年，获得希伯来大学数学和物理专业学士学位；1980年，获得特拉维夫大学物理专业硕士学位；1985年，获得希伯来大学理论物理专业博士学位。

1985-1986年期间在MIT进行博士后研究，1986-1991年在贝尔实验室工作，1992年成为希伯来大学计算机科学系的高级讲师，自1997年以来就一直是希伯来大学的教授。

Naftali Tishby是希伯来大学神经计算跨学科中心、Edmond and Lily Safra脑科学中心（ELSC）和Sudarsky计算生物学中心的创始人。1998 年，创立并主持了计算机工程项目。

1999年，他与Fernando Pereira、William Bialek一起提出了信息论中的著名方法：信息瓶颈理论。

2015年，Tishby和他的学生Noga Zaslavsky发表论文「Deep Learning and the Information Bottleneck Principle」。

2017年与另一位学生Ravid Shwartz-Ziv发表论文「Opening the Black Box of Deep Neural Networks via Information」。

研究领域范围包括：机器与数据学习理论与应用、数据挖掘、网络安全等。

学术贡献

在Tishby的众多学术成就中，最为著名的就是「信息瓶颈」理论。

如果要换另一种最简单的方式来解释这个理论，想必大家都听说过：

「学习就是先把书读厚，再把书读薄。」

这是人类从信息中提取知识的两个过程，而深度学习也是如此：先拟合（fitting），再压缩（compression）。

「信息瓶颈」理论

1999年，Tishby首先在文章中提出了信息瓶颈理论。

https://arxiv.org/pdf/physics/0004057.pdf?ref=hackernoon.com

他在文章中指出，对于一随机变量，假设已知其与观察变量Y之间的联合概率分布p(X,Y)。

此时，当需要概括（如聚类）时，可以通过信息瓶颈方法来分析如何最优化地平衡准确度与复杂度（数据压缩）。

该方法的应用还包括分布聚类（distributional clustering）与降维等。

这个理论也用于分析深度学习的过程以及解释人脑的工作原理。

深度学习与信息瓶颈理论

经过多年的沉淀与深耕，Tishby终于在2015年再次发表论文：深度学习与信息瓶颈理论。

https://arxiv.org/pdf/1503.02406.pdf

在这篇文章中，他发现深度学习和信息瓶颈理论之间存在关联。

他假设深度学习是一个信息瓶颈程序，尽可能地压缩数据噪声，保留数据想表达的信息。

换句话说，深度神经网络在学习过程中像把信息从瓶颈中挤压出去一样，去除噪音输入，只保留与通用概念最相关的特征。

不过这篇论文只有一些定性分析，没有实验，并没有引起学界的广泛关注。

通过信息打开深度神经网络的黑箱

而在两年后，Tishby发表重磅论文，根据信息瓶颈理论进一步探索神经网络内部发生的一切。

https://arxiv.org/pdf/1703.00810.pdf

与之前Tishby的研究相比，这篇文章在给予信息瓶颈的基础上，观察到了大量的神经网络在训练过程中的行为。

他利用之前论文中提出的可视化工具「information plane」来分析DNN，展示了神经网络各层的表示与输入、标签之间的互信息的动态变化。

结果发现，信息经过逐层传递，最终收敛到信息瓶颈的理论边界：也就是Tishby、Pereira和Bialek在他们1999年论文中推导出的理论界限，代表系统在抽取相关信息时能够做到的最好的情况。在这个边界上，网络在没有牺牲准确预测标签能力的情况下，尽可能地压缩输入。

Tishby还提出了一个有趣的发现：即深度学习分为两个阶段：一个简短的「拟合」阶段以及一个更长时间的「压缩」阶段。

在拟合阶段，网络学着去标注训练数据；而在压缩阶段，网络的泛化能力变得很强。

学界评价

深度学习先驱Geoffrey Hinton在看完Tishby的柏林演讲后，给Tishby发电子邮件赞许他的想法。他认为，信息瓶颈理论是近年来少有的突破。

It’s extremely interesting. I have to listen to it another 10,000 times to really understand it, but it’s very rare nowadays to hear a talk with a really original idea in it that may be the answer to a really major puzzle. —— Geoffrey Hinton
信息瓶颈极其有趣，我要再听一万遍才能真正理解它，当今能听到如此原创的想法非常难得，或许它就是解开谜题的那把钥匙。

演讲地址：https://www.youtube.com/watch?v=bLqJHjXihK8&t=262s

曾共同发表过一篇论文的纽约大学教授Kyle Cranmer表示：「他有很强的洞察力和巨大的影响力，我会想念他的。」