来源:外媒
编辑:Priscilla 好困
巨星陨落,计算机科学界痛失一位指路人。
他如蜂鸟般在风中起舞,飞向往生
2021年8月9日,耶路撒冷希伯来大学计算机科学与工程学院教授、「信息瓶颈」理论提出者之一Naftali Tishby逝世,享年68岁。
耶路撒冷希伯来大学11日在其官网发布讣告,悼念Tishby的离世。
天妒英才
Naftali Tishby出生于1952年。1974年,获得希伯来大学数学和物理专业学士学位;1980年,获得特拉维夫大学物理专业硕士学位;1985年,获得希伯来大学理论物理专业博士学位。
1985-1986年期间在MIT进行博士后研究,1986-1991年在贝尔实验室工作,1992年成为希伯来大学计算机科学系的高级讲师,自1997年以来就一直是希伯来大学的教授。
Naftali Tishby是希伯来大学神经计算跨学科中心、Edmond and Lily Safra脑科学中心(ELSC)和Sudarsky计算生物学中心的创始人。1998 年,创立并主持了计算机工程项目。
1999年,他与Fernando Pereira、William Bialek一起提出了信息论中的著名方法:信息瓶颈理论。
2015年,Tishby和他的学生Noga Zaslavsky发表论文「Deep Learning and the Information Bottleneck Principle」。
2017年与另一位学生Ravid Shwartz-Ziv发表论文「Opening the Black Box of Deep Neural Networks via Information」。
研究领域范围包括:机器与数据学习理论与应用、数据挖掘、网络安全等。
学术贡献
在Tishby的众多学术成就中,最为著名的就是「信息瓶颈」理论。
如果要换另一种最简单的方式来解释这个理论,想必大家都听说过:
「学习就是先把书读厚,再把书读薄。」
这是人类从信息中提取知识的两个过程,而深度学习也是如此:先拟合(fitting),再压缩(compression)。
「信息瓶颈」理论
1999年,Tishby首先在文章中提出了信息瓶颈理论。
https://arxiv.org/pdf/physics/0004057.pdf?ref=hackernoon.com
他在文章中指出,对于一随机变量,假设已知其与观察变量Y之间的联合概率分布p(X,Y)。
此时,当需要概括(如聚类)时,可以通过信息瓶颈方法来分析如何最优化地平衡准确度与复杂度(数据压缩)。
该方法的应用还包括分布聚类(distributional clustering)与降维等。
这个理论也用于分析深度学习的过程以及解释人脑的工作原理。
深度学习与信息瓶颈理论
经过多年的沉淀与深耕,Tishby终于在2015年再次发表论文:深度学习与信息瓶颈理论。
https://arxiv.org/pdf/1503.02406.pdf
在这篇文章中,他发现深度学习和信息瓶颈理论之间存在关联。
他假设深度学习是一个信息瓶颈程序,尽可能地压缩数据噪声,保留数据想表达的信息。
换句话说,深度神经网络在学习过程中像把信息从瓶颈中挤压出去一样,去除噪音输入,只保留与通用概念最相关的特征。
不过这篇论文只有一些定性分析,没有实验,并没有引起学界的广泛关注。
通过信息打开深度神经网络的黑箱
而在两年后,Tishby发表重磅论文,根据信息瓶颈理论进一步探索神经网络内部发生的一切。
https://arxiv.org/pdf/1703.00810.pdf
与之前Tishby的研究相比,这篇文章在给予信息瓶颈的基础上,观察到了大量的神经网络在训练过程中的行为。
他利用之前论文中提出的可视化工具「information plane」来分析DNN,展示了神经网络各层的表示与输入、标签之间的互信息的动态变化。
结果发现,信息经过逐层传递,最终收敛到信息瓶颈的理论边界:也就是Tishby、Pereira和Bialek在他们1999年论文中推导出的理论界限,代表系统在抽取相关信息时能够做到的最好的情况。在这个边界上,网络在没有牺牲准确预测标签能力的情况下,尽可能地压缩输入。
Tishby还提出了一个有趣的发现:即深度学习分为两个阶段:一个简短的「拟合」阶段以及一个更长时间的「压缩」阶段。
在拟合阶段,网络学着去标注训练数据;而在压缩阶段,网络的泛化能力变得很强。
深度学习先驱Geoffrey Hinton在看完Tishby的柏林演讲后,给Tishby发电子邮件赞许他的想法。他认为,信息瓶颈理论是近年来少有的突破。
It’s extremely interesting. I have to listen to it another 10,000 times to really understand it, but it’s very rare nowadays to hear a talk with a really original idea in it that may be the answer to a really major puzzle. —— Geoffrey Hinton
信息瓶颈极其有趣,我要再听一万遍才能真正理解它,当今能听到如此原创的想法非常难得,或许它就是解开谜题的那把钥匙。
演讲地址:https://www.youtube.com/watch?v=bLqJHjXihK8&t=262s
曾共同发表过一篇论文的纽约大学教授Kyle Cranmer表示:「他有很强的洞察力和巨大的影响力,我会想念他的。」
2017年,Cranmer曾经参加了Tishby的讲座,并惊叹于教授从信息论和统计物理学的角度对学习理论提出的见解。
此外,其他的学术同僚也对这位信息瓶颈理论的先驱表示哀悼。
听到去世的消息,我感到心碎和难过。我在2014年访问希伯来大学时,曾非常荣幸地与他交流。愿你的遗产一直流传下去。
最后附上其他「信息瓶颈」的相关论文地址:
https://www.cs.huji.ac.il/labs/learning/Papers/IBM_list.html
参考资料:
https://www.cs.huji.ac.il/item/news/7269
https://en.wikipedia.org/wiki/Naftali_Tishby
https://naftali-tishby.mystrikingly.com/