较真的来了！这篇【硬核论文】为何恺明新作MAE提供了一种理论解释和数学证明

CV君

发布于 2022-03-30 11:13:26

3910

发布于 2022-03-30 11:13:26

昨天，arXiv上出现了一篇非常硬核的论文“How to Understand Masked Autoencoder”。该论文为何恺明的最新一作论文“Masked Autoencoders Are Scalable Vision Learners”提供了理论解释和相关数学证明。

对于不满于CV常被调侃只是调参，喜欢较真“算法可解释性”的朋友来说，这无疑是一篇不容错过的佳作。两位华人作者曹书豪、徐鹏分别来自华盛顿大学和牛津大学。

原文链接：https://arxiv.org/abs/2202.03670

背景介绍：

如果要盘点2021年计算机视觉领域中最受关注的研究工作，很多人首先会想到何恺明于去年11月份发布的新作“Masked Autoencoders Are Scalable Vision Learners”。这项工作刚一发布，便在业内引起了极其热烈的反响和讨论。

详情：

然而，MAE原文并没有提供理论分析和数学解释。广大学者们近两个月来在网上纷纷直呼期待相关的理论分析。就在昨天，大家的这个心愿实现了。“How to Understand Masked Autoencoder”为MAE提供了理论解释和相关数学证明。

论文梗概：

“How to Understand Masked Autoencoder”这篇论文从积分方程算子角度出发，针对MAE模型提出了5个关键的问题，相应地进行了理论分析，给出了明确的答案，并提供了数学推导和证明。

这五个问题是：

1. MAE模型的表示空间(representation space)是如何形成的、优化的？这个表示空间是如何在Transformer结构中跨层传播的？

2. 对图像的分片处理（patchifying）为什么有助于MAE模型的学习？

3. 为什么MAE模型内部低层和高层输出的特征表示之间没有显著的差异？

4. 解码器（decoder）对于MAE模型不重要吗？

5. MAE对每一个被随机遮盖的分片（masked patch）的重建仅仅是依据其最近邻的未被遮盖的分片进行推断的吗？

相信这篇振奋人心的论文会为我们打开一扇新的窗户，提供了对MAE进行理论分析的一些理论入口。这篇论文必然会鼓励广大从业者更加坚定地去更深入地探索MAE模型及其衍生模型。

后续本平台会持续关注这篇论文，并给出详细解读。

END

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2022-02-10，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自我爱计算机视觉微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度