如何评价Kaiming He的Momentum Contrast for Unsupervised?

磐创AI

发布于 2019-11-18 13:54:40

1.5K0

发布于 2019-11-18 13:54:40

文章被收录于专栏：磐创AI技术团队的专栏

来源：https://www.zhihu.com/question/355779873/answer/893928396 编辑：深度学习与计算机视觉声明：仅做学术分享，侵删

作者：林孟潇 https://www.zhihu.com/question/355779873/answer/893928396

一些不成熟的浅见：

主体提取 key/query feature 并选择合适的损失函数训练的模式算是 representation learning 中很常用的方法，在人脸等领域其实也在广泛使用，但是似乎很少看到在 key 和 query 上用不同 feature extractor 的，从论文看 momentum encoder 似乎至关重要。
选择 key/query pair 上用了林达华老师组的《Unsupervised Feature Learning via Non-Parametric Instance Discrimination》的想法，算是 instance discrimination 的进一步挖掘，或许这才是这篇论文的起点。
Shuffling BN 应该是个大坑，不懂多少实验砸进去才得到这个技巧。
性能提升上 Detection 同规模数据不是很明显，但是对 keypoints/densepose 提升显著，大概是因为 imagenet features 的分类能力对 detection 帮助很大，但是对其他任务不一定是最合适的。不过堆上工业级数据（Instagram）就可以超过Imagenet了。可能过几年回头看，这篇文章是真正开启 post-Imagenet 时代的工作。
何老师一直呼吁 representation 上有所突破，看了这篇才明白到底是什么，只能说何老师真的厉害。不过不止何老师，作者团队可以说是群星璀璨。

不过似乎这也预示着，视觉学术界连 unsupervised learning 都要打不过工业界了，不仅没数据没机器，这个论文的代码实现估计相当复杂，因为考虑多机多卡（64 GPUs）和各种tricks，一般学生估计没法轻松复现。

作者：Tong XIAO https://www.zhihu.com/question/355779873/answer/894663297

下游的Person Search / ReID领域终于间接启发一下了上游的representation learning :D

一些小的想法：

momentum encoder确实很巧妙，让这个方法扩展到了大数据集
个人感觉loss里面的tau会是比较重要的超参，特别是网络初始化不好的话
reid里面结合softmax loss和triplet loss会有帮助，没准也能应用到representation learning

作者：打针 https://www.zhihu.com/question/355779873/answer/894580176

个人对表示学习不是很了解，不过最近一段时间在看一些半监督方面的工作，感觉很多地方还是很相似的

对于unlable的样本，如何将其加入网络巡练，这里是用了query-key的模式去train一个encoder

为了稳定性，选择用一个queue来记录，然后用momentum的机制去慢慢更新这个queue（感觉很像mean-teacher的moving average)

我是主做医学图像的，感觉这个工作用在医学影像分析的预训练上，潜力很大，毕竟这个领域的标注成本太高了，不同器官，甚至是同器官的不同任务之间的domain shift都非常严重，如果能把unlabel样本以及正常的无病灶样本都有效利用起来去pretrain，那是真的非常nb了

而且这个工作还可以和Vat等等半监督的工作结合起来，可能接下来一年很多东西的baseline都会有明显的提升了啊。

作者：tankche1 https://www.zhihu.com/question/355779873/answer/895112659

感觉就是【1】Unsupervised feature learning via non-parametric instance discrimination 这篇工作的拓展。【1】因为没有gpu（足够的）所以用memory bank 来存feature。这篇有gpu所以就不用存feature了直接每次都用key encoder。然后因为key encoder要比query encoder慢一点点同步（一样的话不好）所以加了个momentum。【1】每个batch（batchsize=n）要forward n个image，这篇要forward（n+k）个。

作者：知乎用户 https://www.zhihu.com/question/355779873/answer/894687533

核心思想跟我们CVPR19的文章 [1] 非常类似，都是基于instance discrimination 来做unsupervised representation learning，同样类似的文章还有examplar CNN [2] 和 NCE [3], 但是kaiming大神用momentum的实在巧妙。简单介绍一下instance discrimination的发展史，下面是详细分析：

ExamplarCNN [2]: 早期用instance discrimination的思想来做无监督学习的，对每一个instance 学习一个classifier weight，效率比较低
NCE [3]: 引入 memory bank的去替代上面的classifier weights, 把前一个step 学习到的instance feature存储起来，然后在下一个step把这些存储的memory去学习，效率有所提升
Invariant and Spreading Instance Feature [1]: 我们在今年CVPR19 上提出了一种新的学习的方式，可以直接在instance feature level 上进行学习。我们直接用random data augmented instance feature做为“classifier weights”进行学习，并且采用了一个Siamese的network 去训练，这样两个网络的instance feature 可以实时的进行比较和学习。学习效率和准确性都有所提高，我们的文章也对上述两个方法的优缺点有详细的分析。相关代码也在github开源了。
Momentum Contrast: kaiming 大神用momentum的思想很好的弥补了我们方法的缺陷，从而使得模型在学习的过程中避免学习classifier weights 和memory bank，同时又保证可以handle大规模的数据！其中的shuffle batch normalization 应该也是进一步稳定这个training过程的一个很重要的trick。类似的做法也在deepCluster [4]论文里面每个epoch对classifier 重新做random initialization，两种做法应该有类似的效果，使得学习到的特征稳定性和泛化性都能有所提升

[1] Mang Ye, Xu Zhang, Pong C Yuen, and Shih-Fu Chang. Unsupervised embedding learning via invariant and spreading instance feature. In CVPR, 2019.

[2] Alexey Dosovitskiy, Philipp Fischer, Jost Tobias Springenberg, Martin Riedmiller, and Thomas Brox. Discriminative unsupervised feature learning with exemplar convolutional neural networks. In IEEE TPAMI, 2016.

[3] Zhirong Wu, Yuanjun Xiong, Stella Yu, and Dahua Lin. Unsupervised feature learning via non-parametric instance discrimination. In CVPR, 2018.

[4] Mathilde Caron, Piotr Bojanowski, Armand Joulin, and Matthijs Douze. Deep clustering for unsupervised learning of visual features. In ECCV, 2018.

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2019-11-16，如有侵权请联系 cloudcommunity@tencent.com 删除

面向对象编程