前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Facebook新模型SEER|图像预训练的内卷

Facebook新模型SEER|图像预训练的内卷

作者头像
abs_zero
发布2021-03-19 10:51:27
6440
发布2021-03-19 10:51:27
举报
文章被收录于专栏:AI派AI派

前几天FAIR发了一个新的图像预训练模型 SEER,看完论文之后我不禁感叹,不仅我企图往多模态卷,Facebook自己也卷起来了。

为什么说卷呢?因为这篇文章的方法概括来说就是用更好的模型、更多的数据,有点NLP预训练内味儿了。

然后我翻了翻20年几个对比学习SOTA模型的作者,发现Facebook和谷歌各有两拨人在搞,比较激烈的主要是Kaiming和Hinton大佬,然后就是Mathilde Caron这位法国博士妹子和她的同事Priya Goyal(也是位女researcher)。看了下妹子的linkedin,毕业于巴黎综合理工学院,就是法国的Top1,太强了。

回归正题,还是介绍下这个模型的各种改进细节,已经忘了对比学习的同学可以复习这篇文章

代码语言:javascript
复制
论文题目:Self-supervised Pretraining of Visual Features in the Wild
下载地址:https://arxiv.org/pdf/2103.01988.pdf
代码地址:https://github.com/facebookresearch/vissl

训练数据

SEER首先提出了之前模型们的训练数据问题,他们都是在一百万左右的ImageNet上训练,而这些数据都是挑选过的,只能代表开放域中的一部分数据。于是作者就想:**在更大的开放域数据上训练是否能提升效果呢?**如果可行的话,那以后就在更更多的数据上pretrain,然后再迁移到下游任务就可以了。

于是作者收集了10亿的Instagram图片,甚至连去重都没做。

模型结构

整体的结构和SwAV一样,但既然增加了数据,还是得想办法把训练效率优化一下。

作者选用了凯明大神去年推出的RegNet,结合了神经网络搜索NAS的优点,在Imagenet上搜索出特定FLOPs下不错的结构。最后在参数比SimCLRv2少的情况下达到了更好的效果:

训练优化

这里又用了些工程技巧减少占用内存和提升速度。

  1. 减小内存占用,使用了梯度检查点、混合精度这两个策略(这里补课
  2. 提升训练速度,优化了SyncBatchNorm的实现。SyncBatchNorm是Apex框架提供的一个功能,因为在batch很小的时候一个卡上的统计量不准确,这时候就可以借助all-reduce架构(这里补课)把多卡的batch一起统计,提升准确性。而作者觉得每次要等全局同步太耗时,就创建了额外的进程去做,提升了整体吞吐。

优化后在512个V100上训练了8天。

实验结果

精调之后,在相同模型尺寸下,证明了在开放域数据上的预训练确实有效果

不过少样本的情况下还是差些:

但迁移能力确实很好,在Places205数据集上比ImageNet有监督预训练的模型好,说明无监督预训练让模型学到更多通用知识

总结

之前妹子的SwAV好像中了NIPS20,但这篇新文章惊喜不大,去年NLP领域不少论文已经把对比学习用在wiki等数据上了。另外消融实验只尝试了不同的模型尺寸,不清楚训练数据和RegNet分别带来了多大提升。

这次开了增加数据和模型尺寸的先河,我感觉一直致力于用Transformer统治一切的OpenAI马上就要入场了。。。

文末福利

各位猿们,还在为记不住API发愁吗,哈哈哈,最近发现了国外大师整理了一份Python代码速查表和Pycharm快捷键sheet,火爆国外,这里分享给大家。

这个是一份Python代码速查表

下面的宝藏图片是2张(windows && Mac)高清的PyCharm快捷键一览图

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-03-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI派 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 训练数据
  • 模型结构
  • 训练优化
  • 实验结果
  • 总结
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档