刚刚,何恺明等人在arxiv贴出一篇重磅论文,题为《重新思考“ImageNet预训练”》,让似乎本已经平静的ImageNet湖面,再掀波澜!
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/Gavin__Zhou/article/details/80242998
作者:Simon Kornblith、Jonathon Shlens、Quoc V. Le
论文: Is it Enough to Optimize CNN Architectures on ImageNet?
在 CVPR 2017 的 ImageNet Workshop 中,演讲者介绍了挑战赛的结果,回顾了物体识别领域的顶尖成果。同时,也有挑战赛获胜者介绍研究成果在产业中的部署等。在李飞飞与 Deng Jia 的演讲中,两位演讲者对 8 年的 ImageNet 挑战赛进行了回顾与总结,以下是基于 PPT 对演讲内容的介绍:
机器之心报道 参与:机器之心编辑部 2017 年 7 月 18 日,ImageNet 最后一届挑战赛成绩已经公布,多个国内院校和企业在各个比赛项目上取得了非常不错的成绩。据官网信息,在 CVPR 2017 期间也会有一场 Workshop 以纪念 ImageNet 挑战赛。当地时间 7 月 26 日,李飞飞与 Jia Deng 在 ImageNet Workshop 上做主题演讲,对 8 年的 ImageNet 挑战赛历史进行了总结,并宣布之后的 ImageNet 挑战赛将转由 Kaggle 主办。最后,感
谷歌大脑负责人 Jeff Dean 和该论文的作者之一 Quoc Le 今天都在 Twitter 上介绍了这项研究工作,新方法能利用更多的未标注图像数据,并提升最终效果。
ConvNet/ViT、supervised/CLIP模型,在ImageNet之外的指标上如何相互比较?
一直以来,ImageNet 准确率是评估模型性能的主要指标,也是它最初点燃了深度学习革命的火种。但对于今天的计算视觉领域来说,这一指标正变得越来越不「够用」。
ImageNet 上的图像分类模型似乎已经成熟,要达到新的 SOTA 已经非常难。近日,Quoc Le 等提出了一个新的方法,在这一数据集上再次提高了 SOTA 性能一个点。而且这一方法让模型在鲁棒性上也有很大的提升。
所以作者认为在训练设置中,单标签注释和有效的多标签图像之间的不匹配是同样的问题。使用单标签注释,图像的随机裁剪可能包含与真值完全不同的目标,在训练过程中引入噪声甚至不正确的监督。因此,作者用多标签重新标记ImageNet训练集。
使用基于ImageNet预训练(Pre-training)的网络已成为计算机视觉任务中一种常规的操作。何恺明等人在新作Rethinking ImageNet Pre-training中使用详细的对比实验和分析提出了对基于ImageNet预训练的新的思考。研究发现,对于在COCO数据集上的目标检测和实例分割任务,使用随机初始化的参数会收敛的更慢,但最终所达到的结果不比使用在ImageNet上预训练的参数差。
【导读:这篇来自华盛顿大学的论文深入研究了各种对比自监督模型,系统分析了计算机视觉任务的基准问题;算法,数据集和终端任务如何影响模型性能;以及哪种编码器是最好的通用主干网络。】
刚刚拿到加州理工电子工程学博士学位,到伊利诺伊州香槟分校担任教职的李飞飞敏锐的发现了「算法为王」的局限性,开始研究算法的基石:数据集。
作为 AI 领域的知名数据集,ImageNet 曾极大地推动了计算机视觉技术突破。自 ImageNet 论文 2009 年发布以来,它在 Google Scholar 上的引用量高达 26115 次,该论文也获得了 CVPR 2019 的经典论文奖。
摘自:腾讯科技 6月4日,百度公司最近宣称在ImageNet(图像识别最大数据库)的图像识别人工智能基准测试中击败了谷歌(微博)和微软。但是周二,ImageNet宣称百度在测试中存在违规行为,百度已经为自己“误导公众”而道歉。 百度的行为凸显了人工智能领域竞争中存在的高度风险。目前,全球顶级科技公司都在争相研发人工智能技术,包括允许计算机识别图像、控制机器人、理解口语以及执行其他任务等。而积累起巨大计算资源的互联网巨头承受着巨大压力,它们需要竭力维持自己的领先地位,无论是声望还是潜在商业利益方面。 除了百度
一个最近出现的网站“ImageNet Roulette”可以告诉你,但事先警告:现实并不美好,AI对你的评价有时甚至很残酷。
近日,谷歌大脑的创始成员和 AutoML 的缔造者之一Quoc Le再推新研究论文,在题为“对抗性样本改善图像识别”一文中提出一种增强的对抗训练将对抗性样本AdvProp。
ImageNet 数据集的管理者为如今深度学习的进步铺平了道路。现在,他们在保护人们的隐私方面又迈出了一大步:对数据集模糊处理。
ImageNet 是机器学习社区最流行的图像分类基准数据集,包含超过 1400 万张标注图像。该数据集由斯坦福教授李飞飞等人于 2006 年开始创建,后成为评估计算机视觉模型在下游视觉任务中能力的试金石。
【新智元导读】 本论文中,作者研究了如何从数据中直接学习卷积架构,并将这些架构应用到ImageNet的分类任务上。这种架构在ImageNet的 top-1任务上的准确率达到82.3%,top-5 准确率达96.0%。在top-1上,与人类创造的最佳架构相比,准确率提升了0.8%,同时,FLOPS少了90亿。 在计算机视觉的发展历史上,ImageNet中的图像分类任务一直是一个重要的基准。Krizhevsky等人使用卷积架构来参与ImageNet 图像分类代表了深度学习最重要的突破之一。 通过架构工程的调整,
Vision Transformers(Vision transformer, ViT)在图像分类、目标检测和语义分割等视觉应用中得到了具有竞争力得性能。
早在2018年底,FAIR的研究人员就发布了一篇名为《Rethinking ImageNet Pre-training》的论文 ,这篇论文随后发表在ICCV2019。该论文提出了一些关于预训练的非常有趣的结论。
李杉 安妮 编译自 QZ 量子位 报道 | 公众号 QbitAI 2006年,李飞飞开始考虑一个想法。 当时刚刚出任伊利诺伊大学香槟分校计算机教授的她发现,整个学术圈和人工智能行业都在苦心研究同一个概
前面如果已经在Jetson TX2安装好JetPack和Caffe(【入门篇】一个小白在Jetson TX2上安装caffe的踩坑之旅 ),我们接下来可以尝试在Jetson TX2上跑一些深度学习的测试代码。 NVIDIA提供了套教程,教程里包含了开发指南、TensorRT示例代码,甚至包括ImageNet和DetectNet示例在内的预先训练的网络模型,让您能够在Jetson TX1/TX2开发套件上加载并运行预训练的深层神经网络,并学习如何使用自己的数据集重新培训网络用来生产演示(点击阅读原文,观看完整
Google 最新的研究成果 BERT 的热度还没褪去,大家都还在讨论是否 ImageNet 带来的预训练模型之风真的要进入 NLP 领域了。如今,Facebook AI Research 的何恺明、Ross Girshick 及 Piotr Dollar 三位大佬共同完成的最新研究论文 Rethinking ImageNet Pre-training,却引起了大家对 CV 领域预训练必要性的热议。
ImageNet 图像预训练在各种视觉任务中一直都极为常见,我们会假定预训练模型的前面层级能抽取到足够的一般图像信息。因此保留预训练模型前面层级的权重就相当于迁移了一般的图像知识,并可以用于各种下游任务。但是在 ImageNet 上的预训练模型通过千类图像识别任务也只能学习到近似的一般图像知识。所以离千类图像识别任务越近,下游任务迁移的知识就越多。如果离千类图像识别任务非常远,说不定预训练也就起个初始化的作用。
CINIC-10 可以直接替代 CIFAR-10。由于 CIFAR-10 太小(太简单),而 ImageNet 又太大(太难),所以我们将 CINIC-10 编译为基准数据集。虽然 ImageNet32 和 ImageNet 64 比 ImageNet 小,但是它们却更难。CINIC-10 填补了基准数据集的这一空隙。
其实很多的时候都是英文标注的,但是我相信国内的AI领域的博主多了之后就会出现纯中文的备注方案。
这篇文章是何恺明组做的一个偏实验的工作,主要是探究ImageNet预训练的模型,在迁移到其他任务比如目标检测,分割等会不会比从头训练模型的要更好。可以总结一下就是
近日,清华大学崔鹏团队在CVPR 2022上发表了一篇工作,针对传统域泛化 (DG) 问题需要大量有标签数据的问题,提出了无监督域泛化 (UDG) 问题,旨在通过利用无标签数据进行预训练提升模型在未知域上的泛化能力,并为 UDG 提出了 DARLING 算法。该算法仅使用ImageNet 数据量 1/10 的无标签数据进行预训练即可在DomainNet上超过ImageNet预训练的效果。 1 DG简介&现有DG的问题 目前深度学习在很多研究领域特别是计算机视觉领域取得了前所未有的进展,而大部分深度学习算法假
---- 新智元报道 编辑:LRS 【新智元导读】ImageNet的标签问题一直为人诟病,最近Google Brain全面分析了基准内遗留的历史问题,并找出了所有顶级模型全都预测失败的68张图片,或许未来CV想取得突破,先得攻破这68关! 过去的十年里,ImageNet基本就是计算机视觉领域的「晴雨表」,看准确率有没有提升,就知道有没有新技术问世。 「刷榜」一直是模型创新的原动力,把模型Top-1准确率推动到90%+,比人类还高。 但ImageNet数据集是否真的像我们想象中的那么有用? 很多论
选自arXiv 作者:Ben Sorscher等 机器之心编译 编辑:蛋酱 Scale is all you need?No. 在视觉、语言和语音在内的机器学习诸多领域中,神经标度律表明,测试误差通常随着训练数据、模型大小或计算数量而下降。这种成比例提升已经推动深度学习实现了实质性的性能增长。然而,这些仅通过缩放实现的提升在计算和能源方面带来了相当高的成本。 这种成比例的缩放是不可持续的。例如,想要误差从 3% 下降到 2% 需要的数据、计算或能量会指数级增长。此前的一些研究表明,在大型 Transform
通过使用优化的数据增强方法,在CIFAR-10、CIFAR-100、SVHN和ImageNet上得到了目前最好的结果。您可以从这里找到和使用它们。
---- 点击上方↑↑↑“OpenCV学堂”关注我来源:公众号 新智元 授权 【导读】ImageNet的标签问题一直为人诟病,最近Google Brain全面分析了基准内遗留的历史问题,并找出了所有顶级模型全都预测失败的68张图片,或许未来CV想取得突破,先得攻破这68关! 过去的十年里,ImageNet基本就是计算机视觉领域的「晴雨表」,看准确率有没有提升,就知道有没有新技术问世。 「刷榜」一直是模型创新的原动力,把模型Top-1准确率推动到90%+,比人类还高。 但ImageNet数据集是否真的像我
长期以来,词向量一直是自然语言处理的核心表征技术。然而,其统治地位正在被一系列令人振奋的新挑战所动摇,如:ELMo、ULMFiT 及 OpenAI transformer。这些方法因证明预训练的语言模型可以在一大批 NLP 任务中达到当前最优水平而吸引了很多目光。这些方法预示着一个分水岭:它们在 NLP 中拥有的影响,可能和预训练的 ImageNet 模型在计算机视觉中的作用一样广泛。
三位从Mask R-CNN就开始合作的大神搭档,刚刚再次联手,一文“终结”了ImageNet预训练时代。
本文介绍了如何使用深度学习模型进行图像分类,并探讨了在训练和评估模型时出现的问题及解决方案。
三十多年来,许多研究人员在图像识别算法和图像数据方面积累了丰富的知识。如果你对图像训练感兴趣但不知道从哪里开始,这篇文章会是一个很好的开始。这篇文章简要介绍了过去的演变,并总结了现在的一些热门话题。
选自arXiv 作者:AXEL SAUER 机器之心编译 编辑:蛋酱 StyleGAN-XL 首次在 ImageNet 上实现了 1024^2 分辨率图像合成。 近年来,计算机图形学领域的研究者一直致力于生成高分辨率的仿真图像,并经历了一波以数据为中心的真实可控内容创作浪潮。其中英伟达的 StyleGAN 在图像质量和可控性方面为生成模型树立了新的标杆。 但是,当用 ImageNet 这样的大型非结构化数据集进行训练时,StyleGAN 还不能取得令人满意的结果。另一个存在的问题是,当需要更大的模型时,或扩
安妮 编译自 Google Research Blog 量子位 出品 | 公众号 QbitAI AutoML对开发者来说不是个陌生词汇了。 半年前Google I/O开发者大会上,谷歌推出能自动设计机
晓查 发自 凹非寺 量子位 报道 | 公众号 QbitAI 315晚会让大家意识到人脸识别有多可怕。在大洋彼岸,全球最具影响力的AI数据集也开始行动了。 近日,ImageNet数据集决定:给所有人脸打码,保护被收录者隐私。 ImageNet管理者之一Olga Russakovsky与李飞飞团队合作,一起“纠察”数据集中所有包含人脸的图像。 ImageNet总共有1000多个标签,其中只有3个标签与人相关,而很多看似与人脸无关的标签下,反而可能有大量人脸照片。 因此,研究团队通过亚马逊Rekognitio
【新智元导读】此前,伯克利、TACC和UC戴维斯的研究人员使用新算法,在24分钟内训练完AlexNet,1小时训练完ResNet,创下了纪录。现在,他们继续推进,使用1024个CPU,在11分钟内训练
选自UC Berkeley 机器之心编译 参与:李泽南、蒋思源 今年 6 月,Facebook 实现 1 小时训练 ImageNet 的成绩之后,通过增加批量大小以加快并行训练速度的方式引发了人们的关注。最近 UC Berkeley 的研究人员们为我们展示了 24 分钟训练 ImageNet 的成绩,他们将批量大小增加到了 32k。研究人员表示,在同样成绩下,新的方法使用的计算设备成本(120 万美元)大大低于 Facebook(410 万美元)。 对于深度学习应用而言,模型、数据集越大,结果就越精确,但同
点击上方↑↑↑“OpenCV学堂”关注我来源:公众号 机器之心 授权 StyleGAN-XL 首次在 ImageNet 上实现了 1024^2 分辨率图像合成。 近年来,计算机图形学领域的研究者一直致力于生成高分辨率的仿真图像,并经历了一波以数据为中心的真实可控内容创作浪潮。其中英伟达的 StyleGAN 在图像质量和可控性方面为生成模型树立了新的标杆。 但是,当用 ImageNet 这样的大型非结构化数据集进行训练时,StyleGAN 还不能取得令人满意的结果。另一个存在的问题是,当需要更大的模型时,或
这个叫Noisy Student的新模型,将ImageNet图像分类的top-1准确率提高到了87.4%,比此前最好的FixResNetXt-101 32×48d高出了1个百分点。
github地址:https://github.com/naver-ai/relabel_imagenet
领取专属 10元无门槛券
手把手带您无忧上云