前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >最新的计算机视觉趋势来自CVPR 2019

最新的计算机视觉趋势来自CVPR 2019

作者头像
代码医生工作室
发布2019-08-15 18:03:17
8710
发布2019-08-15 18:03:17
举报
文章被收录于专栏:相约机器人

作者 | Priya Dwivedi

来源 | Medium

编辑 | 代码医生团队

CVPR引领计算机视觉领域的顶尖人才,每年都有很多非常令人印象深刻的论文。对CVPR中的论文进行了分析,以了解研究的主要领域和纸质标题中的常用关键词。这可以表明研究的进展。

基础数据和代码可以在Github上找到。

https://github.com/priya-dwivedi/Deep-Learning/blob/master/cvpr2019/CVPR2019_stats.ipynb

CVPR为每篇论文指定一个主要学科领域。按主题领域划分的被接受论文如下:

毫不奇怪,大多数研究都集中在深度学习,检测和分类以及面部/手势/姿势。这种细分非常通用,并没有真正给出好的见解。接下来从论文中提取了所有单词并使用计数器来计算它们的频率。前25个最常见的关键字如下:

现在这更有趣了。最受欢迎的研究领域是检测,分割,3D和对抗性训练。它还表明了无监督学习方法的研究越来越多。

最后,还绘制了词云。

可以使用Github按主题提取热门论文,如下所示

https://github.com/priya-dwivedi/Deep-Learning/blob/master/cvpr2019/CVPR2019_stats.ipynb

接下来在博客中,从研究的关键领域中选择了5篇有趣的论文。

1.通过观察冰冻人物来学习移动人的深度

https://arxiv.org/abs/1904.11111

人类视觉系统具有非凡的能力,可以从2D投影中理解我们的3D世界。即使在具有多个移动物体的复杂环境中,人们也能够对物体的几何形状和深度排序保持可行的解释。在过去几年中,使用相机图像进行了深度估计的大量工作,但在许多情况下仍然难以进行稳健的重建。当摄像机和场景中的物体都自由移动时,会出现特别具有挑战性的情况。这混淆了基于三角测量的传统3D重建算法。

本文通过在摄像机和主体自由移动的场景上构建深度学习模型来解决这个问题。见下面的gif:

为了创建这样的模型,需要通过移动相机捕获的自然场景的视频序列以及每个图像的精确深度图。创建这样的数据集将是一项挑战。为了克服这个问题,本文非常创新地使用了一个现有的数据集 - 人们通过冻结各种自然姿势来模仿人体模型的YouTube视频,而手持相机则可以在现场观看。因为场景是静止的并且只有相机在移动,所以可以使用三角测量技术来构建精确的深度图。本文是一篇非常有趣的读物。它解决了一个复杂的问题,并且在为其创建数据集方面非常有创意。

在移动摄像机和人物的互联网视频剪辑上训练模型的性能比以往任何其他研究都要好得多。见下文:

通过论文进行模型比较

2.BubbleNets:学习通过深度排序帧选择视频对象分割中的指导框架

https://arxiv.org/abs/1903.11779

看过几篇关于视频对象分割(VOS)的论文。这是在视频中分割对象的任务,在第一帧中提供单个注释。这在视频理解中得到应用,并且在过去的一年中已经看到了大量的研究。

视频中对象的位置和外观可以在帧与帧之间发生显着变化,并且本文发现使用不同的帧进行注释会显着改变性能,如下所示。

Bubblenets视频演示

BubbleNets迭代地比较和交换相邻视频帧,直到具有最大预测性能的帧排名最高,此时选择它供用户注释并用于视频对象分割。

BubbleNet第一帧选择

源代码在Github上开源。

https://github.com/griffbr/BubbleNets

BubbleNets模型用于预测两个帧之间的相对性能差异。通过区域相似性和轮廓精度的组合来测量相对性能。

它需要输入2帧进行比较和3个参考帧。然后它通过ResNet50和完全连接的层传递它们以输出表示2帧比较的单个数字f。要执行冒泡排序,从前2帧开始并比较它们。如果BubbleNet预测帧1具有比帧2更好的性能,则交换帧的顺序,并且将下一帧与迄今为止的最佳帧进行比较。在处理整个视频序列结束时,最佳帧仍然存在。下图显示了BubbleNets架构和冒泡排序流程。

总的来说,作者表明,改变选择注释框架的方式而不改变底层分割算法会导致DAVIS基准数据集的执行增加11%。

Bubblenets架构

3.单个RGB图像的3D手形和姿态估计

https://arxiv.org/pdf/1903.00812.pdf

3D手形和姿势估计最近一直是一个非常活跃的研究领域。这适用于VR和机器人技术。本文使用单眼RGB图像在手周围创建3D手姿势和3D网格,如下所示。

从单个图像的3D手网

本文使用Graph CNNs重建手的完整3D网格。这里是对图CNN主题的一个很好的介绍。为了训练网络,作者创建了一个包含地面真实3D网格和3D姿势的大型合成数据集。手动注释真实世界的RGB图像上的3D手网格是非常费力和耗时的。然而,由于它们之间的区域差异,在合成数据集上训练的模型通常对真实世界数据集产生不令人满意的估计结果。为了解决这个问题,作者提出了一种新的弱监督方法,利用深度图作为3D网格生成的弱监督,因为在收集真实世界的训练数据时,RGB-D摄像机可以很容易地捕获深度图。本文详细介绍了数据集,训练流程等。如果这是您感兴趣的领域,请仔细阅读。

https://tkipf.github.io/graph-convolutional-networks/

一个有趣的学习是用于网格生成的Graph CNN的体系结构。该网络的输入是来自RGB图像的潜在矢量。它通过2个完全连接的层以粗略图形输出80x64特征。然后,它通过层次上采样和图形CNN来输出更丰富的细节,最终输出1280个顶点。

3D手网模型建筑学

4.推理-RCNN:将自适应全局推理统一为大规模目标检测

http://openaccess.thecvf.com/content_CVPR_2019/papers/Xu_Reasoning-RCNN_Unifying_Adaptive_Global_Reasoning_Into_Large-Scale_Object_Detection_CVPR_2019_paper.pdf

推理RCNN输出

对象检测已经在许多常见的计算机视觉应用中获得了很多普及。更快的RCNN是经常使用的流行的对象检测模型。然而当检测类的数量很少 - 小于100时,对象检测是最成功的。本文解决了数千个类别的大规模对象检测问题,由于长尾数据分布,严重遮挡和类别,这带来了严峻的挑战。歧义。

推理-RCNN通过构建编码常见人类感知知识的知识图来实现这一点。什么是知识图?知识图对对象之间的信息进行编码,例如空间关系(on,near),subject-verb-object(例如Drive,run)关系以及属性相似度,如颜色,大小,材质。如下所示,彼此视觉关系的类别彼此更接近。

知识图

在体系结构方面,它在标准对象检测器(如Faster RCNN)之上堆叠了一个Reasoning框架。收集先前分类器的权重以生成所有类别的全局语义池,其被馈送到自适应全局推理模块中。增强的类别上下文(即,推理模块的输出)通过软映射机制映射回区域提议。最后,每个区域的增强功能用于以端到端的方式提高分类和本地化的性能。下图显示了模型架构。

该模型在3个主要数据集上进行训练和评估--Visual Gnome(3000个类别),ADE(445个类别)和COCO(80个类别)。该模型能够在Visual Gnome上获得16%的提升,在ADE上获得37 %的提升,在mAP评分上获得15%的COCO提升。

训练代码将在下边链接开源。

https://github.com/chanyn/Reasoning-RCNN

5.零镜头防欺骗的深度学习

http://arxiv.org/abs/1904.02860

在过去几年中,面部检测已经取得了很多进展,现在面部检测和识别系统常用于许多应用中。实际上,可以构建一个系统来检测面部,识别它们并通过8行代码理解它们的情感。

然而,还存在持续欺骗面部检测以获取非法访问的风险。面部防欺骗旨在防止面部识别系统将假面部识别为真正的用户。虽然开发了先进的面部反欺骗方法,但也正在创建新类型的欺骗攻击并且对所有现有系统构成威胁。本文介绍了将未知恶搞攻击作为零镜头反欺骗(ZSFA)进行检测的概念。以前的ZSFA只能研究1-2种类型的恶搞攻击,例如打印/重放,这限制了这个问题的洞察力。这项工作调查了13种类型的恶搞攻击中的ZSFA问题,包括打印,重放,3D掩码等。下图显示了不同类型的欺骗攻击。

面部欺骗可以包括各种形式,如打印(打印面部照片),重放视频,3D面具,面部照片,眼睛镂空,化妆,透明面具等。本文建议使用深树网络来学习欺骗的语义嵌入无人监管的图片。嵌入在这里可以模拟人类凝视之类的东西。它创建了一个欺骗图像数据集来学习这些嵌入。在测试期间,未知攻击被投射到嵌入以找到最接近欺骗检测的属性。

该论文能够创建嵌入式,将现场面(真面)与各种类型的恶搞分开。请参见下面的t-SNE图

这篇论文太棒了。解决实际问题的有希望的研究。

结论

看到计算机视觉领域的所有最新研究,真是令人着迷。这里分享的5篇论文只是冰山一角。希望用Github整理论文并选择感兴趣的论文。

参考文献:

  • CVPR(http://cvpr2019.thecvf.com/)
  • 博客中使用的图像来自论文

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-08-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 相约机器人 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图像处理
图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档