CVPR 2018摘要:第二部分

本文为 AI 研习社编译的技术博客,原标题 : NeuroNuggets: CVPR 2018 in Review, Part II 作者 | Sergey Nikolenko、Aleksey Artamonov 翻译 | 老赵 校对 | 酱番梨 整理 | 菠萝妹 原文链接: https://medium.com/neuromation-io-blog/neuronuggets-cvpr-2018-in-review-part-ii-4759fd95f65c 注:本文的相关链接请点击文末【阅读原文】进行访问

NeuroNuggets:CVPR 2018年回顾,第二部分

今天,我们继续推出最近的CVPR(计算机视觉和模式识别)会议系列,这是世界上计算机视觉的顶级会议。 Neuromation成功参加了DeepGlobe研讨会,现在我们正在看主会议的论文。 在我们的CVPR回顾的第一部分,我们简要回顾了有关计算机视觉的生成对抗网络(GAN)的最有趣的论文。 这一次,我们深入研究了将计算机视觉应用于我们人类的工作:跟踪视频中的人体和其他物体,估计姿势甚至是完整的3D体形,等等。 同样,论文没有特别的顺序,我们的评论非常简短,所以我们绝对建议完整阅读论文。

人物:人物识别,跟踪和姿势估计

人类非常擅长识别和识别其他人类,而不是识别其他物体。特别是,大脑的一个特殊部分,称为梭状回,被认为含有负责面部识别的神经元,并且这些神经元被认为与识别其他事物的神经元有所不同。这就是那些关于颠倒的面孔(撒切尔效应)的幻想来自的地方,甚至还有一种特殊的认知障碍,即失语症,一个人失去了识别人类面孔的能力......但仍然很好地识别桌子,椅子,猫或英文字母。当然,这并不是很清楚,并且可能没有特定的“个体面部神经元”,但面部肯定是不同的。人类一般(它们的形状,轮廓,身体部位)在我们的心灵和大脑中也有一个非常特殊的位置:我们大脑的“基本形状”可能包括三角形,圆形,矩形......和人体轮廓。

人类认知是人类的核心问题,因此它一直是计算机视觉。 早在2014年(很久以前在深度学习中),Facebook声称在人脸识别方面达到了超人的表现,而且不管当代的批评现在我们基本上可以认为人脸识别确实很好地解决了。 但是,仍然有许多任务; 例如,我们已经发布了关于年龄和性别估计以及人类姿势估计的文章。 在CVPR 2018上,大多数与人类相关的论文要么是关于在3D中寻找姿势,要么是关于在视频流中跟踪人类,这正是我们今天所关注的。 为了更好地衡量,我们还回顾了一些关于物体跟踪的论文,这些论文与人类没有直接关系(但人类肯定是最有趣的科目之一)。

检测和跟踪:具有姿态估计的两步跟踪

R. Girdhar等人,“检测与跟踪:视频中的高效姿态估计”

我们已经利用Mask R-CNN实现分割,这是2017年出现的最有前途的分割方法之一。去年,基本的Mask R-CNN的几个扩展和修改出现了,卡内基梅隆的合作, Facebook和Dartmouth提出了另一个:作者提出了一个3D Mask R-CNN架构,该架构使用时空卷积来提取特征并直接识别短片上的姿势。 然后他们继续展示以3D Mask R-CNN作为第一步的两步算法(以及将关键点预测作为第二步链接的二分匹配)击败姿势估计和人类跟踪中的现有技术方法。 以下是3D Mask R-CNN架构,肯定会在未来找到更多应用:

用于人员重新识别的敏感姿态嵌入

M. Saquib Sarfraz等人,利用扩充的领域重分级敏感姿态嵌入的人员重识别

人员重新识别是计算机视觉中的一个具有挑战性的问题:如上所示,摄像机视图和姿势的变化可能使两张图片完全不同(尽管我们人类仍然立即发现这是同一个人)。 该问题通常通过基于检索的方法来解决,该方法导出查询图像与来自某个嵌入空间的存储图像之间的邻近度量。 德国研究人员的这项工作提出了一种将姿势信息直接纳入嵌入的新方法,从而改善了重新识别结果。 这是一个简短的概述图,但我们建议你完整阅读本文,以了解如何将姿势添加到嵌入中:

单张图像的3D姿势:从2D姿势和2D轮廓构造3D网格

G. Pavlakos等人,从单一彩色图像学习估计3D人体姿势和形状

姿态估计是一个众所周知的问题; 我们之前已经写过这篇文章并在本文中已经提到过。 然而,制作完整的3D人体形状是另一回事。 这项工作提出了一个非常有希望和非常令人惊讶的结果:它们直接通过端到端卷积结构生成人体的3D网格,该结构结合了姿势估计,人体轮廓分割和网格生成(见上图)。 这里的关键见解是基于使用SMPL,一种统计的身体形状模型,为人体形状提供了良好的先验。 因此,这种方法设法从单一彩色图像构建人体的3D网格。以下是一些说明性结果,包括标准UP-3D数据集中的一些非常具有挑战性的案例:

FlowTrack:关注视频并关注相关跟踪

Z. Zhu等,具有时空注意力的端到端流动相关跟踪

判别相关滤波器(DCF)是用于对象跟踪的现有技术学习技术。 我们的想法是学习一个过滤器 - 即图像窗口的转换,通常只是一个卷积 - 它对应于你想要跟踪的对象,然后将其应用于视频中的所有帧。 正如经常发生在神经网络中一样,DCF远非一个新的想法,可追溯到1980年的一篇开创性论文,但它们几乎被遗忘到2010年; MOSSE跟踪器开始复兴,现在DCF风靡一时。 然而,经典DCF不利用实际视频流并分别处理每个帧。 在这项工作中,中国研究人员提出了一种建筑,其中涉及能够跨越不同时间框架参与的时空关注机制; 他们报告了大大改善的结果。以下是他们模型的一般流程:

回到经典:相关跟踪

C.Suni等人,通过联合歧视和可靠性学习进行相关跟踪

与前一篇文章一样,本文致力于跟踪视频中的对象(目前这是一个非常热门的话题),就像前一篇一样,它使用相关过滤器进行跟踪。 但是,与前一个形成鲜明对比的是,本文并没有使用深度神经网络。这里的基本思想是在模型中明确地包括可靠性信息,即,向目标函数添加一个术语,该目标函数模拟学习过滤器的可靠性。 作者报告显着改进了跟踪,并显示了经常看起来非常合理的学习可靠性图:

这就是所有的文章,朋友们。

感谢您的关注。下次加入我们 - 来自CVPR 2018的更多有趣的论文......而且,就像偷看一样,ICLR 2019截止日期已经过去,其提交的论文已经上线,虽然我们不知道哪些可以接受更多 几个月我们已经在看他们了。

Sergey Nikolenko Chief Research Officer, Neuromation

Aleksey Artamonov Senior Researcher, Neuromation

原文发布于微信公众号 - AI研习社(okweiwu)

原文发表时间:2018-11-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏企鹅号快讯

深度学习的核心工作流程之一:如何训练数据!

-免费加入AI技术专家社群>> 今天我们将讨论深度学习中最核心的问题之一:训练数据。深度学习已经在现实世界得到了广泛运用,例如:无人驾驶汽车,收据识别,道路缺陷...

2695
来自专栏新智元

Facebook宣布机器翻译全面采用神经网络,现每日处理45亿次翻译

【新智元导读】Facebook 今天宣布,从使用基于短语的机器翻译模型改为使用神经网络系统来处理其社交网络后端每天的翻译请求,每天翻译超过 45 亿次。与基于短...

3558
来自专栏新智元

【AI计算的新摩尔定律】3.5个月翻一倍,6年增长30万倍

2395
来自专栏人工智能头条

需要密切关注的六大人工智能/机器学习领域

1983
来自专栏深度学习自然语言处理

计算机视觉如何入门

目前,人工智能,机器学习,深度学习,计算机视觉等已经成为新时代的风向标。这篇文章主要介绍了下面几点: 第一点,如果说你要入门计算机视觉,需要了解哪一些基础知识...

1932
来自专栏量子位

快试试这个:一张自拍生成3D人脸!(Demo+Code+Paper)

问耕 编译整理 量子位 出品 | 公众号 QbitAI 讲真,你得试试这个,很好玩。 来自诺丁汉大学和金斯顿大学的一队AI专家,最近发了一个新的研究成果:使用机...

4175
来自专栏AI科技评论

谷歌大脑撰文解析 AutoML:神经网络如何自行设计神经架构? | Google I/O 2017

在 Google I/O 大会上,谷歌公布了最新的机器学习算法——AutoML,随即,Quoc Le 与 Barret Aoph 大神在 Google Rese...

35510
来自专栏大数据文摘

由深度神经网络想到的人生意义和哲理

1503
来自专栏新智元

一文读懂量子机器学习:量子算法基石已经奠定

【新智元导读】在计算能力增加和算法进步的推动下,机器学习技术已成为从数据中寻找模式的强大工具。量子系统能生产出一些非典型(atypical)模式,而一般认为经典...

3346
来自专栏机器之心

学界 | Facebook「1小时训练ImageNet」论文与MXNet团队发生争议,相关研究介绍

机器之心报道 机器之心编辑部 近日,Facebook 公布了一篇研究论文《Accurate, Large Minibatch SGD: Training Ima...

4047

扫码关注云+社区

领取腾讯云代金券