学界 | 清华等机构提出基于内部一致性的行人检索方法,实现当前最优

选自arXiv

作者:Yifan Sun等

机器之心编译

参与:刘晓坤、路

利用部分级特征进行行人图像描述提供了细粒度的信息,已在近期文献中被证明对于人物检索很有用。相对于外部线索方法,清华大学、悉尼大学和德克萨斯大学的研究者采用内部一致性假设,提出新的基线网络和精炼部分池化方法,实现了更好的人物检索性能,并超越了当前最佳结果。

行人检索又叫行人重识别(person re-identification,re-ID),即基于给定行人,从大型数据库中检索特定相关人行道的图像。目前,深度学习方法主导该领域,性能超过人工检索者 [40]。深度学习得到的表征提供高度判断力,尤其是该表征是从深度学习得到的部分特征聚合而来时。在 re-ID 基准上最新的当前最优性能是使用 part-informed 深层特征获得的 [35, 27, 37]。

图 1:多个行人检索深度部分模型的分区策略。(a)到(e):GLAD [31]、PDC [27]、DPL [35]、Hydra-plus [22] 和 PAR [37] 的分区部分,分别截选自对应论文。(f):本论文提出的方法使用了一种统一的分区方式,然后对每个条状框进行精炼。PAR [37] 和本论文的方法都实施了「软」分区,但是二者有很大区别。

学习判别性部分特征的先决条件是对这些部分进行准确定位。近期的 SOTA 方法的分区策略有所不同,可以分为两大类。第一类 [38, 27, 31] 利用外部线索,如利用人体姿势估计最近进展的帮助 [23, 32, 15, 25, 2]。它们依赖于外部人体姿势估计数据集和复杂的姿势估计器。姿势估计和行人检索之间的底层数据集偏差是对行人图像进行完美语义分区的一大障碍。另一类 [35, 37, 22] 不使用语义部分的线索。它们不需要进行部分标注,但其准确率与第一类相差无几。部分分区策略已在图 1 中列出。与学习部分级深度特征的进步相反,本论文研究者重新思考构成良好对齐的部分的机制。语义分区或许能够提供良好对齐的稳定线索,但是可能出现噪声姿势检测。本论文从另一个角度出发,把每一部分的一致性作为重点,研究者认为这是空间对齐的关键因素。然后,本研究的目标是,给定一些粗糙分区的部分,精炼并强化部分内部的一致性。具体来说,本论文做出了以下贡献:

首先我们提出了一个名为基于部分的卷积基线(PCB)网络,它在卷积层上进行统一的分区,并借此学习部分级的特征。但这种方法并不会明确对图像进行分区,PCB 输入整张图像并输出卷积特征。作为分类网络,PCB 的架构是非常简洁的,在只是在主干网络上做一点修改。训练过程同样也是非常标准的,不需要过多花俏的技巧。研究者表示卷积描述器比常用的全连接(FC)描述器有更高的判别能力。在 Market-1501 数据集中,网络性能从 85.3% 的 rank-1 准确率和 68.5% 的 mAP 提升到 92.3% (+7.0%) 的 rank-1 准确率和 77.4% (+8.9%) 的 mAP,超过了很多当前最优方法。

其次,研究者提出一种适应性池化方法来精炼统一的分区。他们考虑到每个部位的信息应该是一致的,但观察到在同一划分下,每个部分都存在异常值。这些异常值实际上可能更接近于其它部分的信息,它们也就表明了内部的不一致性。因此,研究者通过重新定位这些异常值到最相近的分区部分而精炼了统一分区,这样就能加强内部一致性了。图 1(f)展示了经过精炼后的部分的示例。通过本文提出的精炼部分池化(RPP),模型在 Market-1501 上的表现进一步提升到了 93.8% (+1.5%) 的 rank-1 准确率和 81.6% (+4.2%) 的 mAP。

研究者结合这两种方法,在人物检索上实现了新的当前最优水平。重要的是,实验证明,精炼部分要优于注意部分,即通过注意力机制学习到的部分。

图 2:PCB 的结构。输入图像从主干网络到形成 3D 张量的前向传播中通过堆叠的卷积层。PCB 用卷积池化层取代了原来的全局池化层,以在空间上将 T 下采样为 p 个列向量 g。一个随后的 1x1 核大小的卷积层减少了 g 的维度。最后,每个维度减少的列向量 h 被分别输入一个分类器。每个分类器用一个全连接层和一个序列 softmax 层实现。在训练过程中,每个分类器预测输入图像的身份,并由交叉熵损失所监督。在测试过程中,g 或 h 的 p 个部分被拼接以构成输入图像的最终描述子。

图 3:部分的内部不一致性的可视化。图左:T 在训练过程中被平等地分为 p=6 个水平条(部分)。图右:T 中的每个列向量用一个小矩形表示,并以和它最接近部分的颜色着色。

图 4:PCB 结合精炼部分池化方法。由于这里仅关心空间分区,3D 张量 T 简单地由一个矩形而不是方块表示。在 T 之前的曾被忽略,因为它们和图 2 中的相比没有变化。一个部分分类器预测每个列向量属于 p 部分的概率。然后每个部分从所有列向量中按对应概率(作为采样权重采样)。GAP 表示全局平均池化。

论文:Beyond Part Models: Person Retrieval with Refined Part Pooling (and A Strong Convolutional Baseline)

论文链接:https://arxiv.org/pdf/1711.09349.pdf

摘要:利用部分级特征进行行人图像描述提供了细粒度的信息,已在近期文献中被证明对于人物检索很有用。基于部分检索的先决条件是每个部分都需要良好定位。本文没有使用外部线索(例如姿态估计)来直接定位部分,而是假设每个部分存在内容一致性。具体来说,我们的目标是学习判别性的 part-informed 的特征用于人物检索,并作出了两项贡献。(i)提出了一种称为基于部分的卷积基线网络(PCB)。给定一幅图像输入,它输出输出一个有多个部分级特征构成的卷积描述子。利用统一的分区策略,PCB 相比当前最佳方法达到了更有竞争力的性能,使其能作为人物检索的强大卷积基线。(ii)提出了一种精炼的部分池化(RPP)方法。统一的分区不可避免地会在每个部分导致异常值,这些异常值在实际上和其它部分更相似。RPP 重新分配这些异常值到它们最接近的部分中,得到增强部分内部一致性的精炼部分。实验表明 RPP 允许 PCB 获得另一轮性能提升。例如,在 Market-1501 数据集中,我们达到了(77.4+4.2)%mAP 和(92.3+1.5)% 的 rank-1 准确率,远远超越了当前最佳方法。

本文为机器之心编译,转载请联系本公众号获得授权。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2018-06-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏专知

【干货】​在Python中构建可部署的ML分类器

【导读】本文是机器学习爱好者 Sambit Mahapatra 撰写的一篇技术博文,利用Python设计一个二分类器,详细讨论了模型中的三个主要过程:处理不平衡...

400110
来自专栏机器之心

学界 | Ian Goodfellow等人提出对抗重编程,让神经网络执行其他任务

作者:Gamaleldin F. Elsayed、Ian Goodfellow、Jascha Sohl-Dickstein

14030
来自专栏杨熹的专栏

用 TensorFlow 创建自己的 Speech Recognizer

参考资料 源码请点:https://github.com/llSourcell/tensorf... ---- 语音识别无处不在,siri,google,讯飞...

33050
来自专栏大数据文摘

深度 | 你的神经网络不work? 这37个原因总有一款适合你!

15030
来自专栏IT技术精选文摘

机器学习在启动耗时测试中的应用及模型调优(一)

启动耗时自动化方案在关键帧识别时,常规的图像对比准确率很低。本文详细介绍了采用scikit-learn图片分类算法在启动耗时应用下的模型调优过程。在之后的续篇中...

18640
来自专栏机器之心

ACL 2018 | 神经语言模型如何利用上下文信息:长距离上下文的词序并不重要

25950
来自专栏量子位

无需在数据集上学习和预训练,这种图像修复新方法效果惊人 | 论文

林鳞 编译自 Github 量子位 出品 | 公众号 QbitAI Reddit上又炸了,原因是一个无需在数据集上学习和预训练就可以超分辨率、修补和去噪的方法:...

30790
来自专栏机器之心

资源 | 用PyTorch搞定GluonCV预训练模型,这个计算机视觉库真的很好用

项目地址:https://github.com/zhanghang1989/gluoncv-torch

16250
来自专栏AI科技评论

内部分享:这篇文章教你如何用神经网络破Flappy Bird记录

AI科技评论按:本文作者杨浩,原文载于作者个人博客。 以下内容来源于一次部门内部的分享,主要针对 AI 初学者,介绍包括 CNN、Deep Q Network...

40270
来自专栏数据派THU

教你在Python中构建物体检测系统(附代码、学习资料)

本文介绍物体检测技术以及解决此领域问题的几种不同方法,带你深入研究在Python中如何构建我们自己的对象检测系统。

30230

扫码关注云+社区

领取腾讯云代金券