【首次超越人类】旷视行人再识别(ReID)突破,人脸识别后创新纪录

编辑:闻菲

【新智元导读】行人再识别(ReID)是近年来计算机视觉的一个研究重点,给定一个监控行人图像,跨设备检索该行人的图像。由于不同摄像设备之间存在差异,行人外观易受穿着、尺度、遮挡、姿态和视角等影响,行人再识别是一个既具研究价值同时又极富挑战性的课题。日前,旷视科技Face++的研究团队,让机器在行人再识别(ReID)上首次超越人类,创下了行业纪录。

旷视科技首席科学家、研究院院长孙剑表示:“我非常高兴看到又一个非常难且有巨大应用价值的图像感知问题,被旷视科技团队的算法超越了人类性能。”研究人员表示,这为目前机器代替人类处理大量以人为中心的图像或视频理解问题带来了更强大的技术。

近年来,人脸识别技术的成熟使得机器在辨别人脸的能力上大举超过人类,在构建“智慧城市”、“平安城市”等方面也得到了广泛应用。然而在实际应用的场景中,摄像头并非在任何情况下都可以拍摄到清晰人脸。不仅如此,在实际的场景中,一个摄像头往往无法覆盖所有区域,而多摄像头之间一般也没有重叠。

因此,用全身信息来对人员进行锁定和查找就变得十分必要——通过将整体行人特征作为人脸之外的重要补充,实现对行人的跨摄像头跟踪。于是,计算机视觉领域开始逐渐展开针对“行人再识别”技术的研究工作。

行人再识别:实际意义重大,目前仍依赖大量人力投入

行人再识别(Person Re-Identification,简称 ReID),从字面意思理解就是对行人进行重新识别,是对不同的、没有视野重叠覆盖的(non-overlapping)摄像机拍摄的行人图像建立对应关系的处理过程。当摄像头拍摄范围之间不存在重叠时,由于没有了连续信息,检索难度也随之增大非常多。因此,行人再识别强调的是在跨摄像机的视频中对特定行人进行检索。

行人再识别:将图像中某个行人的特征与其他图像中行人特征进行对比,判断是否属于同一个人,相比行人检测难度更大。

如果说行人检测是要机器判定图像中是否存在行人,那么行人再识别就是要机器识别出不同摄像机拍摄的特定人员的所有图像。具体说,就是给定某人的一张图片(query image),从多张图片(gallery images)中找到属于他/她的那一张或多张,是通过行人整体特征实现的人员比对技术。

行人再识别(ReID)在公共安防的刑侦工作中以及图像检索等场景中有很高的应用价值。除此之外,ReID还可以帮助手机用户实现相册聚类、帮助零售或商超经营者获取有效的顾客轨迹、挖掘商业价值。然而,受限于行业水平,目前行人再识别的精准度并不高,很多工作仍依赖于大量人力的投入。

打破行人再识别行业纪录,首次超越人类专家

由于图像拍摄的时间、地点随机,且光线、角度、姿态不同,再加上行人容易受到检测精度、遮挡等因素的影响,ReID 的研究工作非常具有挑战性。

近年来受益于深度学习的发展,ReID 技术水平也得到了很大提升,在两个最为常用的ReID测试集Market1501和CUHK03上,首位命中率分别达到了89.9%和91.8%。不过,这个结果与人相比还是有一定的差距。实验表明,一个熟练的标注员在Market1501和CUHK03上的首位命中率分别可以达到93.5%和95.7%。

为了测试人类的ReID能力,研究者组织了10名专业的标注人员来进行测验。结果表明,一个熟练的标注员在Market1501和CUHK03上的首位命中率分别可以达到93.5%和95.7%。这个是现有的ReID方法无法企及的。

但不久前,旷视科技Face++在此项研究中取得了令人兴奋的进展:在旷视研究院团队发表的文章AlignedReID[1]中,作者提出了一种新方法,通过动态对准(Dynamic Alignment)和协同学习(Mutual Learning),然后再重新排序(Re-Ranking),使得机器在Market1501和CUHK03上的首位命中率达到了94.0%和96.1%,这也是首次机器在行人再识别问题上超越人类专家表现,创下了业界纪录。

继人脸识别之后,在更复杂的行人再识别领域中机器也超越了人类!这为目前机器代替人类处理大量以人为中心的图像或视频理解问题带来了更强大的技术。

旷视科技首席科学家、研究院院长孙剑表示:“最近几年,随着深度学习方法的复兴,从2014年的人脸识别到2015年的ImageNet图像分类,我们已经看到机器在越来越多的图像感知问题中超越了人类。记得不久前和我的导师、前微软领导沈向洋博士(微软全球执行副总裁)聊天时吹了个牛——感知问题5-10年基本都能解掉。今天,我非常高兴看到又一个非常难且有巨大应用价值的图像感知问题,被旷视科技团队的算法超越了人类性能。”

让多个网络自动学习人体结构对齐,并彼此相互学习

那么作者具体是如何做到的?

和其他基于深度学习的ReID方法类似,作者同样是用深度卷积神经网络去提取特征,用Hard Sample Mining后的Triplet Loss做损失函数,把特征的欧式距离作为两张图片的相似度。

不同之处在于,作者在学习图像相似度的时候考虑了人体结构的对齐。虽然此前有人考虑过这一点,比如简单的,把人的头、身、腿分成三截;还有精细一点的,先通过人体骨架估计,然后再通过骨架信息来对齐。但后一种方法,引入了另一个困难的问题或要求额外的标注工作。AlignedReID[1]作者的思路是引入端到端的方法,让网络自动去学习人体对齐,从而提高性能。

在AlignedReID中,深度卷积神经网络不仅提取全局特征,同时也对各局部提取局部信息。对于两张图片中任意一对局部信息,计算它们之间的距离,构成一个距离矩阵。再通过动态规划,计算一条从矩阵左上角到右下角的最短路径。这条最短路径中的一条边就对应了一对局部特征的匹配,它给出了一种人体对齐的方式,在保证身体个部分相对顺序的情况下,这种对齐方式的总距离是最短的。在训练的时候,最短路径的长度被加入到损失函数,辅助学习行人的整体特征。

如图所示,乍一看,这条最短路径上有一些边是冗余的,例如图中的第一条边。为什么不只寻找那些匹配的边呢?作者给出的解释是这样的:局部信息不仅要自我匹配,也要考虑到整个人体对齐的进程。为了使匹配能够从头到脚按顺序进行,那么有一些冗余的匹配是必须的。另外,通过设计局部距离函数,这些冗余匹配在整个最短路径的长度中贡献很小。

除了在训练过程中让人体结构自动对齐外,作者还提到了同时训练两个网络并使它们互相学习,可以有效提高模型的精度。这个训练方法在分类问题中已经比较常见,作者做了一些改进让它能够应用于度量学习(Metric Learning)。

在上图所示的训练过程中:同时训练的两个网络都包含一个分支做分类,一个分支做度量学习。两个做分类的分支通过KL divergence互相学习;两个做度量学习的分支通过作者提出的metric mutual loss互相学习。而如前所述,度量学习的分支又包括两个子分支,一个是全局特征的分支,一个是局部特征的分支。比较有趣的是,一旦训练完成,分类分支和局部特征分支都被丢弃,只保留了全局特征分支做ReID。也就是说,无论是训练行人分类,还是通过人体对齐学习局部特征,都是为了更好的得到图像的全局特征。

最后,作者还采用了文献[2]中提出的k-reciprocal encoding来做重新排序。

上图的第一行是要查找的行人,大家猜一猜第二行和第三行哪个是人给出的结果,哪个是机器给出的结果吧。(答案文末揭晓)

此文所展示的方法让ReID技术在实验结果的表现中上了全新的台阶。不过文章的最后也指出,虽然机器在两个常用数据集上超过了人类的水平,但还不能说行人再识别(ReID)任务已经被很好地解决了。在实际的应用中,人类,尤其是经过专业训练的人,可以通过经验、直觉,并利用环境、上下文等综合信息,在拥挤,模糊,昏暗等情况下进行更深入的分析,所以在开放和极端条件下的环境中,人和机器相比仍具有很大的优势。在未来的实践中,行人再识别(ReID)的解决和应用还需要更多努力。

AlignedReID文章作者之一张弛表示:“我们从2016年开始研究ReID,当时Top1的精度达到60%就可以说是state of the art了。但是业务要求至少达到90%以上,甚至更高。现在我们已经在两个常用数据集上做到超过人类水平,到这也只是迈出了实用化的第一步,在实战场景中还有更多的挑战要应对。希望ReID技术的进一步成熟,能让我们的社会更安全,更便捷。”

最后公布刚刚的答案,第三行为机器的识别结果。

参考文献

  • [1] X. Zhang, H. Luo, X. Fan, W. Xiang, Y. Sun, Q. Xiao, W. Jiang, C. Zhang, and J. Sun. AlignedReID: Surpassing Human-Level Performance in Person Re-Identification. arXiv :1711.08184, 2017
  • [2] Z. Zhong, L. Zheng, D. Cao, and S. Li. Re-ranking person re-identification with k-reciprocal encoding. arXiv:1701.08398, 2017

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2017-11-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏IT派

揭开黑箱:希伯来大学计算机科学教授提出「信息瓶颈」

如今「深度神经网络」已经学会对话、驾驶汽车、打视频游戏、玩围棋、绘画并辅助科研,这使其人类构建者很是困惑,并为深度学习算法的成果深感意外。这些学习系统的设计并没...

36370
来自专栏新智元

专访Ian Goodfellow:欲在谷歌打造GAN团队,用假数据训练真模型

【新智元导读】 近日,从Open AI 重回谷歌大脑的 Ian Goodfellow 接受Wired 专访,这篇文章被Google+推荐为关于对抗生成网络历史和...

367100
来自专栏华章科技

揭开深度学习黑箱:希伯来大学计算机科学教授提出「信息瓶颈」

一个称为「信息瓶颈」的新想法有助于解释当今人工智能算法的黑箱问题——以及人类大脑的工作原理。

9930
来自专栏AI科技评论

深度 | 微软亚洲研究院刘铁岩博士:迎接深度学习的“大”挑战(下)

AI科技评论按:本文根据刘铁岩博士在中国人工智能学会AIDL第二期人工智能前沿讲习班*机器学习前沿所作报告《迎接深度学习的“大”挑战》编辑整理而来,发文前已得到...

370100
来自专栏机器之心

地平线机器人杨铭:深度神经网络在图像识别应用中的演化

机器之心整理 编辑:杜雪 4 月 15 日,杨铭博士在机器之心线下活动 Interface 上做了一次题为「深度神经网络在图像识别应用中的演化」的演讲。这篇文章...

47560
来自专栏专知

瑟瑟发抖……神经网络可能在欺骗你!

【导读】你对神经网络的信任度有多高?它总能学习到你想让他学习的东西吗?你真的敢坐在一辆自动驾驶的汽车上吗?我曾经也对神经网络充满了“崇拜”和信任,直到我亲眼看见...

14630
来自专栏CSDN技术头条

详解苏宁门店的人脸识别技术

一个成熟的人脸识别系统通常由人脸检测、人脸最优照片选取、人脸对齐、特征提取、特征比对几个模块组成。

56930
来自专栏AI科技评论

学界 | 殊途同归还是渐行渐远?MIT神经科学教授James DiCarlo谈如何通过人类神经理解神经网络

AI 科技评论按:国际计算机视觉与模式识别顶级会议CVPR 2017于 7 月 21 日至7 月 26 日在美国夏威夷召开。我们的记者团也特赴夏威夷为大家带来一...

33890
来自专栏AI科技评论

预热 | 英特尔通过预测变量实现策略性强化学习,夺冠 Doom 游戏竞赛(ICLR 2017)

AI科技评论按:ICLR 2017 将于4月24-26日在法国土伦举行,届时AI科技评论的编辑们也将前往法国带来一线报道。在这个深度学习会议举办之前,AI科技评...

37190
来自专栏新智元

AI新星 | 谷歌朱梦龙:从COCO物体检测冠军到MobileNet

【新智元导读】在谷歌研究院工作是一种怎样的体验?新智元近日专访了谷歌研究员朱梦龙,他作为谷歌团队G-RMI的核心成员,从去年9月开始一直盘踞在COCO的物体检测...

376110

扫码关注云+社区

领取腾讯云代金券