复旦提出GaitSet算法,步态识别的重大突破!

点击我爱计算机视觉标星,更快获取CVML新技术

这两天专注介绍计算机视觉黑科技的52CV君发现一篇被AAAI2019录用的非常棒的复旦大学的文章!性能强悍到爆!

而且,论文作者经把代码也开源了!(文末附下载)

文章的题目是《GaitSet: Regarding Gait as a Set for Cross-View Gait Recognition》,下面是作者信息:

该文研究的问题是步态识别,提出的新算法GaitSet精度大幅超越目前的state-of-the-art,可谓步态识别领域的重大突破!

一、什么是步态识别?

步态是指人们行走时的方式,这是一种复杂的行为特征。尤其在刑事侦查中,具有反侦察意识的罪犯或许会给自己化装,不让自己身上的哪怕一根毛发掉在作案现场,但有样东西他们是很难控制的,这就是走路的姿势。

步态识别是一种新兴的生物特征识别技术,旨在通过人们走路的姿态进行身份识别,与其他的生物识别技术相比,步态识别具有非接触远距离和不容易伪装的优点。在智能视频监控领域,其更具优势。

步态识别时将视频预处理行人与背景分离,形成黑白轮廓图silhouette。下图展示了在该领域研究中被广泛应用的数据库CASIA-B的部分silhouette图像样例,所谓silhouette即去除背景的行人黑色轮廓图。

二、一般的步态识别方法

文中指出,在以往文献中,步态识别主要有两大类方法:

2.1 将步态看作图像

将所有的步态轮廓图压缩成一幅图像,将步态识别看成一个图像匹配问题。很显然这种方法忽略了步态中的时序信息,也无法建模精细的空域信息。

2.2 将步态看作视频序列

考虑直接从silhouette提取特征,使用LSTM方法或者3D-CNN方法,可以很好的建模步态中的时、空域信息,但其计算代价高昂也不易于训练

三、该文提出的GaitSet算法

该文的主要思想来自于人类对步态的视觉感知上,作者发现,步态中的silhouette从视觉上看前后关系很容易辨认。

所以受此启发,作者不再刻意建模步态silhouette的时序关系,而将步态silhouette当作没有时序关系的图像集,让深度神经网络自身优化去提取并利用这种关系。

作者通过三个步骤提取步态序列的特征,分别记为下图公式中F、G、H。

F 为提取单幅步态轮廓图像的CNN特征;

G 为将各幅图像的CNN特征聚合成一个特征向量;

H 为考虑提取多尺度特征,并通过全连接网络提高特征的鉴别性。

3.1 提取多幅图像CNN特征

由以上算法框架流程图可知,将步态序列的黑白轮廓图每幅图像分别输入CNN网络提取特征。

此时图像集的图像个数可为不同,每幅图像单独处理。

3.2 多特征集合池化(Set Pooling)

该部分作用即将多幅图像通过CNN网络提取的特征聚合为一个特征向量。

该部分体现在以上算法框架流程图中SP部分。

作者使用的方法是集合了多种池化方法,其主要算法流程如下。该结构可集成到网络中实现端到端训练。

3.3 使用Horizontal Pyramid Pooling汇集多尺度鉴别特征

为使得特征提取兼具局部和全局性,作者引入Horizontal Pyramid Pooling (HPP)提取4个尺度的特征,为使得特征更具鉴别性,作者在网络最后使用全连接层优化特征整体鉴别性。

3.4 利用多层执行全流程管线Multilayer Global Pipeline

CNN网络中越浅层网络提取的特征感受野越小,越深层的网络感受野越大。

作者将多个“浅”和“深”网络层提取的特征均输入后续集合特征聚合流程中。

四、实验结果

该文在CASIA-B和OU-MVLP两数据库上进行了实验。

数据集和实验设置不再赘述,欲细读此文的朋友可于文末自行下载查看。

只能说,结果异常彪悍,从数值上看与目前的state-of-the-art算法相比,简直不属于同一个时代!所有结果全部大幅超越!

CASIA-B数据库上的实验结果

OU-MVLP数据库上实验结果

作者做了一个实验,在CASIA-B数据集上随着给定图像帧数增加测试算法精度的变化。

甚至在仅有7帧黑白轮廓图的情况下,GaitSet算法的精度即可达到82%。

这是什么概念呢?以25帧为监控视频常设帧率计算,仅需要0.28秒的行人视频即能达到一个较好的步态识别精度了!

五、结论

该文提供了一个新的思路,即作者将步态识别视频序列看为图像集,据此设计了GaitSet算法,实验验证该算法精度提升异常明显,在该领域研究中可谓之重大突破!

前段时间,52CV曾经报道了DeepMind与VGG组的基于图像集的人脸识别算法:

DeepMind&VGG提出基于集合的人脸识别算法GhostVLAD,精度远超IJB-B数据集state-of-the-art

性能提升同样惊人,看来基于图像集提取特征再进行特征聚合的方法的确值得大家关注!

该文思路即忽略视频序列时序关系而看为图像集,在视频分析的其他任务比如行人重识别中是否也能大展拳脚,让我们拭目以待~

论文代码下载

https://github.com/AbnerHqC/GaitSet

加群交流

(不会时时在线,如果没能及时通过还请见谅)

【点赞与转发】就是一种鼓励

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181128A1JHJR00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券