前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >复旦提出GaitSet算法,步态识别的重大突破!

复旦提出GaitSet算法,步态识别的重大突破!

作者头像
CV君
发布2019-12-27 14:16:56
1.4K0
发布2019-12-27 14:16:56
举报
文章被收录于专栏:我爱计算机视觉

这两天专注介绍计算机视觉黑科技的52CV君发现一篇被AAAI2019录用的非常棒的复旦大学的文章!性能强悍到爆!

而且,论文作者经把代码也开源了!(文末附下载)

文章的题目是《GaitSet: Regarding Gait as a Set for Cross-View Gait Recognition 》,下面是作者信息:

该文研究的问题是步态识别,提出的新算法GaitSet精度大幅超越目前的state-of-the-art,可谓步态识别领域的重大突破!

一、什么是步态识别?

步态是指人们行走时的方式,这是一种复杂的行为特征。尤其在刑事侦查中,具有反侦察意识的罪犯或许会给自己化装,不让自己身上的哪怕一根毛发掉在作案现场,但有样东西他们是很难控制的,这就是走路的姿势。

步态识别是一种新兴的生物特征识别技术,旨在通过人们走路的姿态进行身份识别,与其他的生物识别技术相比,步态识别具有非接触远距离和不容易伪装的优点。在智能视频监控领域,其更具优势。

步态识别时将视频预处理行人与背景分离,形成黑白轮廓图silhouette。下图展示了在该领域研究中被广泛应用的数据库CASIA-B的部分silhouette图像样例,所谓silhouette即去除背景的行人黑色轮廓图。

二、一般的步态识别方法

文中指出,在以往文献中,步态识别主要有两大类方法:

2.1 将步态看作图像

将所有的步态轮廓图压缩成一幅图像,将步态识别看成一个图像匹配问题。很显然这种方法忽略了步态中的时序信息,也无法建模精细的空域信息。

2.2 将步态看作视频序列

考虑直接从silhouette提取特征,使用LSTM方法或者3D-CNN方法,可以很好的建模步态中的时、空域信息,但其计算代价高昂也不易于训练

三、该文提出的GaitSet算法

该文的主要思想来自于人类对步态的视觉感知上,作者发现,步态中的silhouette从视觉上看前后关系很容易辨认。

所以受此启发,作者不再刻意建模步态silhouette的时序关系,而将步态silhouette当作没有时序关系的图像集,让深度神经网络自身优化去提取并利用这种关系。

作者通过三个步骤提取步态序列的特征,分别记为下图公式中F、G、H。

F 为提取单幅步态轮廓图像的CNN特征;

G 为将各幅图像的CNN特征聚合成一个特征向量;

H 为考虑提取多尺度特征,并通过全连接网络提高特征的鉴别性。

作者提出的算法框架流程图如下:(请点击图片查看大图)

3.1 提取多幅图像CNN特征

由以上算法框架流程图可知,将步态序列的黑白轮廓图每幅图像分别输入CNN网络提取特征。

此时图像集的图像个数可为不同,每幅图像单独处理。

3.2 多特征集合池化(Set Pooling)

该部分作用即将多幅图像通过CNN网络提取的特征聚合为一个特征向量。

该部分体现在以上算法框架流程图中SP部分。

作者使用的方法是集合了多种池化方法,其主要算法流程如下。该结构可集成到网络中实现端到端训练。

3.3 使用Horizontal Pyramid Pooling汇集多尺度鉴别特征

为使得特征提取兼具局部和全局性,作者引入Horizontal Pyramid Pooling (HPP)提取4个尺度的特征,为使得特征更具鉴别性,作者在网络最后使用全连接层优化特征整体鉴别性。

3.4 利用多层执行全流程管线Multilayer Global Pipeline

CNN网络中越浅层网络提取的特征感受野越小,越深层的网络感受野越大。

作者将多个“浅”和“深”网络层提取的特征均输入后续集合特征聚合流程中。

四、实验结果

该文在CASIA-B和OU-MVLP两数据库上进行了实验。

数据集和实验设置不再赘述,欲细读此文的朋友可于文末自行下载查看。

只能说,结果异常彪悍,从数值上看与目前的state-of-the-art算法相比,简直不属于同一个时代!所有结果全部大幅超越!

CASIA-B数据库上的实验结果

OU-MVLP数据库上实验结果

作者做了一个实验,在CASIA-B数据集上随着给定图像帧数增加测试算法精度的变化。

甚至在仅有7帧黑白轮廓图的情况下,GaitSet算法的精度即可达到82%。

这是什么概念呢?以25帧为监控视频常设帧率计算,仅需要0.28秒的行人视频即能达到一个较好的步态识别精度了!

五、结论

该文提供了一个新的思路,即作者将步态识别视频序列看为图像集,据此设计了GaitSet算法,实验验证该算法精度提升异常明显,在该领域研究中可谓之重大突破!

前段时间,52CV曾经报道了DeepMind与VGG组的基于图像集的人脸识别算法:DeepMind&VGG提出基于集合的人脸识别算法GhostVLAD,精度远超IJB-B数据集state-of-the-art 性能提升同样惊人,看来基于图像集提取特征再进行特征聚合的方法的确值得大家关注!

该文思路即忽略视频序列时序关系而看为图像集,在视频分析的其他任务比如行人重识别中是否也能大展拳脚,让我们拭目以待~

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-11-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 我爱计算机视觉 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
人脸识别
腾讯云神图·人脸识别(Face Recognition)基于腾讯优图强大的面部分析技术,提供包括人脸检测与分析、比对、搜索、验证、五官定位、活体检测等多种功能,为开发者和企业提供高性能高可用的人脸识别服务。 可应用于在线娱乐、在线身份认证等多种应用场景,充分满足各行业客户的人脸属性识别及用户身份确认等需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档