姿态估计相比Mask-RCNN提高8.2%,上海交大卢策吾团队开源AlphaPose

作者:卢策吾

【新智元导读】上海交通大学卢策吾团队,今日开源AlphaPose系统。该系统在姿态估计(pose estimation)的标准测试集COCO上较现有最好姿态估计开源系统Mask-RCNN相对提高8.2%,较另一个常用开源系统OpenPose(CMU)相对提高17%。同时,卢策吾团队也开源了两个基于AlphaPose的工作:(1)一个高效率的视频姿态跟踪器(pose tracker),目前姿态跟踪准确率第一。(2)一个新的应用“视觉副词识别“(Visual Adverb Recognition)。

视频:AlphaPose Demo

AlphaPose

由上海交通大学卢策吾团队发布的开源系统AlphaPose近日上线,该开源系统在标准测试集COCO上较现有最好姿态估计开源系统Mask-RCNN相对提高8.2%。Mask-RCNN是2017年以来计算机视觉领域的一个突破,获得了ICCV 2017最佳论文(马尔奖),涵盖了物体检测,分割,姿态估计。该系统比较的是其姿态估计部分。该系统是基于卢策吾团队ICCV 2017发表的RMPE算法[1]开发。以下为具体数据:

开源系统

检测准确率

Ours (ICCV 2017) [1]

72.5 mAP

Mask-RCNN [2]

67 mAP (相对提高8.2%)

OpenPose [3]

61.8 mAP (相对提高17.3%)

表格1:现有姿态估计开源系统在COCO数据集[4]上的结果比较。

人体关键点检测对于描述人体姿态,预测人体行为至关重要。因此人体关键点检测是诸多计算机视觉任务的基础。其在动作分类,异常行为检测,以及人机交互等领域有着很广阔的应用前景,是计算机视觉领域中一个既具有研究价值、同时又极具挑战性的热门课题。针对这一问题,上海交大MVIG组提出RMPE的两步法框架(ICCV 2017论文),并基于此开发了AlphaPose这一人体关键点检测系统。

RMPE框架采用自顶向下的方法,先检测人,再去做姿态估计。该框架有三个主要组成部分,首先是对称空间变换网络(Symmetric STN),用于解决传统两步法中的主要问题,即imperfect proposal的问题。对于质量较差的人体检测结果,symmetric STN能够自动调整proposal的位置,将refine过后的结果输入单人姿态估计网络,并将输出映射回原空间,从而使得在人体检测框不准确的情况下,姿态估计网络依然能够有良好的效果。

第二个组成部件为由姿态引导的样本生成器(Pose-guided Proposals Generator),该部件能够根据不同人体姿态生成额外的detection proposal用于训练姿态估计网络,从而获得大量符合真实测试场景数据分布的训练数据。

第三个组成部件为参数化的姿态非极大值抑制器(Parametric Pose NMS)。传统的两步法中,人体定位框会有较多的冗余检测。作者通过使用新的姿态距离度量来比较姿态相似性,来消除冗余姿态。

目前,该系统所有的训练和检测代码,以及模型均已开源,项目链接为:https://github.com/MVIG-SJTU/AlphaPose

应用一:视频姿态跟踪(Pose Tracking)

复杂场景下的多人人体姿态跟踪是2017年CVPR上刚提出的一个很有挑战性的研究课题,能从视频中高效且稳定地提取人体姿态轨迹,可以帮助我们更好地理解视频中人的行为以及人与周边环境的交互。针对这一问题,在前文AlphaPose的基础上,卢策吾团队提出了Pose Flow Building 以及Pose Flow NMS两个人体姿态跟踪模块,充分综合空间域和时间域的信息来提升复杂场景下人体姿态跟踪的准确性[6]。

目前,该算法在PoseTrack dataset [7]的测试集上达到53.6 MOTA的跟踪精度,大幅度超过该数据集上最好结果(28.2 MOTA),而在PoseTrack Challenge dataset[8]的验证集上达到58.3 MOTA 66.5 mAP,跟踪精度超过Facebook最好结果55.2 MOTA (5.6个百分点),人体姿态估计精度超过Facebook之前的最好结果[9] 60.6 mAP (9.7个百分点)。更重要的是我们视频姿态跟踪器(pose tracker),是基于AlphaPose在每一帧上结果的一个扩展模块,该模块能达到100帧每秒。

论文及代码:http://mvig.sjtu.edu.cn/research/alphapose.html

应用二:视觉副词识别(Visual Adverb Recognition)

计算机视觉学科在努力挖掘图像视频中的语义信息,对应到自然语义系统,是名词识别对应object detection,动词识别对应action recognition。但我们忽略了一类重要语义-副词,这是相对于名词,动词有更为深刻的语义的描述。比如我们动作识别可以识别出一个视频中的人物在拥抱,但是不知道是离别的伤感还是重逢的喜悦。因此卢策吾团队推出了一个新的研究方向。而这一问题正是需要姿态估计(AlphaPose)的帮助,他们提出了一个Three-Stream Hybrid Model。三个 stream 分别是:利用了姿势(pose)信息的,使用表情信息, RGB 和光流信息。同时,他们构建了对应的数据集:ADHA,这一数据集标注了视频中人物的位置、动作和可以描述这一动作的副词,我们还为数据用户提供了人物的 tracking 结果。卢策吾团队也表示,目前该题目刚刚开始所以,准确率还是很低,需要做的事情还很多。

数据集中的32个动作及51个副词基本覆盖了人们表达中常见的描述。项目和数据集链接如下:

主页(包括代码):http://mvig.sjtu.edu.cn/research/adha.html

数据:http://mvig.sjtu.edu.cn/research/adha/adha.html

作者介绍

Prof. Cewu Lu is a research Professor at Shanghai Jiao Tong University, leading Machine Vision and Intelligence Group. He was Postdoc at Stanford AI lab (under Fei-Fei Li and Leonidas Guibas) and selected as the 1000 Overseas Talent Plan (Young Talent) (中组部青年千人计划). He is also one of MIT TR35 -"MIT Technology Review, 35 Innovators Under 35 (China)" and co-chair of CVM 2018.

Reference:

[1] RMPE: Regional multi-person pose estimation

Haoshu Fang, Shuqin Xie, Yuwing Tai, Cewu Lu

ICCV 2017

[2] Mask R-CNN

Kaiming He, Georgia Gkioxari, Piotr Dollár, Ross Girshick

ICCV2017

[3]Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields

Zhe Cao, Tomas Simon, Shih-En Wei, Yaser Sheikh

CVPR 2017

[4] http://cocodataset.org/#keypoints-challenge2017

[5] http://human-pose.mpi-inf.mpg.de/

[6] Pose Flow: Efficient Online Pose Tracking

Yuling Xiu, Jiefeng Li, Haoyu Wang, Cewu Lu

arXiv 2018

[7] PoseTrack Joint Multi-Person Pose Estimation and Tracking

Umar Iqbal, Anton Milan, Juergen Gall

arXiv 1611.07727, 2017

[8]PoseTrack: A Benchmark for Human Pose Estimation and Tracking

Mykhaylo Andriluka, Umar Iqbal, Anton Milan, Eldar Insafutdinov, Leonid Pishchulin, Juergen Gall, Bernt Schiele

arXiv 1710.10000, 2017

[9] Detect-and-Track: Efficient Pose Estimation in Videos

Rohit Girdhar, Georgia Gkioxari, Lorenzo Torresani, Manohar Paluri, Du Tran

arXiv 1712.09184, 2017

[10] Human Action Adverb Recognition: ADHA Dataset and Four-Stream Hybrid Model

Bo Pang, Kaiwen Cha, Cewu Lu

arXiv 2018

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2018-02-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏ATYUN订阅号

加利福尼亚大学开发模型,可减少AI数据集的性别偏见

词嵌入是一种将单词和短语映射到实数向量上的语言建模技术,是自然语言处理的基础部分。这就是机器学习模型如何“学习”语境相似性和词语接近的重要性,以及它们如何最终从...

15520
来自专栏AI科技大本营的专栏

这三个普通程序员,几个月就成功转型AI,他们的经验是...

动辄50万的毕业生年薪,动辄100万起步价的海归AI高级人才,普通员到底应不应该转型AI工程师,普通程序员到底应该如何转型AI工程师? 以下,AI科技大本营精选...

47160
来自专栏PPV课数据科学社区

【干货】近200篇机器学习&深度学习资料分享(上)

编者按:本文收集了百来篇关于机器学习和深度学习的资料,含各种文档,视频,源码等。而且原文也会不定期的更新,望看到文章的朋友能够学到更多。 《Brief Hist...

43460
来自专栏AI研习社

上交大卢策吾团队开源 AlphaPose, 在 MSCOCO 上稳超 Mask-RCNN 8 个百分点

I 研习社消息,日前,上海交通大学卢策吾团队开源 AlphaPose。AlphaPose 是一个多人姿态估计系统,具有极高的精准度。 据卢策吾团队介绍, Alp...

435150
来自专栏计算机视觉战队

视频大数据处理的挑战和机遇

背景: 视频在许多应用中是非常重要的问题,如内容搜索、智能内容识别广告等。现在正处在一个数据爆炸性增长的"大数据"时代,大数据对社会经济、政治、文化,人们生活等...

57690
来自专栏机器之心

深度 | Vicarious详解新型图式网络:赋予强化学习泛化能力

选自Vicarious 机器之心编译 近日,人工智能初创公司 Vicarious 在官网了发表了一篇名为《General Game Playing with S...

39670
来自专栏数据魔术师

干货 | 用模拟退火(SA, Simulated Annealing)算法解决旅行商问题

前 排 最近这个春节又快到了,虽然说什么有钱没钱回家过年。但也有部分小伙伴早已经备好了盘缠和干粮,准备在这个难得的假期来一场说走就走的旅行了。毕竟世界这么大我想...

1K80
来自专栏灯塔大数据

塔荐 | 人工智能工程师的三个层次

导 读 Google Tensorflow框架的Contributor。在计算机视觉领域有深厚的工业经验,带领团队开发的“花伴侣”植物识别App,上线数月即在0...

35730
来自专栏新智元

重磅 | 经典教材 R. Sutton《增强学习导论》最新版(451PDF)

2016年10月18日, 世界人工智能大会技术分论坛,特设“新智元智库院长圆桌会议”,重量级研究院院长 7 剑下天山,汇集了中国人工智能产学研三界最豪华院长阵容...

55670
来自专栏AI科技评论

干货分享 | 深度学习零基础进阶大法!

编者按:新手上路都会有一个疑问,如果自己没有相关基础,如何学习晦涩的专业知识?此前雷锋网编译了《从0到1:我是如何在一年内无师自通机器学习的?》,这篇文章讲述了...

38550

扫码关注云+社区

领取腾讯云代金券