大会 | CVPR 18论文:基于空洞卷积神经网络的高密度人群理解方法

AI 科技评论按:本文作者为美国伊利诺伊大学(UIUC)张晓帆,他为 AI 科技评论撰写了基于 CVPR 录用论文《CSRNet: Dilated Convolutional Neural Networks for Understanding the Highly Congested Scenes》的独家解读稿件,未经许可不得转载。

论文地址: https://arxiv.org/pdf/1802.10062.pdf

来自北京邮电大学和美国伊利诺伊大学(UIUC)的研究者们提出一种适用于密集人群计数的空洞卷积神经网络模型 CSRNet。该网络模型摆脱以往广泛应用于人群计数的多通道卷积网络方案,在大幅削减网络参数量和网络训练难度的同时,显著提升了人群计数的精度和人群分布密度图的还原度。该研究已被 CVPR 2018 接收。

人群计数和人群密度估计有着重要的安防应用场景。随着城市人口的日益增长,在地铁站,商场,各种节日集会中,超额聚集的人群带来潜在危险,极容易造成踩踏、骚乱等悲剧。因此,人群计数和人群的密度分布估计成为安防领域的热门课题。近年来,人群计数的算法性能在与深度学习的结合下得到了很大的提升。

人群计数的目的是找出特定场景中的人数,而人群密度分布估计需要获取空间密度信息和人数(密度图求和)。人群计数的难点在于,场景的变化跨度大,目标的尺度变化不尽相同,人和人、人和景物之间存在不同程度的遮挡等等。如图 1 所示,三张图均包含了 95 人,但是他们的空间分布完全不同。

图 1 人群计数场景

作者研究发现,被广泛运用在人群计数上的多通道卷积网络(MCNN)存在着结构冗余、参数繁多、训练困难的局限性。此类多通道卷积网络在不同通道上采取大小不等感受域的卷积网络,以适应不同场景(如高、中、低密集程度)的人群计数需要。但研究发现,不同通道学习到的特征重合度很高(图 2),并没有因场景密集程度不同而出现明显差异。多通道网络表现冗余。为作对比,作者采用一个参数更少、更深层、更易训练的单通道卷积网络(A deeper CNN),获得比多通道网络更好的效果(表 1)。

图 2 多通道卷积网络中的大、中、小通道在 ShanghaiTech PartA 中的测试表现相似

表 1 更深的单通道卷积网络使用较少参数却在 ShanghaiTech PartA 中获得更小误差

此外,作者为了避免过度使用降采样而导致密度图的分辨率损失,在网络的后半部分引入了空洞卷积层,利用空洞卷积增大感受域并维持分辨率(图 3),并提出 CSRNet 网络模型(表 2)。CSRNet 后端四组不同的配置在 ShanghaiTech PartA 中性能测试如表 3。

图 3 使用卷积+池化+上采样(上)与空洞卷积(下)输出同样分辨率图像,空洞卷积可保留更多图像细节

表 2 CSRNet 网络结构,卷积以参数命名为(conv kernel size – channel – dilation rate)

表 3 CSRNet 的四种后端配置在人群计数中精度对比,其中方案 B 精度最高

由于采用比多通道网络更简单的结构,CSRNet 在训练时可直接采用端到端训练并快速复现实验结果,也可利用迁移学习提高训练效果。得益于简单、规整的网络结构,CSRNet 对硬件实现更加友好,可以高效地部署在物联网设备中。

实验表明,CSRNet 在四个公开人群数据集(ShanghaiTech dataset、the UCF CC 50 dataset、the WorldEXPO'10 dataset、the UCSD dataset)和一个车辆数据集(TRANCOS dataset)上均达到了最高水平的精确度(State-of-the-art Performance),详见表 4 至表 8。

表 4 ShanghaiTech 数据集测试结果

表 5 UCF CC 50 数据集测试结果

表 6 WorldExpo' 10 数据集测试结果

表 7 UCSD 数据集测试结果

表 8 TRANCOS 数据集测试结果

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2018-03-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

【祖母论与还原论之争】为什么计算机人脸识别注定超越人类?

【新智元导读】 近日, Cell 的一项研究在人脸识别领域引起轰动,研究揭示了灵长类动物人脸识别的具体神经元活动过程——对脸部的识别是由大脑中 200 多个不同...

35011
来自专栏企鹅号快讯

算法到实战,如何把深度学习应用到生活?

计算机视觉是一门研究如何使机器“看”的科学,掌握解决具体计算机视觉任务的方法则会帮助我们解决大规模系统的复杂问题,其应用相当广泛,包括并不限于:图像分类,人脸识...

2018
来自专栏ATYUN订阅号

2018 CVPR正式开幕,斯坦福大学和加州大学伯克利分校赢得最佳论文奖

2018年计算机视觉和模式识别会议(CVPR)在美国盐湖城开幕。CVPR组委会宣布了最佳论文和最佳学生论文。

834
来自专栏新智元

【首次超越人类】旷视行人再识别(ReID)突破,人脸识别后创新纪录

编辑:闻菲 【新智元导读】行人再识别(ReID)是近年来计算机视觉的一个研究重点,给定一个监控行人图像,跨设备检索该行人的图像。由于不同摄像设备之间存在差异,行...

42212
来自专栏新智元

Facebook AI实验室最新论文:图像检测的无监督学习(下载)

新智元导读】Facebook最近在美国的日子不算好过。据英国《卫报》报道,Facebook平台上广受欢迎的新闻推送功能实际上严重依赖于编辑团队来决定新闻内容的取...

3578
来自专栏AI科技评论

机器学习顶会 ICML 2018 斯德哥尔摩开幕,公平性研究戴上光环

AI 科技评论按:经过 7 月 10 日的三个 Tutorial Session 和 Opening Reception 晚宴之后,在瑞典斯德哥尔摩举办的机器学...

984
来自专栏测试开发架构之路

小波系数

1. 求小波变化系数时a b怎么取? 小波变换的概念是由法国从事石油信号处理的工程师J.Morlet在1974年首先提出的,通过物理的直观和信号处理的实际需要经...

3418
来自专栏AI研习社

算法到实战,如何把深度学习应用到生活?| 回顾

计算机视觉是一门研究如何使机器“看”的科学,掌握解决具体计算机视觉任务的方法则会帮助我们解决大规模系统的复杂问题,其应用相当广泛,包括并不限于:图像分类,人脸识...

3106
来自专栏新智元

ICLR-17最全盘点:PyTorch超越TensorFlow,三巨头Hinton、Bengio、LeCun论文被拒,GAN泛滥

【新智元导读】机器学习&深度学习盛会 ICLR 2017 落下帷幕。本届会议都有哪些亮点?体现了哪些技术变化及趋势?对整个 AI 业界有什么影响?新智元为你带来...

44012
来自专栏AI科技评论

UC伯克利ICLR论文:论如何教强化学习模型骑自行车去金门大桥?

AI 科技评论按:本文的作者是来自加州大学伯克利分校人工智能实验室(BAIR)的博士生 Vitchyr Pong,他的主研方向为深度强化学习。在本篇博客中作者介...

703

扫描关注云+社区