人群密度估计--Generating High-Quality Crowd Density Maps using Contextual Pyramid CNNs

Generating High-Quality Crowd Density Maps using Contextual Pyramid CNNs ICCV2017

针对人群密度估计问题,本文主要从 incorporating global and local contextual information 来降低人群密度估计误差 使用多个CNN网络来估计不同尺度的 context 来帮助人群密度估计 The proposed method uses CNN networks to estimate context at various levels for achieving lower count error and better quality density maps

和文献【50】的对比

当前方法在人群低密度和高密度时,估计的误差都比较大 A potential solution is to use contextual information during the learning process.

2 Related work Regression-based approaches. 为了克服遮挡和背景运动产生的干扰,这类方法使用回归方法,学习一个映射,learn a mapping between features extracted from local image patches to their counts,这类方法包含两个模块: low-level feature extraction and regression modeling

Density estimation-based approaches 回归方法虽然解决了 occlusion and clutter 的问题,但是他们忽视了重要的空间信息,只给出了一个人群总人数。密度估计方法主要学习 local patch features and density maps 之间的映射关系

CNN-based methods 尝试各种 CNN网络来完成 人群总数估计和人群密度图生成。

对于以前各种方法分析,我们认为有以下几点问题: 1)这些方法都没有显示的嵌入 context 信息,而 context 信息对提升性能很有帮助 2)当前基于回归的密度图估计方法更侧重降低人群总数估计误差,而不是侧重人群密度图的质量 3)当前的 CNN 网络基本都是使用 像素级欧式损失函数来训练网络,这导致密度图比较模糊。

3 Proposed method (CP-CNN)

GCE and LCE 分别提取图像的 global and local context 信息 DME is a multi-column CNN that performs the initial task of transforming the input image to high-dimensional feature maps F-CNN 综合GCE 、LCE 、 DME的结果 produce high-resolution and high-quality density maps

3.1. Global Context Estimator (GCE) 这里我们是如何表示 global context 的信息了? 我们将 global context 和图像的密度等级联系起来,这里我们将图像人群密度等级分为五类:extremely low-density (ex-lo), low-density (lo), medium-density (med), high-density (hi) and extremely high-density (ex-hi) 当然具体分多少类 这个和数据库密度变化范围有关,但是我们发现仅适用五类就可以明显提升密度图估计效果

这里我们使用一个 CNN网络 将输入图像进行分类,根据人群密度分为5类, a VGG-16 [31] based network is fine-tuned with the crowd training data

VGG-16 所有的卷积层被保留不变,后面的三个全连接层被替换为不同配置的全连接层,为了完成5分类。后面两个卷积层参数被微调,其他卷积层参数固定不变。

3.2. Local Context Estimator (LCE) 当前的人群密度估计方法更侧重于降低人群总数估计的误差,所以它们的人群密度图质量相对降低,我们相信 some kind of local contextual information 能够帮助我们提升密度图质量。和 GCE 思路类似,这里我们使用一个 CNN网络 将图像根据其人群密度分为5类, {ex-lo, lo,med, hi, ex-hi}

3.3. Density Map Estimator (DME) DME 主要讲输入图像映射到一组 high-dimensional feature maps,这里我们受文献【50】的启发,采用 multi-column architecture

虽然在这里我们可以通过增加 the filter sizes and number of columns 来解决人群密度变化范围大的问题,但是这么做一方面很难适用于不同数据库,另一个方面计算量较大

3.4. Fusion-CNN (F-CNN) 这里我们将前面学习到的3类特征组合起来。 F-CNN is constructed using a set of convolutional and fractionally-strided convolutional layers. The set of fractionally-strided convolutional layers help us to restore details in the output density maps. The following structure is used for F-CNN: CR(64,9)-CR(32,7)- TR(32)-CR(16,5)-TR(16)-C(1,1) C is convolutional layer, R is ReLU layer, T is fractionally-strided convolution layer

这里我们参考了 GANs, 将 adversarial loss 引入进来。 improve the quality of density maps by minimizing a weighted combination of pixel-wise Euclidean loss and adversarial loss.

5 Experimental results ShanghaiTech Part A

UCF CC 50 dataset

WorldExpo’10 dataset

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CVer

[计算机视觉论文速递] 2018-03-09

通知:这篇推文有19篇论文速递信息,涉及图像分类、目标检测、目标分割、超分辨率SR、姿态估计、行人重识别Re-ID等方向 [1]《A Deep Learning...

34410
来自专栏机器之心

想要实现深度神经网络?一张 Excel 表格就够了

2956
来自专栏超然的博客

Context-Aware Network Embedding for Relation Modeling

论文:http://www.aclweb.org/anthology/P17-1158

1191
来自专栏机器之心

MetaMind深度解读NLP研究:如何让机器学习跳读

选自MetaMind 作者:Alexander Rosenberg Johansen 机器之心编译 参与:机器之心编辑部 自然语言处理是人工智能研究的核心问题之...

3589
来自专栏Coding迪斯尼

深度学习:透过神经网络的内在灵活与柏拉图的哲学理念

1343
来自专栏AI科技大本营的专栏

干货 | 目标检测入门,看这篇就够了(下)

? 作者 | 李家丞( 同济大学数学系本科在读,现格灵深瞳算法部实习生) 近年来,深度学习模型逐渐取代传统机器视觉方法而成为目标检测领域的主流算法,本系列文...

5737
来自专栏量化投资与机器学习

量化投资之机器学习应用——基于 SVM 模型的商品期货择时交易策略(提出质疑和讨论)

2016年在东证期货的量化报告里,读到一篇文章,关于量化投资策略之机器学习应用——基于 SVM 模型的期货择时交易策略 。就顺手算了一下,发现了一些问题,因此和...

3929
来自专栏GAN&CV

GoogLenet解读

本文介绍的是著名的网络结构GoogLeNet及其延伸版本,目的是试图领会其中的思想而不是单纯关注结构。

1132
来自专栏机器之心

斯坦福完全可解释深度神经网络:你需要用决策树搞点事

3966
来自专栏目标检测和深度学习

干货 | 目标检测入门,看这篇就够了(下)

作者 | 李家丞( 同济大学数学系本科在读,现格灵深瞳算法部实习生) 近年来,深度学习模型逐渐取代传统机器视觉方法而成为目标检测领域的主流算法,本系列文章将回...

4868

扫码关注云+社区