人群密度估计--Learning a perspective-embedded deconvolution network for crowd counting

Learning a perspective-embedded deconvolution network for crowd counting 没有找到代码

本文在人群密度估计这个问题上的创新点: fuse the perspective into a deconvolution network

首先看看 Perspective Perspective is an inherent property of most surveillance scenes

所谓的 Perspective 就是同一个尺寸的物体,在图像中位置的不同其在图像中的尺寸也是不一样的。距离相机越远其尺寸越小,距离相机越近其尺寸越大。在人群图像中的表现就是离相机远的人其在图像中就显得比较小,离相机比较近的人其在图像中显得比较大。 Perspective distortions need to be compensated in regression-based crowd counting methods

真值密度图的生成还是 人头位置的 Gaussian kernels 的求和,使用 perspective maps 来矫正 perspective distortion,主要根据这个 perspective maps 来设置 Gaussian kernels 中参数 the ground truth density map is defined as a summation of all the Gaussian kernels centering at each center of the objects. Due to the varying sizes of pedestrians caused by perspective distortion, it is necessary to incorporate specific scene geometric information to cover the size variations

下面接着来看这个 deconvolution network

网络的输入是 RGB images and the perspective maps L2 loss between the estimated and ground truth density maps is used to train our netowrk:

4.2. Baseline model: the counting FCN 基于语义分割框架 FCN的 baseline model (CFCN): the CFCN network constitutes layers from conv1 to conv4, with filter sizes of 32 7×7×3, 32 7×7×32, 64 5×5×32 for the first three layers.

4.3. Deconvolution network CFCN-DCN:加了两个卷积层 conv5 with filter size 5 × 5 and conv6 with filter size 7 × 7 are learnable kernels for precisely dense output a full-resolution output map

4.4. Perspective fusion the perspective-embedded deconvolution network (PE-CFCN-DCN) 这里看 图2 比较直接明了 A perspective map pyramid is constructed at different resolutions according to the network. Then fusion layer is implemented by direct concatenation of the feature maps from the RGB input and the correspondingly-sized perspective map. Each fusion layer is inserted before each deconvolution block for guided interpolation.

the labeled perspective map 这个怎么得到了?

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏磐创AI技术团队的专栏

文本分类和朴素贝叶斯,你真的理解了吗?

【磐创AI导读】:本文简单介绍了文本分类和朴素贝叶斯。什么是文本分类?怎么把应用多项朴素贝叶斯分类器到文本分类?让我们一起阅读本文,寻找答案吧!想要学习更多的...

841
来自专栏机器之心

专栏 | Momenta详解ImageNet 2017夺冠架构SENet

4964
来自专栏机器之心

专栏 | CVPR 2017论文解读:Instance-Aware图像语义分割

机器之心专栏 作者:梁继 本届 CVPR 2017大会上出现了很多值得关注的精彩论文,国内自动驾驶创业公司 Momenta 联合机器之心推出 CVPR 201...

3657
来自专栏机器之心

学界 | 3D形状补全新突破:MIT提出结合对抗学习形状先验的ShapeHD

图 1. 研究者的模型使用单深度图像或 RGB 图像中的精细细节补全或重建对象的完整 3D 形状。

1474
来自专栏CVer

[计算机视觉论文速递] 2018-03-31

通知:这篇文章有10篇论文速递信息,涉及Re-ID、深度估计、超分辨率、显著性检测、GAN、VOA和卷积神经网络综述等方向 往期回顾 [计算机视觉论文速递] 2...

39814
来自专栏机器之心

学界 | 风格迁移新方法:微软与上海交大提出深度图像类比技术

选自arXiv.org 作者:廖菁等 机器之心编译 参与:李泽南 近年来,科学家们已经开发出了多种图像内容转换工具,其中包括颜色转换、纹理转换和风格转换。最近...

3827
来自专栏AI科技评论

深度 | 如此逼真的高清图像居然是端到端网络生成的?GANs 自叹不如 | ICCV 2017

AI 科技评论按:生成式对抗性网络 GANs 是近几年最热门的机器学习范式之一,它“图像生成效果好”和“训练困难、效果不稳定”的特点吸引了许许多多研究者付出精力...

3775
来自专栏机器之心

神经风格迁移研究概述:从当前研究到未来方向(附论文和代码)

选自arXiv 作者:Yongcheng Jing 等 机器之心编译 风格迁移是近来人工智能领域内的一个热门研究主题,机器之心也报道了很多相关的研究。近日,来...

4405
来自专栏人工智能LeadAI

logistic regression一点理解

关于logistic regression一些常见问题,整理出来,方便大家应对各种坑爹的面试官。

1712
来自专栏算法channel

机器学习:半朴素贝叶斯分类器

主要推送关于对算法的思考以及应用的消息。培养思维能力,注重过程,挖掘背后的原理,刨根问底。本着严谨和准确的态度,目标是撰写实用和启发性的文章,欢迎您的关注。 0...

4796

扫码关注云+社区

领取腾讯云代金券