人群密度估计--Learning a perspective-embedded deconvolution network for crowd counting

Learning a perspective-embedded deconvolution network for crowd counting 没有找到代码

本文在人群密度估计这个问题上的创新点: fuse the perspective into a deconvolution network

首先看看 Perspective Perspective is an inherent property of most surveillance scenes

所谓的 Perspective 就是同一个尺寸的物体,在图像中位置的不同其在图像中的尺寸也是不一样的。距离相机越远其尺寸越小,距离相机越近其尺寸越大。在人群图像中的表现就是离相机远的人其在图像中就显得比较小,离相机比较近的人其在图像中显得比较大。 Perspective distortions need to be compensated in regression-based crowd counting methods

真值密度图的生成还是 人头位置的 Gaussian kernels 的求和,使用 perspective maps 来矫正 perspective distortion,主要根据这个 perspective maps 来设置 Gaussian kernels 中参数 the ground truth density map is defined as a summation of all the Gaussian kernels centering at each center of the objects. Due to the varying sizes of pedestrians caused by perspective distortion, it is necessary to incorporate specific scene geometric information to cover the size variations

下面接着来看这个 deconvolution network

网络的输入是 RGB images and the perspective maps L2 loss between the estimated and ground truth density maps is used to train our netowrk:

4.2. Baseline model: the counting FCN 基于语义分割框架 FCN的 baseline model (CFCN): the CFCN network constitutes layers from conv1 to conv4, with filter sizes of 32 7×7×3, 32 7×7×32, 64 5×5×32 for the first three layers.

4.3. Deconvolution network CFCN-DCN:加了两个卷积层 conv5 with filter size 5 × 5 and conv6 with filter size 7 × 7 are learnable kernels for precisely dense output a full-resolution output map

4.4. Perspective fusion the perspective-embedded deconvolution network (PE-CFCN-DCN) 这里看 图2 比较直接明了 A perspective map pyramid is constructed at different resolutions according to the network. Then fusion layer is implemented by direct concatenation of the feature maps from the RGB input and the correspondingly-sized perspective map. Each fusion layer is inserted before each deconvolution block for guided interpolation.

the labeled perspective map 这个怎么得到了?

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

这个AI能预测未来并生成逼真的视频(论文来自谷歌大脑、北航等)

问耕 若朴 编译整理 量子位 报道 | 公众号 QbitAI 先展示成果。下面是一组动图,展示的是AI如何根据一段视频,脑补出未来64帧的画面。 观看说明:当视...

3736
来自专栏机器之心

初学者必读:IBM长文解读人工智能、机器学习和认知计算

选自IBM 机器之心编译 参与:吴攀、黄小天、Nurhachu Null 人工智能的发展曾经经历过几次起起伏伏,近来在深度学习技术的推动下又迎来了一波新的前所...

4207
来自专栏专知

【干货】一文深入理解机器学习模型可解释的必要性和重要性

1253
来自专栏大数据文摘

从基线模型开始:别担心,模型最开始都让人不忍直视

1095
来自专栏企鹅号快讯

除了深度学习,你还应该了解这些发展方向

译者|严子怡 编辑|Emily AI 前线导读:毫无疑问,AI 的终极未来是达到并超越人类的智能。但是,这是一个非常遥远的目标。即使我们之中最乐观的人,也只敢打...

2026
来自专栏机器之心

业界 | 百度提出Deep Speaker:可用于端到端的大规模说话人识别

选自Baidu.Research 作者:Chao Li、Ajay Kannan 和 Zhenyao Zhu 机器之心编译 参与:吴攀 对话常常涉及到多个说话人,...

3448
来自专栏腾讯技术工程官方号的专栏

腾讯AI Lab解析2017 NIPS三大研究方向,启动教授及学生合作项目

第一部分我们介绍在NIPS上启动与推介的针对教授、学者与学生的共享AI合作项目。第二部分对NIPS探讨的递归神经网络、随机或一阶优化及生成模型等三大研究领域做...

25610
来自专栏新智元

神经网络突变自动选择AI优化算法,速度提升50000倍!

机器学习系统并非是“生而平等”的。没有一种算法能应对所有的机器学习任务,这就让寻找最优的机器学习算法成为一项艰巨又耗时的工作。不过这个问题现在有希望解决了,最近...

953
来自专栏苏博览的专栏

为什么要用深度学习来做个性化推荐 CTR 预估

深度学习应该这一两年计算机圈子里最热的一个词了。基于深度学习,工程师们在图像,语音,NLP等领域都取得了令人振奋的进展。而深度学习本身也在不断的探索和发展中,其...

1.3K1
来自专栏ATYUN订阅号

OpenAI:通过无监督学习提高语言理解能力

研究者通过一个可扩展的,与任务无关的系统获得了一系列不同语言任务的最新成果,这一系统也即将发布。此方法结合了两种现有的想法:Transformer和无监督的预训...

1084

扫码关注云+社区