人群计数--Single-Image Crowd Counting via Multi-Column Convolutional Neural Network

Single-Image Crowd Counting via Multi-Column Convolutional Neural Network CVPR2016 https://github.com/svishwa/crowdcount-mcnn https://github.com/leeyeehoo/Reduplication-of-Single-Image-Crowd-Counting-via-MCNN-on-UCF-Dataset

对图像和视频中的人数进行精确估计在公共安全中存在着实际需求。2015年上海发生的踩踏事件很直接的说明了实时人群计数的重要性。 针对该问题,首先回顾了一下传统算法的主要发展历程。最后说了一下使用CNN解决这个问题的文献。

针对基于单张图像人群计数的问题,主要面临如下三个挑战: 1)前景分割对于大多数人群计数算法是必不可少的步骤,但是前景分割本身就是一个很难的问题,目前还没有有效的解决方法。所以我们的计数算法必须不需要前景分割 2)实际图像中人群密度和分布的明显变化及图像中严重的遮挡 导致传统基于检测的算法不能很好的对这些图像进行计数 3)我们需要将图像中不同尺度的特征综合利用

本文的贡献有如下三点: 1)使用了一个 multi-column 架构 对用不同感受野尺寸,可以处理大的 variation 2)MCNN 采用全卷积网络,输入可以是任意尺寸 3)我们建了一个新的数据库 Shanghaitech,包括 Part A and Part B

2 Multi-column CNN for Crowd Counting 2.1. Density map based crowd counting 使用CNN对输入图像进行人数统计有两种策略:1)输入图像,输出人数估计 the estimated head count,2)输出一个人群密度估计图,然后通过积分得到人数。这里我们选择第二个策略,原因如下: 1)密度图保留更多的信息,相对于一个数值,密度图给出了人群在图像中的空间分布信息,可以进行局部区域的分析。 2)学习密度图的CNN中的滤波器能够更好的适应多尺寸的人头。

2.2. Density map via geometry-adaptive kernels 这里首先来介绍怎么从有人头标记的图像得到人群密度图。 如果一个像素 x 属于一个人头,那么我们使用一个 delta function 来表示,图像中N个人头数可以用 N个 delta function 求和函数 H(x) 表示。为了将 H(x) 转变为 连续的密度函数,我们使用一个高斯核 G 和 H(x) 进行卷积F(x) = H(x) ∗ G σ (x),这么做有个前提假设就是每个 x 都是独立的,但实际不是如此。 to accurately estimate the crowd density F, we need to take into account the distortion caused by the homography between the ground plane and the image plane

这里我们主要通过设计高斯核中合适的 方差来解决这个问题。 we should determine the spread parameter σ based on the size of the head for each person within the image

图像密度图实例

2.3. Multi-column CNN for density map estimation 针对图像中人头尺寸的多样性,我们设计了不同尺寸的滤波器来提取不同尺度的特征信息

损失函数定义如下:

各个数据库的比较

估计的密度图和真值密度图对比:

Comparing performances of different methods on Shanghaitech dataset

UCF CC 50 dataset

UCSD dataset

the WorldExpo’10 crowd counting dataset

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技大本营的专栏

OpenAI NLP最新进展:通过无监督学习提升语言理解

【AI 科技大本营导读】近日,OpenAI 在其官方博客发文介绍了他们最新的自然语言处理(NLP)系统。这个系统是可扩展的、与任务无关的,并且在一系列不同的 N...

913
来自专栏人工智能头条

何时不应使用深度学习?

651
来自专栏IT派

机器学习实用指南

初识机器学习 也许你和这个叫『机器学习』的家伙一点也不熟,但是你举起iphone手机拍照的时候,早已习惯它帮你框出人脸;也自然而然点开今日头条推给你的新闻;也习...

3555

何时使用线性回归,聚类或决策树

决策树,聚类和线性回归算法之间的差异已经在很多文章中得到了说明(比如这个和这个)。但是, 在哪里使用这些算法并不总是很清楚。通过这篇博文,我将解释在哪里可以使用...

2088
来自专栏人工智能头条

手工艺品电商平台Etsy的个性化推荐

1213
来自专栏大数据挖掘DT机器学习

欺诈预测机器学习模型设计:准确率和召回率

Airbnb网站基于允许任何人将闲置的房屋进行长期或短期出租构建商业模式,来自房客或房东的欺诈风险是必须解决的问题。irbnb信任和安全小组通过构建机器学习模型...

2774
来自专栏机器学习算法与Python学习

入门 | 用机器学习进行欺诈预测的模型设计

Airbnb网站基于允许任何人将闲置的房屋进行长期或短期出租构建商业模式,来自房客或房东的欺诈风险是必须解决的问题。Airbnb信任和安全小组通过构建机器学习模...

632
来自专栏AI科技评论

洞见|如何评价谷歌刚刚上线的神经机器翻译(GNMT)系统?

Google最新宣布发布谷歌神经机器翻译(GNMT:Google Neural Machine Translation)系统,在官方博客中Google称该系统使...

3535
来自专栏机器之心

学界 | 学习一帧,为整段黑白视频上色:谷歌提出自监督视觉追踪模型

在谷歌最近提交的论文《Tracking Emerges by Colorizing Videos》中,研究人员引入了一种为灰度视频着色的卷积神经网络,但它只需要...

883
来自专栏机器之心

前沿 | 首次大规模神经机器翻译架构分析结果出炉,LSTM 优于GRU

选自arxiv 作者:Denny Britz等 机器之心编译 参与:微胖、蒋思源、吴攀 这样的实验只有谷歌级别的公司才能处理的了。这篇文章对大型 NMT 模型训...

41410

扫码关注云+社区