专栏首页CVer亚马逊提出:用于人群计数的尺度感知注意力网络

亚马逊提出:用于人群计数的尺度感知注意力网络

前戏

最近出了真的很多论文,各种SOTA。比如前天po的商汤等提出:统一多目标跟踪框架,今天po的人群计数(Crowd Counting),又称人群密度估计。下次应该会po一篇目标检测方向的SOTA论文。

注意最新的论文,Amusi就不详细解读了(可能自己也不会)。更主要的是论文这玩意,还是要自己去品才有滋味。或许过两天,论文的作者团队会解读一番,对照着作者的解答来理解,这才原滋原味。

正文

《Scale-Aware Attention Network for Crowd Counting》

arXiv:https://arxiv.org/abs/1901.06026

作者团队:Amazon

注:2019年01月21日刚出炉的paper

Abstract:In crowd counting datasets, people appear at different scales, depending on their distance to the camera. To address this issue, we propose a novel multi-branch scale-aware attention network that exploits the hierarchical structure of convolutional neural networks and generates, in a single forward pass, multi-scale density predictions from different layers of the architecture. To aggregate these maps into our final prediction, we present a new soft attention mechanism that learns a set of gating masks. Furthermore, we introduce a scale-aware loss function to regularize the training of different branches and guide them to specialize on a particular scale. As this new training requires ground-truth annotations for the size of each head, we also propose a simple, yet effective technique to estimate it automatically. Finally, we present an ablation study on each of these components and compare our approach against the literature on 4 crowd counting datasets: UCF-QNRF, ShanghaiTech A & B and UCF_CC_50. Without bells and whistles, our approach achieves state-of-the-art on all these datasets. We observe a remarkable improvement on the UCF-QNRF (25%) and a significant one on the others (around 10%).

摘要:在人群计数的数据集中,人们以不同的尺度(scales)出现,具体取决于他们与摄像头的距离。为了解决这个问题,我们提出了一种新的多分支尺度感知注意网络,它利用卷积神经网络的层次结构,并在单个前向传播中生成来自架构不同层的多尺度密度预测。为了将这些 maps 聚合到我们的最终预测中,我们提出了一种新的 soft 注意力机制,其可以学习一组 gating masks。此外,我们引入了规模感知损失函数来规范不同分支的训练并指导它们专门研究特定的尺度。由于这种新训练需要对每个头部的大小进行 ground-truth 标注,我们还提出了一种简单而有效的技术来自动估计它。最后,我们对每个部分进行ablation study ,并将我们的方法与4个人群计数数据集的文献进行比较:UCF-QNRF,ShanghaiTech A&B和UCF_CC_50。实验结果表明,我们的方法在这些数据集上取得最先进技术的水平(state-of-the-art,SOTA)。我们观察到UCF-QNRF显著提高(25%),其他显著提高(约10%)。

Our multi-branch architecture

创新点

  • Baseline network for crowd counting
  • Scale-aware soft attention masks
  • Scale-aware loss regularization
  • Estimating the size of each head

实验结果

本文分享自微信公众号 - CVer(CVerNews),作者:Amusi

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-01-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 一文看尽21篇目标检测最新论文(腾讯/Google/商汤/旷视/清华/浙大/CMU/华科/中科院等)

    CVer 有几天没更新论文速递了,主要是这段时间的论文太多,而且质量较高的论文也不少,所以为了方便大家阅读,我已经将其中的目标检测(Object Detecti...

    Amusi
  • [计算机视觉论文速递] 2018-03-11

    通知:这篇推文有10篇论文速递信息,涉及目标检测、行人重识别Re-ID、图像检索和Zero-Shot Learning等方向 这篇文章本来是在2018-03-1...

    Amusi
  • [计算机视觉论文速递] 2018-07-07 CVPR 图像分割专场1

    这篇文章有 2篇论文速递,都是图像分割方向(CVPR 2018),一篇提出CCB-Cut损失,另一篇是对FCN网络进行了改进。注意,两篇都是CVPR 2018文...

    Amusi
  • 【CCF-CV特别活动】“CCF-腾讯犀牛鸟沙龙”走进腾讯优图

    中国计算机学会计算机视觉专委会走进企业系列交流会 CCF-CV@Industry 腾讯优图·上海 主题:图像识别和多媒体分析技术前沿 时间:2016年5月13日...

    腾讯高校合作
  • 【论文推荐】最新六篇行人再识别(ReID)相关论文—和谐注意力网络、时序残差学习、评估和基准、图像生成、三元组、对抗属性-图像

    【导读】专知内容组整理了最近六篇行人再识别(Person Re-Identification)相关文章,为大家进行介绍,欢迎查看! 1. Harmonious ...

    WZEARW
  • SCI闪电速递-快速发表论文杂志整理

    每到年底,都是大家最愁文章的时候。对于毕业了,已经参加工作的,过了年就要交国自然基金的标书,而自己的标书还没有扎实的工作基础;对于没毕业的,过年就意味着交毕业论...

    用户6317549
  • 高级知识评估:基于结果分析,重新设计基于药学专业的网络考试(CS CAS)

    各地信息技术的使用导致对新的教育方式有需求。现代化的电子学习环境将学生的学习知识和技能的教学,学习和评估带入了一个新时代,且考虑到学生的电子学习动机。高等数学课...

    时代在召唤
  • 【论文推荐】最新六篇推荐系统相关论文—注意力机制、多任务、协同跨网络、非结构化文本、TransRev、章节推荐

    WZEARW
  • 【论文推荐】最新七篇推荐系统相关论文—协同度量学习、SQL-Rank、用户行为与神经网络、隐私价格、贝叶斯、 IoT、序列感知

    【导读】专知内容组整理了最近七篇推荐系统(Recommender System)相关文章,为大家进行介绍,欢迎查看! 1. Collaborative Metr...

    WZEARW
  • 利用多任务学习与众包的特点以提高皮损诊断(Human-Computer Interaction)

    人们认识到机器学习需要大量的带注释的数据。由于专家注释的高成本,群众外包,即要求非专家标记或轮廓图像,已被建议作为一种替代方案。虽然有许多有前途的结果被报道,诊...

    用户6869393

扫码关注云+社区

领取腾讯云代金券