Leveraging Unlabeled Data for Crowd Counting by Learning to Rank CVPR2018 https://github.com/xialeiliu/CrowdCountingCVPR18
本文针对人群密度估计训练数据库规模很小的问题 提出了使用未标定数据来 self-supervised,具体通过 Learning to Rank
人群密度估计数据库规模很小的主要原因是 图像标记工作量很大,需要将图像中密集人群每个人头标记出来。这里我们提出一个方法来利用大量未标记的数据。 具体的方法就是让网络学会排序,怎么排序了? 就是一个图像中的局部区域包含的人数肯定小于等于整个图像的人数
使用这个约束来辅助训练网络。
context-aware models 主要学习图像中的context,文献[12,31]将图像块根据人群密度大小 分为5个等级 very high density, high density, medium density, low density and very low density
scale-awareness 主要解决不同图像存在 large variations of density,主要的思路就是 multi-column based architecture (MCNN) to capture the different densities by using different sizes of kernels in the network; Hydra-CNN 采用多分辨率输入; switching CNN 自适应选择合适的网络来处理输入图像块
3 Generating ranked image sets for counting 这里介绍怎么利用没标记的图像数据,首先是从网络搜索和现有数据库类似的图像,然后按照下面的方式生成 ranked image
4 Learning from ranked image sets 4.1. Crowd density estimation network 人群密度估计网络,这里我们使用 VGG16网络,利用预训练网络模型参数可以提升网络的人群密度估计性能
4.2. Crowd ranking network
这里我们主要设计了一个 ranking loss
4.3. Combining counting and ranking data 这里主要介绍了三种将 排序数据嵌入到人群密度估计的方式
5 Experiments 误差度量公式