通知:这篇文章有6篇论文速递信息,涉及CNN新网络、人脸检测、目标检测和超分辨率等方向(含2篇CVPR论文)
CNN
[1]《DCAN: Dual Channel-wise Alignment Networks for Unsupervised Scene Adaptation》
Abstract:收集(Harvesting)密集的像素级注释以训练深度神经网络进行语义分割代价非常大且难以处理的。尽管从容易获得标签的合成数据中学习听起来很有希望,但由于域差异(domain discrepancies)而对新颖的实际数据进行测试时性能明显下降。我们提出了双通道对准网络(Dual Channel-wise Alignment Networks,DCAN),这是一种简单而有效的方法,可减少像素级和特征级的域偏移。探索CNN特征map的每个通道的统计数据,我们的框架在图像生成器和分割网络中执行通道方式(channel-wise)的特征对齐,从而保留空间结构和语义信息。具体来说,给定来自源域的图像和来自目标域的未标记样本,生成器即时合成新图像以在外观上类似于来自目标域的样本,并且分割网络在预测语义之前进一步细化高级特征它们都利用来自目标域的采样图像的特征统计。与近期依靠对抗训练的工作不同,我们的框架非常轻巧,易于训练。将经过合成分割基准训练的模型与适合真实城市场景的大量实验证明了该框架的有效性。
arXiv:https://arxiv.org/abs/1804.05827
[2]《IGCV2: Interleaved Structured Sparse Convolutional Neural Networks》
CVPR 2018
Abstract:在本文中,我们研究了设计有效的卷积神经网络结构,这些结构的目的在于消除卷积核中的冗余。除了结构化稀疏内核,低阶(low-rank)内核和低阶内核的产品之外,结构化稀疏内核(structured sparse kernels)的产品是结构化的,它是解释最近开发的交错群卷积(interleaved group convolutions,IGC)及其变体(例如,Xception ),吸引了越来越多的关注。
受观察结果的启发,包含在IGC中的卷积中的卷积可以用相同的方式进一步分解,我们提出了一个模块化构建块{IGCV2:}交错结构化稀疏卷积。它将由两个结构化稀疏内核组成的交织群卷积推广到更多结构化稀疏内核的产品,进一步消除冗余。我们提出了互补条件和平衡条件来指导结构化稀疏核的设计,在模型大小,计算复杂度和分类精度三个方面取得平衡。实验结果证明了与交错群卷积和Xception相比,这三个方面的平衡优势,以及与其他最先进的架构设计方法相比的竞争性能。
arXiv:https://arxiv.org/abs/1804.06202
Face
[3]《Real-Time Rotation-Invariant Face Detection with Progressive Calibration Networks》
CVPR 2018
Abstract:旋转不变人脸检测,即检测具有任意旋转平面(RIP)角度的人脸,在不受约束的应用中广泛需要,但由于人脸外观的巨大变化仍然是一项具有挑战性的任务。大多数现有方法都以速度或准确度来处理大型RIP变体。为了更有效地解决这个问题,我们提出逐步校准网络(PCN)以粗到细的方式执行旋转不变的人脸检测。 PCN由三个阶段组成,每个阶段不仅可以区分人脸和非人脸,还可以逐个校准每个人脸候选人的RIP方向。通过将校准过程分为几个渐进步骤,并且只在早期阶段预测粗略方向,PCN可以实现精确和快速的校准。通过逐步减少RIP范围对面部和非面部进行二元分类,PCN可以以360°全角RIP角度精确检测面部。这种设计导致实时旋转不变的人脸检测器。在多向FDDB和包含广泛旋转面部的WIDER FACE的具有挑战性的子集上的实验表明,我们的PCN实现了相当高的性能。
arXiv:https://arxiv.org/abs/1804.06039
github:https://github.com/Jack-CV/PCN
Object Detection
[4]《Towards High Performance Video Object Detection for Mobiles》
Abstract:尽管最近在桌面GPU上成功实现了视频对象检测,但它的体系结构对手机来说仍然过于沉重。 稀疏特征传播和多帧特征聚合的关键原理是否适用于非常有限的计算资源也不清楚。 在本文中,我们提出了一个轻量级网络体系结构,用于在手机上进行视频对象检测。 轻量级图像对象检测器应用于稀疏关键帧。 一个非常小的网络Light Flow旨在跨帧建立对应关系。 流引导的GRU模块旨在有效地聚合关键帧上的特征。 对于非关键帧,执行稀疏特征传播。 整个网络可以进行端到端的培训。 所提出的系统在移动设备(例如,HuaWei Mate 8)上以25.6fps的速度获得60.2%的mAP分数。
arXiv:https://arxiv.org/abs/1804.05830
注:华为Mate8上跑,厉害了!
[5]《Robust Physical Adversarial Attack on Faster R-CNN Object Detector》
Abstract:鉴于直接操作数字输入空间中的图像像素的能力,敌手可能容易产生不可察觉的干扰以愚弄深度神经网络(DNN)图像分类器,如以前的工作中所证明的那样。在这项工作中,我们解决了制造物理对抗性扰动的更具挑战性的问题,以愚弄基于图像的物体探测器,如Faster R-CNN。攻击一个目标检测器比攻击一个图像分类器要困难得多,因为它需要误导不同尺度的多个边界框中的分类结果。将数字攻击扩展到物理世界增加了另一层困难,因为它要求扰动足够强大,以适应不同的观看距离和角度,照明条件和摄像机限制造成的真实世界的失真。我们表明,最初提出的用于增强图像分类中对抗性扰动鲁棒性的转换期望技术可成功适用于对象检测设置。我们的方法可能会产生对抗扰动的停车标志,这些标志一直被Faster R-CNN误检为其他物体,对自动驾驶车辆和其他安全关键型计算机视觉系统构成潜在威胁。
arXiv:https://arxiv.org/abs/1804.05810
Super Resolution
[6]《Densely Connected High Order Residual Network for Single Frame Image Super Resolution》
Abstract:深度卷积神经网络(DCNN)近来在超分辨率研究中被广泛采用,但以前的工作主要集中在模型中尽可能多的层次上,本文中我们提出了一种关于图像恢复问题的新观点,可以构造反映图像恢复过程的物理意义的神经网络模型,即将图像复原的先验知识直接嵌入到神经网络模型的结构中,我们采用对称非线性色空间(symmetric non-linear colorspace),S形(sigmoidal)传递, 为取代诸如sRGB,Rec.709等非对称非线性颜色空间的传统转换,我们还提出了一种“reuse plus patch”方法来处理不同缩放因子的超分辨率,我们提出的方法和模型表现出总体上优越的性能,even though our model was only roughly trained and could still be underfitting the training set.
arXiv:https://arxiv.org/abs/1804.05902