[计算机视觉论文速递] 2018-03-16

Amusi

发布于 2018-04-12 09:57:30

9350

发布于 2018-04-12 09:57:30

文章被收录于专栏：CVer

通知：这篇推文有14篇论文速递信息，涉及目标检测、图像分割、显著性目标检测、人脸识别和GAN等方向

最近有些忙，论文速递频率快下降至两天一更了，希望大家可以体谅。

前文回顾

[计算机视觉] 入门学习资料

[计算机视觉论文速递] 2018-03-14

[计算机视觉论文速递] 2018-03-11

目标检测

[1]《Illumination-aware Faster R-CNN for Robust Multispectral Pedestrian Detection》

Abstract：对于行人检测来说，色彩 - 热量对的多光谱图像比单一颜色通道更有效，特别是在具有挑战性的照明条件下。但是，如何有效融合这两种模式仍然缺乏研究。在本文中，我们深入比较了六种不同的卷积网络融合体系结构并分析了它们的适应性，使得vanilla architecture能够获得与最新结果相媲美的检测性能。此外，我们发现，来自彩色或热图像的行人检测可信度与照明条件相关。考虑到这一点，我们提出了一种照明感知更快的R-CNN（IAF RCNN）。具体而言，引入照明感知网络来给出输入图像的照明度量。Then we adaptively merge color and thermal sub-networks via a gate function defined over the illumination value. The experimental results on KAIST Multispectral Pedestrian Benchmark validate the effectiveness of the proposed IAF R-CNN.

arXiv：https://arxiv.org/abs/1803.05347

[2]《Rotation-Sensitive Regression for Oriented Scene Text Detection》

CVPR 2018

Abstract：自然图像中的文本具有任意方向，需要根据定向边界框进行检测。通常情况下，多导向的文本检测器往往涉及两个关键任务：1）文本存在检测，这是一个无视文本方向的分类问题; 2）面向边界框的回归，它关注文本的方向。以前的方法依赖于这两个任务的共享功能，由于两个任务不兼容导致性能下降。为了解决这个问题，我们提出对不同设计的两个网络分支提取不同特征的特征进行分类和回归。具体而言，回归分支通过主动旋转卷积滤波器来提取旋转敏感特征，而分类分支通过汇集旋转敏感特征来提取旋转不变特征。所提出的方法名为旋转敏感回归检测器（RRD），在三个面向文本的基准数据集（包括ICDAR 2015，MSRA-TD500，RCTW-17和COCO-Text）上实现了最先进的性能。此外，RRD在船舶采集数据集上实现了重大改进，证明了其在面向对象检测方面的一般性。

arXiv：https://arxiv.org/abs/1803.05265

[3]《Knowledge-based Recurrent Attentive Neural Network for Traffic Sign Detection》

Abstract：准确的交通标志检测（TSD）可以帮助驾驶员根据交通规则做出更好的决策。 TSD作为一种典型的小型物体检测问题，在自动驾驶和先进的驾驶辅助系统领域是非常重要的。但是，小物体检测仍然是一个悬而未决的问题。在本文中，我们提出了一个人脑启发网络来处理这个问题。注意机制是我们大脑的基本功能，我们使用了一种新颖的周期性注意神经网络，以精细获得的方式提高检测精度。此外，由于我们人类可以结合领域特定知识和直觉知识来解决棘手的任务，因此我们提出了一个假设，即交通标志的位置服从反向高斯分布，这意味着位置在每张图片的中心偏向附近。实验结果表明，我们的方法比目标检测中使用的几种常用方法取得了更好的性能。

arXiv：https://arxiv.org/abs/1803.05263

[4]《Revisiting Salient Object Detection: Simultaneous Detection, Ranking, and Subitizing of Multiple Salient Objects》

Abstract：显著目标检测是一个已被详细考虑的问题，并提出了许多解决方案。在本文中，我们认为迄今为止的工作已经解决了一个相对不合适的问题。具体而言，当多个观察者被询问时，对于什么构成显著目标并没有普遍的一致意见。这意味着一些目标比其他目标更有可能被判断为显著，并且意味着显著物体上存在相对等级。本文提出的解决方案解决了考虑相对等级的这个更一般的问题，并且我们提出了适合测量相对对象显著性landscape成功的数据和度量。基于相对显著性和分阶段细化的分层表示，提出了一种新颖的深度学习解决方案。我们还表明，显著对象subitizing的问题可以用同一网络来解决，而且我们的方法超越了所有考虑的指标（传统和新提出的）的任何先前工作的性能。

arXiv：https://arxiv.org/abs/1803.05082

图像分割

[5]《Combining Multi-level Contexts of Superpixel using Convolutional Neural Networks to perform Natural Scene Labeling》

Abstract：现代深度学习算法引发了各种图像分割方法。然而，其中大多数涉及基于像素的分割。但是，超像素提供了一定程度的上下文信息，同时降低了计算成本。在我们的方法中，我们已经执行了超像素级别的语义分割，考虑3个不同层次作为语义上下文的邻居。此外，我们已经招募了一些集合方法，如最大投票和加权平均。我们还使用了Dempster-Shafer不确定性理论来分析各种类别之间的混淆。我们的方法已被证明在同一数据集上优于许多不同的现代方法。

注：厉害厉害，superpixel semantic segmentation

arXiv：https://arxiv.org/abs/1803.05200

[6]《Topology guaranteed segmentation of the human retina from OCT using convolutional neural networks》

Abstract：光学相干断层扫描（OCT）是一种无创成像模式，可用于获取视网膜的深度图像。因此可以通过分析这些OCT图像来量化变化的层厚度，而且已经显示这些变化与多发性硬化症中的疾病进展相关。最近的自动视网膜层分割工具使用机器学习方法来执行像素方式标记和图形方法以保证图层分层结构或拓扑结构。然而，像距离和平滑度约束等图形参数必须通过视网膜区域和病理进行实验指定，从而降低整个框架的灵活性和时间效率。在本文中，我们开发了级联深度网络，以在单前馈传播中提供拓扑正确的视网膜层分割。第一个网络（S-Net）执行按像素标记，第二个回归网络（R-Net）采用拓扑不受约束的S-Net结果，并输出每层和每个位置的层厚度。 Relu激活被用作R-Net的最终操作，其保证了输出层厚度的非负性。由于分割边界位置是通过对相应的非负层厚度求和而获得的，所以即使在边界之间的距离可以为零的中心凹处也保证了重构边界的层次排序（即，拓扑结构）。 R-Net使用模拟掩模进行训练，因此可以推广到为其他分层结构提供拓扑保证分割。这个深度网络已经达到可比较的平均绝对边界误差（2.82微米）到最先进的图形方法（2.83微米）。

arXiv：https://arxiv.org/abs/1803.05120

人脸

[7]《Face-MagNet: Magnifying Feature Maps to Detect Small Faces》

Abstract：在本文中，我们介绍面部放大器网络（Face-MageNet），它是一种基于Faster-RCNN框架的人脸检测器，可以将小尺度人脸的识别信息流传送给分类器，而不会出现任何跳跃或残留连接。为了实现这个目标，Face-MagNet在区域提议网络（RPN）中部署了一套ConvTranspose（也称为去卷积）层，并在感兴趣区域（RoI）池层之前部署了另一套ConvTranspose，以便于检测更精细的人脸。此外，我们还设计，培训和评估其他三个精心设计的架构，这些架构代表了规模问题的常规解决方案：上下文池，跳过连接和缩放分区。这三个网络中的每一个都可以获得与最先进的面部检测器相媲美的结果。经过大量实验，我们证明基于VGG16架构的Face-MagNet比最近提出的基于ResNet101的HR方法在WIDER数据集上的人脸检测任务上获得了更好的结果，并且在hard set上也获得了与我们的其他方法SSH类似的结果。

arXiv：https://arxiv.org/abs/1803.05258

GAN

[8]《Image Colorization with Generative Adversarial Networks》

Abstract：在过去的十年中，灰度图像的彩色化和老化和/或退化图像的恢复，自动着色的过程已经被彻底研究。由于颜色信息分配过程中的自由度非常大，因此这个问题非常不恰当。自动彩色化的近期发展包括在整个培训期间包含共同主题的图像，和/或需要高度处理的数据（如语义地图）作为输入数据。在我们的方法中，我们试图使用有条件的深度卷积生成对抗网络（DCGAN）完全概括这个过程。该网络通过公开可用的数据集进行培训，如CIFAR-10和Places365。比较生成模型和传统深层神经网络的结果。

arXiv：https://arxiv.org/abs/1803.05400

其它

[9]《Deep Image Demosaicking using a Cascade of Convolutional Residual Denoising Networks》

Abstract：去马赛克和去噪是现代数码相机pipelines中最关键的步骤之一。同时，联合图像去噪 - 去马赛克是一种非常不适合的反演问题，其中至少有三分之二的信息丢失，其余的信息被噪声破坏。这对于获得有意义的重建提出了巨大的挑战，并且需要特别注意有效处理该问题。虽然最近有几种机器学习方法被用来解决这个问题，但在这项工作中，我们提出了一种新颖的深度学习体系结构，它受到强大的经典图像正则化方法和大规模凸面优化技术的启发。因此，与其他竞争深度学习方法相比，我们派生的网络更加透明并且有着明确的解释。我们广泛的实验表明，我们的网络在噪声和无噪数据方面都优于以前的任何方法。重建质量的这种提高归功于我们设计网络架构的原则性方式，与当前最先进的深度网络解决方案相比，这种方法所需的可训练参数也更少。最后，我们表明，即使在小数据集上进行训练时，我们的网络仍具有良好的泛化能力，同时保持低参数总数。

arXiv：https://arxiv.org/abs/1803.05215

[10]《Transparency by Design: Closing the Gap Between Performance and Interpretability in Visual Reasoning》

Abstract：视觉问题回答需要图像的高阶推理，这是机器系统遵循复杂指令所需的基本能力。最近，模块化网络已被证明是执行视觉推理任务的有效框架。虽然模块化网络最初设计时具有一定程度的模型透明度，但它们在复杂的视觉推理基准上的表现还很欠缺。当前最先进的方法不能提供理解推理过程的有效机制。在本文中，我们关闭了可解释模型和最先进的视觉推理方法之间的性能差距。我们提出了一组视觉推理原语，它们在组成时表现为能够以明确可解释的方式执行复杂推理任务的模型。基元输出的保真度和可解释性使得无与伦比的能力可以诊断所得模型的优点和缺点。重要的是，我们显示这些原始数据是高性能的，在CLEVR数据集上达到了99.1％的最高精确度。我们还表明，当提供包含新颖对象属性的少量数据时，我们的模型能够有效地学习广义表示。使用CoGenT概括任务，我们显示出比现有技术水平提高了20个百分点。

注：视觉推理VOA再次Mark

arXiv：https://arxiv.org/abs/1803.05268

[11]《EdgeStereo: A Context Integrated Residual Pyramid Network for Stereo Matching》

Abstract：最近卷积神经网络（CNN）极大地促进了立体匹配的发展。特别是那些端到端的立体方法实现最佳性能。然而，对编码上下文信息的关注较少，简化了两阶段视差学习管道，并改善了视差图中的细节。不同的是，我们专注于这些问题。首先，我们提出了一种基于一阶段上下文金字塔的残差金字塔网络（CP-RPN）进行视差估计，其中嵌入了上下文金字塔以明确地对多尺度上下文线索进行编码。接下来，我们设计了一个名为EdgeStereo的基于CNN的多任务学习网络，利用边缘检测任务中的中级特征来恢复视差图中的缺失细节。在EdgeStereo中，CP-RPN与基于双重多任务交互的建议边缘检测器HEDβ集成在一起。端到端EdgeStereo直接从立体对输出边缘地图和视差图，而无需任何后期处理或正则化。我们发现边缘检测任务和立体匹配任务可以在我们的EdgeStereo框架中互相帮助。诸如Scene Flow和KITTI 2015等立体基准的全面实验表明，我们的方法达到了最先进的性能。

arXiv：https://arxiv.org/abs/1803.05196

[12]《LCANet: End-to-End Lipreading with Cascaded Attention-CTC》

Abstract：机器唇部读取是一种特殊类型的自动语音识别（ASR），它通过视觉解释包括嘴唇，脸部和舌头在内的相关脸部区域的运动来转录人类言语。最近，基于深度神经网络的唇线阅读方法显示出巨大的潜力，并且在一些基准数据集中超过了经验丰富的人类唇线笔的准确性。然而，唇读仍远未解决，现有方法对野生数据的错误率往往较高。在本文中，我们提出LCANet，一种基于端到端深度神经网络的唇读系统。 LCANet使用堆叠的3D卷积神经网络（CNN），高速公路网络和双向GRU网络对输入视频帧进行编码。编码器有效捕获短时和长时空时信息。更重要的是，LCANet集成了一个级联注意-CTC解码器来生成输出文本。通过级联CTC注意力，它可以部分消除隐藏的神经层中CTC的条件独立性假设的缺陷，并且这产生显着的性能改进以及更快的收敛。实验结果表明，所提出的系统在GRID语料库数据库上实现了1.3％的CER和3.0％的WER，与最先进的方法相比，导致了12.3％的改进。

注：CNN都能用到唇读上了，腻害腻害！

arXiv：https://arxiv.org/abs/1803.04988

[13]《Averaging Weights Leads to Wider Optima and Better Generalization》

Abstract：深度神经网络通常通过使用SGD变量优化损失函数以及衰减学习率来训练，直到收敛。我们表明，沿着SGD的轨迹的多个点的简单平均，具有周期性或恒定的学习率，导致比传统训练更好的泛化。我们还表明，这种随机加权平均（SWA）程序发现比SGD更广泛的最优化，并且近似于最近的使用单个模型的快速几何集成（FGE）方法。使用SWA，我们在CIFAR-10，CIFAR-100和ImageNet上与传统的SGD培训相比，在一系列最先进的残留网络，PyramidNets，DenseNets和Shake-Shake网络上实现了测试精度的显着提高。简而言之，SWA非常容易实现，改进了泛化，几乎没有计算开销。

注：SWA？？？

arXiv：https://arxiv.org/abs/1803.05407

[14]《Approximate Query Matching for Image Retrieval》

Abstract：传统图像识别涉及通过单个对象焦点（ILSVRC，AlexNet和VGG）识别纵向型图像中的关键对象。更近期的方法考虑密集图像识别 - 用合适的边界框分割图像并在这些边界框内执行图像识别（语义分割）。 Visual Genome数据集[5]试图将这些不同的方法连接到每个子任务边界框生成，图像识别，字幕和一项新操作（场景图生成）的粘性数据集上。我们的重点是使用这样的场景图来对图像数据库执行图搜索以基于搜索标准整体检索图像。我们开发了一种方法，在图形数据库（使用Neo4J）中存储场景图形和元数据，并基于图形搜索查询执行图像的快速近似检索。我们处理比单个对象搜索更复杂的查询，例如“女孩吃蛋糕”检索包含指定关系以及变体的图像。

arXiv：https://arxiv.org/abs/1803.05401