[计算机视觉论文速递] 2018-03-14

Amusi

发布于 2018-04-12 09:54:56

8490

发布于 2018-04-12 09:54:56

文章被收录于专栏：CVerCVer

通知：这篇推文有18篇论文速递信息，涉及图像分割、目标检测、图像分类、显著性检测、姿态估计和GAN等方向

前文回顾：

[计算机视觉] 入门学习资料

[计算机视觉论文速递] 2018-03-11

[计算机视觉论文速递] 2018-03-09

图像分割

[1]《Automatic Pixelwise Object Labeling for Aerial Imagery Using Stacked U-Nets》

Abstract：航空影像中物体标记的自动化是一项计算机视觉任务，具有许多实际应用。像能源勘探这样的领域需要一种自动化方法来每天处理连续的图像流。在本文中，我们提出了一个流水线来解决这个问题，使用一堆端到端的卷积神经网络（U-Net架构）。每个网络都作为后一个处理器工作。我们的模型在两个不同的数据集上胜过当前的最新技术：Inria Aerial Image Labeling数据集和Massachusetts Buildings数据集，每个数据集都具有不同的特征，如空间分辨率，物体形状和比例尺度。此外，我们通过处理子采样图像并稍后向上采样按像素标记来实验验证计算时间节省。节省的这些资源对分割质量的影响可以忽略不计。虽然本文进行的实验仅涵盖航空影像，但所呈现的技术是通用的并且可以处理其他类型的影像。

注：再次Mark一下U-Net

arXiv：https://arxiv.org/abs/1803.04953

[2]《Quantization of Fully Convolutional Networks for Accurate Biomedical Image Segmentation》

Accepted by CVPR

Abstract：随着医疗影像在医疗保健中的广泛应用，生物医学图像分割在定量分析，临床诊断和医疗干预中发挥着核心作用。由于手动注释具有有限的重复性，艰苦的工作和过多的时间，因此需要自动分割以处理越来越大规模的组织病理学数据。最近，深度神经网络（DNNs），特别是完全卷积网络（FCNs），已被广泛应用于生物医学图像分割，获得了更好的性能。与此同时，DNN的量化已成为一个活跃的研究课题，其目标是用较少的内存（精度）来表示权重，以在保持可接受的精度的同时大大降低DNN的存储器和计算需求。在本文中，我们将量化技术应用于FCNs，以实现精确的生物医学图像分割。与现有的主要针对存储器和计算复杂度降低的量化文献不同，我们将量化作为一种方法来减少FCN中的聚合以获得更好的准确性。具体而言，我们专注于最先进的分割框架，提示性注释[22]，它从原始训练数据集中明智地提取代表性注释样本，获得有效的小型平衡训练数据集。我们为这个框架开发了两个新的量化过程：（1）对具有高度代表性的训练样本进行量化的暗示性注释;（2）具有高精度量化的网络训练。在MICCAI格兰德数据集上进行的大量实验表明，两种量化过程都可以提高分割性能，而且我们提出的方法超过当前最先进的性能高达1％。另外，我们的方法在内存使用上可减少高达6.4倍。

注：图像分割在医学领域的应用真是没话说，paper极多！

arXiv：https://arxiv.org/abs/1803.04907

[3]《Multimodal Recurrent Neural Networks with Information Transfer Layers for Indoor Scene Labeling》

Abstract：本文提出了一种用于RGB-D场景语义分割的多模RNN的新方法。它针对给定两个输入源的图像像素进行了优化：RGB颜色通道和深度图。它同时执行通过信息传输层交叉连接的两个循环神经网络（RNN）的训练，其被学习为自适应地提取相关的交叉模态特征。每个RNN模型从它自己以前的隐藏状态中学习它的表示，并从其他RNN的先前隐藏状态转移模式;因此，保留了特定模型和交叉模态特征。我们利用四维2D-RNN的结构来模拟2D输入图像中的短距离和长距离上下文信息。我们仔细设计了各种基线，以有效检查我们提出的模型结构。我们在广受欢迎的RGB-D基准测试中测试了我们的多模RNNs方法，并展示了它如何显着优于以前的方法，并与其他最先进的作品取得了有竞争力的结果。

注：RNN，RGB-D，semantic segmentation结合！

arXiv：https://arxiv.org/abs/1803.04687

[4]《Image Segmentation and Processing for Efficient Parking Space Analysis》

ICICES 2018

Abstract：在本文中，我们开发了一种在MATLAB图像处理能力的帮助下，在不明确的线段和轮廓的环境中检测空置停车位的方法。由于停车位存在异常现象，例如照明不均匀，槽线变形和车辆重叠。目前的传统算法难以处理图像以获得准确的结果。所提出的算法使用图像预处理和伪轮廓检测技术的组合来提高检测效率。所提出的方法也消除了使用单个传感器来检测汽车的需要，而是使用实时静态图像来将一组插槽组合在一起，而不是通常的单插槽方法。这大大降低了设计高效停车系统所需的费用。我们比较了我们的算法与其他技术的性能。这些比较表明，所提出的算法可以检测停车位的空位，同时忽略虚假数据和其他失真。

arXiv：https://arxiv.org/abs/1803.04620

目标检测

[5]《Using Convolutional Neural Network for Determining Reticulocyte Percentage in Cats》

Abstract：人工智能（AI）方面的最新进展，特别是计算机视觉（CV）和深度学习（DL），为许多领域的新颖系统创造了机会。在过去的几年里，深度学习应用不仅在自动驾驶和机器人领域取得了令人瞩目的成就，而且在医学领域也取得了令人瞩目的成果，有些甚至超过了人类的表现。然而，尽管潜力巨大，但在许多领域采用基于深度学习的方法仍然很慢，尤其是在兽医学领域，我们无法在医学图像处理中找到任何使用现代卷积神经网络（CNN）的研究论文。我们相信，使用基于深度学习的医学成像可以实现更准确，更快，更便宜的兽医诊断。然而，为了这样做，这些方法必须能够被这个领域的每个人所使用，而不仅仅是计算机科学家。为了展示这种技术的潜力，我们将结果展示在通常人工完成的兽医实际任务中：猫网织红细胞百分比。使用开放源码Keras实施的单发多盒探测器（SSD）模型架构并仅对800个标记图像进行训练，我们在猫血涂片的显微镜图像中预测聚集网织红细胞的正确数量的准确率达到98.7％。本文背后的主要动机是不仅表明深度学习可以接近甚至超越人类在这样的任务中的表现，而且即使没有计算机科学的背景知识，任何领域的人都可以实现它。

arXiv：https://arxiv.org/abs/1803.04873

[6]《Target Driven Instance Detection》

Abstract：尽管最先进的通用对象检测器越来越好，但没有多少系统专门用来利用实例检测问题。对于许多应用，例如家庭机器人，系统可能需要一次识别几个非常特定的实例。在这些应用程序中，速度至关重要，因为需要识别以前看不见的实例。我们引入了一个目标驱动实例检测器（TDID），该实例检测器修改了用于实例识别设置的现有通用对象检测器。 TDID不仅可以提高训练期间看到的实例的性能，而且还可以快速运行，但也可以推广以检测新的实例。

注：What is Instance detection？

arXiv：https://arxiv.org/abs/1803.04610

[7]《Event-based Moving Object Detection and Tracking》

Abstract：基于事件的视觉传感器，如动态视觉传感器（DVS），非常适合实时运动分析。这些传感器读数所包含的独特属性提供了高时间分辨率，对光线的超强灵敏度和低延迟。这些特性为在最复杂情况下非常可靠地估算运动提供了理由，但它们的价格很高 - 基于现代事件的视觉传感器具有极低的分辨率并产生大量噪音。而且，事件流的异步特性需要新颖的算法。

本文提出了一种新的高效的异步相机跟踪对象方法。我们提出了一种新颖的事件流表示形式，它使我们能够利用关于事件流的动态（时间）组件的信息，而不仅仅是在每个时刻的空间组件。这通过用参数模型近似事件流的3D几何来完成;结果，该算法能够产生运动补偿事件流（有效逼近运动），并且在没有任何形式的特征跟踪或明确的光流计算的情况下，在极低光和噪声条件下不使用任何形式的外部传感器。我们在独立运动检测和跟踪任务中展示了我们的框架，我们使用时间模型不一致性来在非常快速的运动的具有挑战性的情况下定位不同的运动对象。

注：我室友应该会很喜欢这篇文章。

arXiv：https://arxiv.org/abs/1803.04523

图像分类

[8]《Expert identification of visual primitives used by CNNs during mammogram classification》

Abstract：这项工作解释了二维乳房X线照片中为了分类病变组织而训练的深度神经网络的内部表示。我们提出了一种专家在环解释方法来标记卷积神经网络（CNN）中内部单元的行为。专家放射科医师发现，单位检测到的视觉模式与有意义的医疗现象相关，如肿块组织和钙化血管。我们证明几个经过培训的CNN模型能够产生解释性描述以支持最终的分类决定。我们认为这是解释医学分类CNN内部表征并解释其预测的重要的第一步。

arXiv：https://arxiv.org/abs/1803.04858

显著性预测

[9]《A Learning-Based Visual Saliency Prediction Model for Stereoscopic 3D Video (LBVS-3D)》

Abstract：在过去的十年中，已经为二维图像和视频提出了许多计算显著性预测模型。考虑到人类视觉系统已经在自然的3D环境中发展，想要为3D内容设计视觉注意模型是很自然的。现有的单眼显著模型无法准确预测应用于3D图像/视频内容时的注意区域，因为它们不包含深度信息。本文探讨了利用低级属性（如亮度，颜色，纹理，方向，运动和深度）以及高级提示（如脸部，人物，车辆，动物，文本和视野）来进行立体视频显著性预测。我们的模型以粗略的分割开始，并量化几个直观的观察结果，例如视觉不适等级，深度突然，运动加速度，惊喜元素，显著区域的大小和紧凑程度以及仅强调场景中的少数显著对象。采用新的基于中心凹的图像区域之间的空间距离模型来考虑局部和全局特征计算。为了将由我们的方法生成的明显性图高效地融合成与眼固定数据高度相关的单个显著图，使用基于随机森林的算法。所提出的显著性模型的性能根据眼动追踪实验的结果进行评估，该实验涉及24个对象和61个捕获的立体视频的内部数据库。我们的立体声视频数据库以及眼动数据随本文一起公开发布。实验结果表明，与最先进的方法相比，所提出的显著性预测方法实现了竞争性表现。

注：3D立体视频的显著性检测，很有意思！

arXiv：https://arxiv.org/abs/1803.04842

[10]《A Learning-Based Visual Saliency Fusion Model for High Dynamic Range Video (LBVS-HDR)》

EUSIPCO, 2015

Abstract：标准动态范围（SDR）视频的显着性预测在过去十年中得到了很好的探索。然而，关于高动态范围（HDR）视觉注意模型（VAM）的研究有限。考虑到HDR内容在动态范围和色域方面的特性与SDR内容相比有很大不同，因此识别HDR视频不同显著属性对于设计VAM的重要性以及了解如何结合这些特性。为此，我们提出了一种基于学习的HDR内容视觉显著融合方法（LVBS-HDR）来结合各种视觉显著特征。在我们的方法中，从HDR数据中提取各种显著性地图，然后为了融合显著性地图，使用随机森林算法来根据从眼睛跟踪实验收集的数据来训练模型。性能评估证明了所提出的融合方法与其他现有融合方法的优越性。

arXiv：https://arxiv.org/abs/1803.04827

姿态估计

[11]《Learning Monocular 3D Human Pose Estimation from Multi-view Images》

Abstract：准确的三维人体姿势估计可以通过复杂的深度网络架构进行训练，这些架构已经在非常大的数据集上进行了训练。但是，这仍然会导致捕获没有这种数据库存在的运动的问题。手动注释（annotation）非常繁琐，速度慢且容易出错。在本文中，我们建议仅在训练时使用多个视图来替换大多数注释。具体来说，我们训练系统预测所有视图中的相同姿势。这种一致性约束是必要的，但不足以预测准确的姿势。因此，我们用一个监督损失来补充它，目的是预测一小组标记图像中的正确姿态，并用正则化项来惩罚初始预测中的漂移。此外，我们提出了一种与人体姿势一起估计相机姿态的方法，其允许我们利用多视图素材在难以校准的情况下，例如用于平移或移动手持相机。我们展示了我们的方法在建立的基准测试中的有效性，以及带有旋转摄像头和专业滑雪运动的新的Ski数据集，这些注释非常难以获得。

注：从多视图的单目图像中估计人体姿态，哇！

arXiv：https://arxiv.org/abs/1803.04775

[12]《Video Based Reconstruction of 3D People Models》

CVPR 2018

Abstract：本文描述了如何从一个人正在移动的单个单目视频中获得任意人的精确3D身体模型和纹理。基于参数化身体模型，我们提出了一个稳健的处理流程，实现3D模型，适合穿着衣服的人5mm精度。我们的主要贡献是一种非刚性变形与动态人体轮廓相对应的轮廓锥的方法，从而导致在通用参考框架中的视觉轮廓，其允许表面重建。这使得能够基于大量帧有效地估计共同的3D形状，纹理和植入的动画骨架。我们为许多测试对象提供评估结果并分析整体表现。我们的方法只需要智能手机或网络摄像头，就可以让每个人创建自己的完全动画数字双倍，例如用于社交VR应用或在线时尚购物的虚拟试穿。

arXiv：https://arxiv.org/abs/1803.04758

人脸

[13]《Face Spoofing Detection by Fusing Binocular Depth and Spatial Pyramid Coding Micro-Texture Features》

Abstract：强大的特征对于人脸欺骗检测至关重要，因为各种情况会使特征空间非常复杂。因此，在本文中，提出了两种新颖且强大的反欺骗功能。第一种是基于双目相机的深度特征，称为模板人脸匹配双目深度（TFBD）特征。第二种是基于高级微纹理的特征，称为空间金字塔编码微纹理（SPMT）特征。还介绍了新的模板人脸配准算法和空间金字塔编码算法以及两种新颖的特征。基于这两个强大的功能实现多模式人脸欺骗检测。对广泛使用的数据集和我们自己构建的综合数据集进行实验。结果表明，我们提出的特征融合的人脸欺骗检测具有很强的鲁棒性和时间效率，同时也超越了其他最先进的传统方法。

arXiv：https://arxiv.org/abs/1803.04722

GAN

[14]《Correction by Projection: Denoising Images with Generative Adversarial Networks》

Abstract：生成对抗网络（GAN）将低维潜在向量转换成视觉上合理的图像。如果真正的数据集只包含干净的图像，那么表面上看，由GAN学习的流形应该只包含干净的图像。在本文中，我们提出通过在GAN流形上找到最近点来消除被破坏的图像，通过最小化图像空间中的距离来恢复潜在向量。我们首先证明给定一个真正位于GAN流形上的图像的损坏版本，我们可以大致恢复潜在向量并对图像进行去噪，与BM3D相比，我们可以获得更高的质量。接下来，我们证明从噪声图像中恢复的潜在载体表现出一致的偏见。通过在投影回图像空间之前减去该偏差，我们可以进一步改善去噪结果。最后，即使对于看不见的图像，我们的方法的去噪效果也比BM3D更好。值得注意的是，我们的方法的基本版本（没有偏差校正）不需要关于噪声方差的先验知识。为了实现尽可能高的去噪质量，基于最佳性能的基于信号处理的方法（如BM3D）需要估计模糊核。

注：GAN真是无所不能。

arXiv：https://arxiv.org/abs/1803.04477

[15]《An Introduction to Image Synthesis with Generative Adversarial Nets》

Abstract：在过去几年中，生成对抗网络（GAN）的研究一直在急剧增长。 GAN于2014年提出，已应用于计算机视觉和自然语言处理等各种应用，并取得了令人印象深刻的性能。在GAN的众多应用中，图像合成（Image Synthesis）是研究最多的一个，该领域的研究已经证明了在图像合成中使用GAN的巨大潜力。在本文中，我们提供了图像合成中使用的方法的分类，审查了不同的文本到图像合成模型和图像到图像的转换，并讨论了一些评估指标以及GAN图像合成中可能的未来研究方向。

注：当成GAN的综述是很好的！

arXiv：https://arxiv.org/abs/1803.04469

其它

[16]《TOM-Net: Learning Transparent Object Matting from a Single Image》

CVPR 2018

Abstract：本文讨论了透明物体遮挡的问题。现有的用于透明物体的图像消光方法通常需要繁琐的捕获程序和长的处理时间，这限制了它们的实际使用。在本文中，我们首先将透明物体抠像作为折射流估计问题。然后，我们提出了一个深度学习框架，称为TOM-Net，用于学习折射流。我们的框架包括两部分，即用于产生粗略预测的多尺度编码器 - 解码器网络和用于细化的剩余网络。在测试时间，TOM-Net将单个图像作为输入，并在快速前馈过程中输出遮罩（由对象遮罩，衰减遮罩和折射流场组成）。由于没有现成的数据集可用于透明对象遮挡，因此我们创建了一个大型综合数据集，其中包含从Microsoft COCO数据集中采集的图像前呈现的158K透明对象图像。我们还使用14个透明物体和60个背景图像来收集包含876个样本的真实数据集。合成和真实数据都取得了有希望的实验结果，这清楚地表明了我们方法的有效性。

注：Transparent object matting很有意思的研究！

arXiv：https://arxiv.org/abs/1803.04636

homepage：https://guanyingc.github.io/TOM-Net

[17]《Dynamic Vision Sensors for Human Activity Recognition》

ACPR 2017

Abstract：与以固定帧率捕捉视频的传统相机不同，动态视觉传感器（DVS）仅记录像素强度值的变化。 DVS的输出仅仅是基于像素值变化极性的离散ON / OFF事件流。 DVS具有许多吸引人的功能，如低功耗，高时间分辨率，高动态范围和更少的存储需求。所有这些使得DVS成为一款非常有前途的相机，可用于可穿戴平台中的潜在应用，其中功耗是主要关注的问题。

在本文中，我们探讨了使用DVS进行人类活动识别（HAR）的可行性。我们建议使用DVS视频的各个切片（如x-y，x-t和y-t）作为HAR的特征映射，并将它们表示为Motion Maps。我们展示了使用运动边界直方图（MBH）融合运动映射在基准DVS数据集以及我们收集的真正DVS手势数据集上提供了良好的性能。有趣的是，虽然DVS仅捕获稀疏运动信息，但DVS的性能与传统视频的性能相当。

arXiv：https://arxiv.org/abs/1803.04667

[18]《Clustering with Simultaneous Local and Global View of Data: A message passing based approach》

Abstract：一个好的聚类算法不仅应该能够发现任意形状的聚类（全局视图），还能提供额外的信息，这些信息可以用来获得对聚类内部结构（本地视图）更有意义的见解。在这项工作中，我们使用因子图和消息传递算法的数学框架来优化基于成对相似性的成本函数，这与在Affinity Propagation中做的相同。使用这个框架，我们开发了两种新的聚类算法EAP和SHAPE。 EAP / SHAPE不仅可以发现任意形状的集群，还可以以有意义的本地代表（示例）和这些本地示例之间的连接的形式提供丰富的本地视图。我们讨论如何使用这些本地信息来获得有关聚类的各种见解，包括聚类不同区域的不同相对聚类密度和局部强度指示。我们还讨论了这可以如何帮助分析师发现和解决结果中潜在的不一致问题。通过将EAP / SHAPE应用于各种合成和现实世界基准数据集，可以显示EAP /

arXiv：https://arxiv.org/abs/1803.04459