[计算机视觉论文速递] 2018-03-09

Amusi

发布于 2018-04-12 09:45:05

9180

发布于 2018-04-12 09:45:05

文章被收录于专栏：CVer

通知：这篇推文有19篇论文速递信息，涉及图像分类、目标检测、目标分割、超分辨率SR、姿态估计、行人重识别Re-ID等方向

[1]《A Deep Learning Algorithm for One-step Contour Aware Nuclei Segmentation of Histopathological Images》

Abstract：本文介绍了高分辨率组织病理图像中细胞核分割的任务。我们提出了一种自动化的端到端深度神经网络算法来分割单个核。引入核 - 边界模型来使用完全卷积神经网络同时预测核及其边界。给定颜色归一化图像，该模型直接输出估计的原子核图和边界图。在估计的原子核图上执行简单，快速和无参数的后处理过程以产生最终的分割原子核。重叠斑块提取和组装方法也被设计为无缝预测大型全幻灯片图像中的细胞核。我们还展示了用于细胞核分割任务的数据增强方法的有效性。我们的实验显示我们的方法优于先前的最先进的方法。而且，一张1000X1000的图像可以在不到5秒的时间内被分割出来。这样可以在可接受的时间内精确分割整张幻灯片图像

arXiv：https://arxiv.org/abs/1803.02786

[2]《Fast and Accurate Semantic Mapping through Geometric-based Incremental Segmentation》

Abstract：我们提出了一种高效可扩展的方法，可以实时构建密集的，语义注释的3D地图。所提出的方法向每个区域分配类别概率，而不是通过稳健的SLAM框架构建的3D地图的每个元素（例如，表面和体素），并且用基于几何的分割方法递增地分割。与所有其他方法不同，我们的方法具有运行速度超过30Hz的能力，同时执行所有处理组件，包括SLAM，分割，2D识别以及更新每个传入帧上每个分割标签的分类概率，这要归功于高性能我们框架的计算密集阶段。通过使用专门设计的CNN来改善帧分割结果，我们也可以实现高精度。我们通过在准确性和计算效率方面与现有技术水平进行比较，并通过对时间和空间复杂度的分析来验证我们的NYUv2数据集的方法。

arXiv：https://arxiv.org/abs/1803.02784

[3]《RTSeg: Real-time Semantic Segmentation Comparative Study》

Abstract：语义分割有利于机器人相关的应用，尤其是自动驾驶。大多数关于语义分割的研究只是提高分割模型的准确性，而很少关注计算有效的解决方案。在这方面的工作量较少，目前并没有提供评估分割不同设计选择的原则性方法。在本文中，我们通过提出一种实时语义分割基准测试框架来解决这个问题，该基准框架具有用于特征提取和解码方法的decoupled 设计。该框架由用于特征提取的不同网络体系结构组成，如VGG16，Resnet18，MobileNet和ShuffleNet。它还包含多个用于定义解码方法的分段元结构。这些包括SkipNet，UNet和Dilation Frontend。城市景观数据集中提供了实验结果。模块化设计使得新颖的架构得以实现，与SegNet相比，可减少143x GFLOPs。这个基准测试框架可在“https://github.com/MSiam/TFSegmentation”处公开获得。

注：语义分割速度benchmark，这里强关注一波

arXiv：https://arxiv.org/abs/1803.02758

github：https://github.com/MSiam/TFSegmentation

[4]《HENet:A Highly Efficient Convolutional Neural Networks Optimized for Accuracy, Speed and Storage》

Abstract：为了提高卷积神经网络（CNN）的实时性，越来越多的研究者致力于提高CNN的效率。在对ResNet，DenseNet，ShuffleNet等CNN体系结构进行分析的基础上，结合自己的优势，提出了一种非常有效的高效网络模型（HENet）。新的架构采用了一种不寻常的方式将ShuffleNet中提到的群组卷积和通道混洗相结合。受ResNet和DenseNet的启发，我们还提出了一种新的方法，使用每个块的元素方式添加和串联连接。为了更好地使用功能映射，汇集操作从HENet中移除。实验表明，我们的模型的效率比许多开源数据集（如CIFAR-10/100和SVHN）上的ShuffleNet高出1倍以上。

注：不提供源码的CNN网络都是耍流氓......逃

arXiv：https://arxiv.org/abs/1803.02742

[5]《Deep Back-Projection Networks For Super-Resolution》

To appear in CVPR2018

Abstract：最近提出的深度超分辨率网络的前馈体系结构学习低分辨率输入的表示，以及从非线性映射到高分辨率输出。但是，这种方法并没有完全解决低分辨率和高分辨率图像的相互依赖关系。我们提出了Deep Back-Projection Networks（DBPN），它利用迭代上采样和下采样层，为每个阶段的投影误差提供错误反馈机制。我们构建了相互连接的上采样和下采样阶段，每个阶段代表不同类型的图像降级和高分辨率组件。我们表明，扩展这个想法，允许在上采样阶段和下采样阶段（密集DBPN）中的特征级联允许我们重建进一步提高超分辨率，产生出众的结果，并且特别为大比例因子建立新的现有技术结果如跨越多个数据集的8倍。

arXiv：https://arxiv.org/abs/1803.02735

[6]《3D Human Pose Estimation in RGBD Images for Robotic Task Learning》

Accepted to ICRA 2018

Abstract：我们提出了一种从单个RGBD图像估计真实世界单元中的三维人体姿态的方法，并且表明它超越了单色三维姿态估计方法从颜色表现的性能以及仅从深度进行姿态估计。我们的方法建立在强大的人类关键点检测器的彩色图像上，并融入了深入3D技术。我们将该系统与我们在演示框架中的学习相结合，指示服务机器人而不需要标记。在现实环境中的实验表明，我们的方法使PR2机器人能够模仿人类老师观察到的操纵行为。

arXiv：https://arxiv.org/abs/1803.02622

[7]《Single View Stereo Matching》

Abstract：先前的单眼深度估计方法采用单一视图并直接对预期结果进行回归。虽然最近的进展是通过在训练期间应用几何启发损失函数来进行的，但推理过程并没有明确强加任何几何约束。因此这些模型完全依赖于数据的质量和学习的有效性来推广。这或者导致次优结果或者需要大量标记数据的大量地面实况来产生合理的结果。在本文中，我们首次展示了单眼深度估计问题可以被重新表述为两个子问题，一个视图合成过程，然后是立体匹配，具有两个有趣的特性，即i）在推理过程中可以明确强加几何约束; ii）对标记的深度数据的需求可以大大减轻。我们表明，整个pipeline仍然可以以端到端的方式进行训练，而这种方法在提高性能方面起着关键作用。通过仅使用少量实际训练数据，所得模型胜过所有以前的单眼深度估计方法以及具有挑战性的KITTI数据集中的立体块匹配方法。该模型也很好地推广到其他单眼深度估计基准。我们还讨论了使用立体方法解决单眼深度估计的含义和优点。

Spotlight in CVPR 2018

注：画重点！！！单目图像深度估计在我的推文中已经不低于4次了

arXiv：https://arxiv.org/abs/1803.02612

github：https://github.com/lawy623/SVS

[8]《Concurrent Spatial and Channel Squeeze & Excitation in Fully Convolutional Networks》

Abstract：Fully convolutional neural networks (F-CNNs) have set the state-of-the-art in image segmentation for a plethora of applications. Architectural innovations within F-CNNs have mainly focused on improving spatial encoding or network connectivity to aid gradient flow. In this paper, we explore an alternate direction of recalibrating the feature maps adaptively, to boost meaningful features, while suppressing weak ones. We draw inspiration from the recently proposed squeeze & excitation (SE) module for channel recalibration of feature maps for image classification. Towards this end, we introduce three variants of SE modules for image segmentation, (i) squeezing spatially and exciting channel-wise (cSE), (ii) squeezing channel-wise and exciting spatially (sSE) and (iii) concurrent spatial and channel squeeze & excitation (scSE). We effectively incorporate these SE modules within three different state-of-the-art F-CNNs (DenseNet, SD-Net, U-Net) and observe consistent improvement of performance across all architectures, while minimally effecting model complexity. Evaluations are performed on two challenging applications: whole brain segmentation on MRI scans (Multi-Atlas Labelling Challenge Dataset) and organ segmentation on whole body contrast enhanced CT scans (Visceral Dataset).（挺硬的文章，我就直接搬原文了）

arXiv：https://arxiv.org/abs/1803.02579

[9]《Decoupled Spatial Neural Attention for Weakly Supervised Semantic Segmentation》

Abstract：弱监督语义分割得到了很多研究的关注，因为它减轻了为训练图像获得大量密集像素地面真实性注释的需要。与其他形式的弱监督相比，图像标签非常有效。在我们的工作中，我们主要关注带有图像标注注释的弱监督语义分割。这项任务的最近进展主要取决于生成的伪标注的质量。在这项受空间神经注意力影响的图像标题的作品中，我们提出了一个用于生成伪注释的解耦空间神经关注网络。我们的解耦关注结构可以同时识别对象区域并定位在一条前向路径中生成高质量伪标注的区分性部分。生成的伪标注导致分割结果，实现弱监督语义分割的最新技术。

注：弱监督的语义分割，哎哟不错哦！

arXiv：https://arxiv.org/abs/1803.02563

[10]《Multi-Channel Pyramid Person Matching Network for Person Re-Identification》

Accepted by the 32nd AAAI

Abstract：在这项工作中，我们提出了基于语义成分和颜色 - 纹理分布相结合的多通道深层卷积金字塔人匹配网络（MC-PPMN）来解决人重新识别问题。具体来说，我们从两个人的图像中分别学习语义成分和颜色纹理分布的深度表示，然后使用金字塔人工匹配网络（PPMN）获得对应表示。这些对应表示被融合以执行重新识别任务。此外，所提出的框架通过统一的端到端深度学习方案进行了优化。对几个基准数据集进行的大量实验证明了我们的方法对最先进的文献的有效性，特别是对一级识别率的影响。

arXiv：https://arxiv.org/abs/1803.02558

[11]《Object cosegmentation using deep Siamese network》

Appears in ICPRAI 2018

Abstract：Object cosegmentation解决了从多个图像中发现类似对象并将它们同时分割为前景的问题。在本文中，我们提出了一种新颖的端到端流水线，使用监督学习通过深度学习框架，从相关图像集中同时分割相似对象。我们尝试了多套对象建议生成技术，并通过使用生成的对象建议来训练暹罗网络来执行大量的数字评估。使用ANNOY（近似最近邻居）库来检索用于测试图像的类似对象建议，并且对它们执行深度语义分割。最后，我们根据对象的相对重要性，从分割的相似对象中形成拼贴画。

arXiv：https://arxiv.org/abs/1803.02555

[12]《Pyramid Person Matching Network for Person Re-identification》

Acceped by ACML2017

Abstract：在这项工作中，我们提出了一个深度卷积金字塔行人匹配网络（PPMN）和专门设计的金字塔匹配模块来解决行人重识别问题。该架构以一对RGB图像作为输入，并输出指示两个输入图像是否代表同一人物的相似度值。在深度卷积神经网络的基础上，我们的方法首先利用人的语义成分感知特征来学习区分性语义表示，然后使用金字塔匹配模块来匹配行人的共同语义成分，这对于空间变化由视点变化造成的地点尺度和偏差。上述两个流程通过统一的端到端深度学习方案进行联合优化。对几个基准数据集进行的大量实验证明了我们的方法对付最先进的方法的有效性，特别是在一级识别率方面。

arXiv：https://arxiv.org/abs/1803.02547

[13]《Visual Explanations From Deep 3D Convolutional Neural Networks for Alzheimer's Disease Classification》

Abstract：论文提出了三种有效的方法来从三维卷积神经网络（3D-CNN）生成阿尔茨海默病分类的视觉解释。一种方法对分级3D图像分割进行灵敏度分析，另一种方法在空间图上可视化网络激活。视觉检查和定量定位基准表明，此方法都可以确定阿尔茨海默病诊断的重要脑部分。对比分析表明，基于敏感性分析的方法难以处理松散分布的大脑皮层，基于激活可视化的方法受卷积层分辨率的限制。这些方法的互补性从不同的角度提高了对阿尔茨海默病分类中3D-CNNs的理解。

arXiv：https://arxiv.org/abs/1803.02544

[14]《Rigid Point Registration with Expectation Conditional Maximization》

Abstract：本文针对在计算机模拟图像中基于最大似然原理通过点配准将刚性三维物体点与二维图像点进行匹配的问题。将三维坐标转换为二维时需要透视投影。然后问题重新陷入缺失的数据框架，未知的对应关系通过混合模型处理。采用期望条件最大化点注册（ECMPR），本文比较了两种不同的旋转和平移优化算法。我们从理论上和实验上详细分析了配准参数估计方面的相关后果。

arXiv：https://arxiv.org/abs/1803.02518

[15]《Exponential Discriminative Metric Embedding in Deep Learning》

Abstract：近来，由于卷积神经网络（CNN）在物体识别领域取得的巨大成功，深度学习在计算机视觉领域得到了广泛的应用。深度度量学习（DML）将深度学习与传统度量学习相结合，在许多领域创造了新的记录，特别是在分类任务中。在本文中，我们提出了一个可复制的DML方法，称为包含和排除（IE）损失，以强制样本与其指定类中心之间的距离远离此样本的平均距离，指数特征投影空间。在IE损失的监督下，我们可以通过训练CNN来提高intra-class的紧凑性和inter-class的可分离性，从而从对象识别到面部验证等多个公共数据集都得到了很大的改进。我们在三种不同容量的网络上对几种典型的DML方法进行了比较研究。在三个目标识别数据集和两个人脸识别数据集上进行的大量实验表明，IE损失总是优于其他主流DML方法，并且接近最新的结果。

注：距离度量Deep Metric Learning (DML)，先Mark！

arXiv：https://arxiv.org/abs/1803.02504

[16]《Categorical Mixture Models on VGGNet activations》

Abstract：在这个项目中，我使用无监督学习技术，以便在有意义的主题下聚集一组yelp餐厅照片。为了做到这一点，我从受欢迎的VGGNet卷积神经网络的预训练实施中提取层激活。首先，我将探索使用卷积层激活的LDA作为特征。其次，我探索使用在ImageNet上训练的VGGNet的对象识别功能，以便从照片中提取有意义的对象，然后执行LDA将主题 - 原型下的照片分组。我发现第二种方法找到了有意义的原型，它们与餐厅，食物和饮料等照片主题的人类直觉相匹配。此外，这些群集与实际的yelp照片标签很好地清晰对齐。

arXiv：https://arxiv.org/abs/1803.02446

[17]《Fast Cylinder and Plane Extraction from Depth Cameras for Visual Odometry》

Abstract：This paper presents CAPE, a method to extract planes and cylinder segments from organized point clouds, which processes 640x480 depth images on a single CPU core at an average of 300 Hz, by operating on a grid of planar cells. While, compared to state-of-the-art plane extraction, the latency of CAPE is more consistent and 4-10 times faster, depending on the scene, we also demonstrate empirically that applying CAPE to visual odometry can improve trajectory estimation on scenes made of cylindrical surfaces (e.g. tunnels), whereas using a plane extraction approach that is not curve-aware deteriorates performance on these scenes.

To use these geometric primitives in visual odometry, we propose extending a probabilistic RGB-D odometry framework based on points, lines and planes to cylinder primitives. Following this framework, CAPE runs on fused depth maps and the parameters of cylinders are modelled probabilistically to account for uncertainty and weight accordingly the pose optimization residuals.（看不懂，搬原文，没毛病）

arXiv：https://arxiv.org/abs/1803.02380

github：https://github.com/pedropro/CAPE

[18]《TRLG: Fragile blind quad watermarking for image tamper detection and recovery by providing compact digests with quality optimized using LWT and GA》

Abstract：In this paper, an efficient fragile blind quad watermarking scheme for image tamper detection and recovery based on lifting wavelet transform and genetic algorithm is proposed. TRLG generates four compact digests with super quality based on lifting wavelet transform and halftoning technique by distinguishing the types of image blocks. In other words, for each 2*2 non-overlap blocks, four chances for recovering destroyed blocks are considered. A special parameter estimation technique based on genetic algorithm is performed to improve and optimize the quality of digests and watermarked image. Furthermore, CCS map is used to determine the mapping block for embedding information, encrypting and confusing the embedded information. In order to improve the recovery rate, Mirror-aside and Partner-block are proposed. The experiments that have been conducted to evaluate the performance of TRLG proved the superiority in terms of quality of the watermarked and recovered image, tamper localization and security compared with state-of-the-art methods. The results indicate that the PSNR and SSIM of the watermarked image are about 46 dB and approximately one, respectively. Also, the mean of PSNR and SSIM of several recovered images which has been destroyed about 90% is reached to 24 dB and 0.86, respectively.（很硬的文章，直接搬原文较为合适）

注：图像篡改检测，哎哟不错哦！

arXiv：https://arxiv.org/abs/1803.02623

[19]《Learning Spectral-Spatial-Temporal Features via a Recurrent Convolutional Neural Network for Change Detection in Multispectral Imagery》

Abstract：变化检测是地球观测中的核心问题之一，近几十年来得到了广泛的研究。在本文中，我们提出了一种新颖的递归卷积神经网络（ReCNN）体系结构，该体系结构在多光谱图像变化检测的统一框架中进行训练，以学习联合光谱 - 空间 - 时间特征表示。为此，我们将卷积神经网络（CNN）和递归神经网络（RNN）集成到一个端到端网络中。前者能够生成丰富的光谱空间特征表示，而后者能够有效地分析双时间图像中的时间依赖性。与以前的变化检测方法相比，所提出的网络体系结构具有三个独特的性质：1）它是端到端可训练的，与大多数现有方法的组成部分分别被训练或计算; 2）它自然利用已被证明有利于改变检测任务的空间信息; 3）它能够自适应地学习多时相图像之间的时间依赖性，这与大多数使用像图像差异或叠加等相当简单的操作的算法不同。据我们所知，这是第一次提出经常性的卷积网络架构用于多时相遥感影像分析。提出的网络在真实的多光谱数据集上进行验证。视觉和定量分析的实验结果表明在提出的模式下具有竞争力的表现。

arXiv：https://arxiv.org/abs/1803.02642