[计算机视觉论文速递] 2018-03-20

通知:这篇推文有13篇论文速递信息,涉及图像分割、SLAM、显著性、深度估计、车辆计数等方向

往期回顾

[计算机视觉] 入门学习资料

[计算机视觉论文速递] 2018-03-18

[计算机视觉论文速递] 2018-03-16

图像分割

[1]《Training of Convolutional Networks on Multiple Heterogeneous Datasets for Street Scene Semantic Segmentation》

Abstract:我们提出了一种具有分层分类器的卷积网络,用于每像素语义分割,能够在多个异构数据集上训练并利用其语义层次结构。 我们的网络是第一个同时训练来自智能车辆领域的三个不同数据集,即Cityscapes,GTSDB和Mapillary Vistas,并且能够处理不同的语义细节层次,类别不平衡和不同的注释类型,即密集的 每像素和稀疏边界框标签。 我们通过比较平面非分层分类器评估我们的分层方法,并且我们显示Cityscapes类的平均像素精度为13.0%,Vistas类为2.4%,GTSDB类为32.3%。 我们的实现在GPU上运行108个类的分辨率为520 x 706时可实现17 fps的推导速率。

arXiv:https://arxiv.org/abs/1803.05675

[2]《An application of cascaded 3D fully convolutional networks for medical image segmentation》

Abstract:3D全卷积网络(FCN)的最新进展已经使得生成体积图像的密集体素预测成为可能。在这项工作中,我们展示了一个多级三维FCN训练手动标记的几个解剖结构(从大型器官到薄血管)的CT扫描可以实现竞争性分割结果,同时避免手工制作功能或培训课程的需要,具体型号。

为此,我们提出了一个两阶段的,从粗到精的方法,它将首先使用3D FCN粗略定义候选区域,然后将其用作第二个3D FCN的输入。这减少了第二个FCN必须分类的体素数量至〜10%,并允许它将重点放在更详细的器官和血管分割上。

我们利用由331个临床CT影像组成的训练和验证集合,并对包含150次CT扫描的不同医院采集的完全不可见的数据集进行测试,针对三个解剖器官(肝脏,脾脏和胰腺)。在胰腺等具有挑战性的器官中,我们的级联方法将骰子平均得分从68.5提高到82.2%,实现了此数据集报告的最高平均得分。我们在240个CT扫描的18个类别的独立数据集上比较2D FCN方法,并在小器官和血管中实现显着更高的性能。此外,我们探索微调我们的模型到不同的数据集。

我们的实验说明了当前基于三维FCN的医学图像语义分割的前景和稳健性,实现了最先进的结果。我们的代码和训练有素的模型可供下载:https://github.com/holgerroth/3Dunet_abdomen_cascade

arXiv:https://arxiv.org/abs/1803.05431

github:https://github.com/holgerroth/3Dunet_abdomen_cascade

SLAM

[3]《Vision-Aided Absolute Trajectory Estimation Using an Unsupervised Deep Network with Online Error Correction》

IROS 2018

Abstract:我们提出了一种无监督的深度神经网络方法来融合RGB-D图像与惯性测量的绝对轨迹估计。 我们的网络被称为Visual-Inertial-Odometry Learner(VIOLearner),它学习在没有惯性测量单元(IMU)固有参数(对应于陀螺仪和加速度计偏差或白噪声)或者外部校准之间执行视觉惯性测距法(VIO) IMU和相机。 网络学习整合IMU测量结果并生成假设轨迹,然后根据相对于像素坐标的空间网格的缩放图像投影误差的雅可比行为在线校正假设轨迹。 我们根据最先进的(SOA)视觉惯性测距法,视觉测距法以及KITTI Odometry数据集上的视觉同时定位和映射(VSLAM)方法评估我们的网络,并展示竞争性测距性能。

arXiv:https://arxiv.org/abs/1803.05850

显著性

[4]《Salient Region Segmentation》

Abstract:显著性预测在计算机视觉中是一个研究得很好的问题。早期显著性模型是基于从神经科学和心理物理学中获得的见解中获得的低级别手工特征。在深度学习突破之后,基于神经网络架构提出了一个新的模型队列,在所有度量标准上允许比先前的浅层模型有更高的注视预测。

然而,大多数模型将显著性预测视为\ textit {regression}问题,并且高维数据的准确回归已知是一个难题。此外,还不清楚显着程度的中间水平(即既非常高也非非常低)是有意义的:某些事情要么是显著的,要么是显著的,或者不是显著的。

从这两个观察得出,我们将显著性预测问题重新描述为显著区域\ textit {分割}问题。我们证明重构允许比经典回归问题更快的收敛性,而性能可以与最先进的技术相媲美。

我们还可视化模型学到的一般特征,这些特征与心理物理学的见解一致。

arXiv:https://arxiv.org/abs/1803.05759

[5]《What Catches the Eye? Visualizing and Understanding Deep Saliency Models》

Abstract:深卷积神经网络近年来在固视预测中表现出了很高的性能。然而,他们如何实现这一目标却没有多少探索,他们仍然是黑匣子模型。在这里,我们试图揭示深度显著性模型的内部结构,并研究它们提取的固定预测的特征。具体来说,我们使用一个简单但功能强大的架构,仅包含一个CNN和一个分辨率输入,并结合一个新的丢失函数,用于自由观看自然场景期间的像素式固定预测。我们表明,我们的简单方法与最先进的复杂显著性模型相比甚至更好。此外,我们提出了一种与显著性模型评估指标相关的方法,以便对固定预测的深度模型进行可视化。我们的方法揭示了用于固定预测的深层模型的内部表示,并提供证据表明,人类所经历的显著性除了低级感知线索之外可能涉及高级语义知识。我们的结果可以用来衡量当前显著性模型和人类观察者间模型之间的差距,并建立新的模型来缩小差距。

arXiv:https://arxiv.org/abs/1803.05753

[6]《VEGAC: Visual Saliency-based Age, Gender, and Facial Expression Classification Using Convolutional Neural Networks》

Submitted to CVPR 2018

Abstract:本文探讨了使用视觉显著性来分类面部图像的年龄,性别和面部表情。 对于多任务分类,我们提出了基于视觉显著性的VEGAC方法。 使用Deep Multi-level Network [17]和现成的人脸检测器[2],我们提出的方法首先检测测试图像中的人脸,并提取裁剪人脸上的CNN预测。 VEGAC的CNN在来自不同基准的收集数据集上进行了微调。 我们的卷积神经网络(CNN)使用VGG-16架构[3],并在ImageNet上预先训练用于图像分类。 我们证明了我们的方法在年龄估计,性别分类和面部表情分类中的有用性。 我们表明,我们在选定的基准上使用我们的方法获得了竞争结果。 我们所有的型号和代码都将公开发布。

注:期待源码!!!

arXiv:https://arxiv.org/abs/1803.05719

深度估计

[7]《Self-Supervised Monocular Image Depth Learning and Confidence Estimation》

Abstract:卷积神经网络(CNN)需要大量的具有地面真实注释的数据,这是一个具有挑战性的问题,它限制了许多计算机视觉任务的CNNs的开发和快速部署。 我们提出了一种新颖的基于单目图像的深度估计框架,并且具有相应的自我监督方式的信心。 基于零均值归一化互相关(ZNCC)提出了一种全差分基于块的成本函数,该算法将多尺度贴片作为匹配策略。 这种方法大大提高了深度学习的准确性和鲁棒性。 此外,所提出的基于补丁的成本函数可以提供0到1的置信度,然后用它来监督并行网络的训练以进行置信度学习和估计。 对KITTI数据集的评估表明,我们的方法胜过了最先进的结果。

arXiv:https://arxiv.org/abs/1803.05530

其它

[8]《DeepN-JPEG: A Deep Neural Network Favorable JPEG-based Image Compression Framework》

DAC 2018

Abstract:作为最引人入胜的机器学习技术之一,深度神经网络(DNN)在诸如图像分类等各种智能任务中表现出优异的性能。 DNN在很大程度上通过对大量训练数据进行昂贵的培训来实现这种性能。为了减少智能资源受限物联网(IoT)系统中的数据存储和传输开销,在传输实时生成的数据集以进行培训或分类之前,有效的数据压缩是“必备”功能。虽然有许多着名的图像压缩方法(如JPEG),但我们首次发现基于人类视觉的图像压缩方法(如JPEG压缩)不是DNN系统的优化解决方案,特别是在高压缩比。为此,我们开发了一个专为DNN应用而定制的图像压缩框架,名为“DeepN-JPEG”,以支持DNN体系结构的深层级信息处理机制的性质。基于具有各种最先进的DNN的“ImageNet”数据集进行的大量实验表明,“DeepN-JPEG”的压缩率比流行的JPEG解决方案高出约3.5倍,同时保持图像识别的相同精度水平,展示其在基于DNN的智能物联网系统设计中具有巨大的存储和电源效率潜力。

注:这也太硬了吧!DeepN-JPEG真是666666

arXiv:https://arxiv.org/abs/1803.05788

[9]《Feature Distillation: DNN-Oriented JPEG Compression Against Adversarial Examples》

Abstract:深度神经网络(DNN)在众多实际应用中取得了卓越的性能。然而,最近的研究表明,训练有素的DNN很容易被敌对的例子(AE)误导 - 通过引入小的不可察觉的输入扰动来恶意制作输入。诸如对抗训练和防御性蒸馏之类的现有缓解解决方案受到昂贵的再培训成本的限制,并且针对CW家族对抗性例子等最先进的攻击显示出边际鲁棒性的提高。在这项工作中,我们提出了一种新的低成本“特征升华”策略,通过重新设计流行的图像压缩框架“JPEG”来净化AE的敌对输入扰动。所提出的“特征蒸馏”明智地最大化图像压缩期间AE干扰的恶意特征损失,同时抑制对于高精确DNN分类至关重要的良性特征的失真。实验结果表明,我们的方法可以大幅降低CIFAR-10和ImageNet基准测试平均约60%的各种尖端AE攻击的成功率,而不会降低测试精度,优于现有的解决方案,如默认的JPEG压缩和“功能挤压”。

注:这篇paper和上篇paper第一作者是同一人

arXiv:https://arxiv.org/abs/1803.05787

[10]《Exploring Linear Relationship in Feature Map Subspace for ConvNets Compression》

Abstract:虽然卷积神经网络(CNN)的研究进展很快,但这些模型的实际部署往往受计算资源和内存限制的限制。在本文中,我们通过提出一种新颖的滤波器修剪方法来压缩和加速CNN来解决这个问题。我们的工作基于通过可视化特征映射在不同特征映射子空间中标识的线性关系。这种线性关系意味着CNN中的信息是多余的。我们的方法通过将子空间聚类应用于特征映射来消除卷积滤波器中的冗余。这样,网络中的大多数代表性信息都可以保留在每个群集中。因此,我们的方法提供了一个有效的解决方案来筛选修剪,大多数现有方法都是基于简单的启发式直接删除过滤器。所提出的方法独立于网络结构,因此它可以被任何现成的深度学习库采用。在不同的网络和任务上进行的实验表明,我们的方法在微调之前胜过现有的技术,并在微调之后达到最新的结果。

arXiv:https://arxiv.org/abs/1803.05729

[11]《LEGO: Learning Edge with Geometry all at Once by Watching Videos》

Accepted to CVPR 2018 as spotlight

Abstract:学习通过深卷积网络观察未标记的视频来估计单个图像中的3D几何形状正引起重大关注。在本文中,我们在管线内引入了一种“3D尽可能平滑(3D-ASAP)”的技术,该技术可实现对边缘和三维场景的联合估计,从而获得精细细致结构精度显着提高的结果。具体来说,我们先定义3D-ASAP,如果没有提供其他线索,则要求从3D图像恢复的任何两点都应位于现有平面上。我们设计了一个无人监督框架,一次完成学习边缘和几何(深度,正常)(LEGO)。预测边被嵌入到深度和表面法线平滑项中,其中没有边之间的像素被约束以满足先验。在我们的框架中,预测的深度,法线和边缘被迫始终保持一致。我们在KITTI上进行实验以评估我们估计的几何图形和城市景观以执行边缘评估。我们展示了在所有任务中,即深度,正常和边缘,我们的算法大大优于其他最先进的(SOTA)算法,证明了我们方法的好处。

arXiv:https://arxiv.org/abs/1803.05648

[12]《Fast End-to-End Trainable Guided Filter》

Accepted by CVPR 2018

Abstract:通过利用深度学习的功能,图像处理和像素密集预测得到了进一步发展。深度学习的一个中心问题是处理联合上采样(upsampling)的能力有限。我们为联合上采样提供了一个深度学习构建模块,即引导滤波层。该层旨在高效地生成高分辨率输出,并给出相应的低分辨率输出和高分辨率制导图。所提出的层由导向滤波器组成,该滤波器被重新配置为完全可微分块。为此,我们证明了一个引导滤波器可以表示为一组空间变化的线性变换矩阵。该层可以与卷积神经网络(CNN)集成并通过端到端训练进行联合优化。为了进一步利用端到端培训,我们插入了一个可训练的转换函数,可以生成特定于任务的指导图。通过整合CNN和提出的层,我们形成深度导向滤波网络。拟议的网络在五个高级图像处理任务上进行评估。 MIT-Adobe FiveK数据集上的实验表明,所提出的方法运行速度提高了10-100倍,并达到了最先进的性能。我们还表明,提出的引导过滤层有助于提高多个像素密集预测任务的性能。该代码可在此https://github.com/wuhuikai/DeepGuidedFilter中找到

arXiv:https://arxiv.org/abs/1803.05619

homepage:http://wuhuikai.me/DeepGuidedFilterProject/

github:https://github.com/wuhuikai/DeepGuidedFilter

[13]《Improving Object Counting with Heatmap Regulation》

Abstract:在本文中,我们提出了一种简单而有效的方法来改善从图像中进行物体计数的单外观回归模型。我们使用类激活地图可视化来说明学习计数任务的纯粹一看回归模型的缺点。基于这些见解,我们通过调整来自网络最终卷积层的激活图与简单点注释生成的粗糙地面真实激活图来增强单看回归计数模型。我们将这种策略称为热图调节(HR)。我们表明,这种简单的增强有效地抑制了由相应的一眼基线模型生成的错误检测,并且还改善了假阴性方面的性能。在四个不同的计数数据集上进行评估 - 两个用于汽车计数(CARPK,PUCPR +),一个用于人群计数(WorldExpo),另一个用于生物细胞计数(VGG-Cells)。与简单的单一基准模型相比,将HR添加到简单的VGG前端可以提高所有这些基准测试的性能,并为汽车计数带来最先进的性能。

arXiv:https://arxiv.org/abs/1803.05494

原文发布于微信公众号 - CVer(CVerNews)

原文发表时间:2018-03-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏汪毅雄的专栏

机器学习之回归原理详述(一)

本文用了从数学层面和代码层面,再结合一些通俗易懂的例子,详细地描述了回归主要涉及的原理和知识,希望对于机器学习的初学者或者有兴趣研究模型具体实现的同学带来一点帮...

1.4K3
来自专栏量子位

一文看懂如何搭建AI应用:10周学会深度学习,还赢下5千美元

春节后第一个休息日,量子位给大家准备了一个不一样的故事。 在这个故事里,主人公David Brailovsky(就叫阿D吧)参加了一场计算机视觉比赛。这个挑战赛...

1975
来自专栏AI科技大本营的专栏

Reddit热点 | 想看被打码的羞羞图片怎么办?CNN帮你解决

翻译 | 刘畅 编辑 | Donna,波波 超分辨重构是图像处理领域地一项非常有趣的任务。它可以通过算法将一张低分辨率的图片放大成一张高分辨率地图片。这个事情乍...

5454
来自专栏机器学习算法与Python学习

干货 | 从入门到放弃:21种机器学习算法详解,附多种下载方式

关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第二 【Python】:排名第三 【算法】:排名第四 下面是各模型在博客中的详细解说,为方...

5359
来自专栏人人都是极客

干货 | 目标检测入门,看这篇就够了(下)

作者 | 李家丞( 同济大学数学系本科在读,现格灵深瞳算法部实习生) 近年来,深度学习模型逐渐取代传统机器视觉方法而成为目标检测领域的主流算法,本系列文章将回顾...

4834
来自专栏IT派

神经网络告诉我,谁是世界上最「美」的人?

数月前,华南理工大学发布了关于「颜值预测」的论文和数据集,数据集包括 5500 人,每人按颜值魅力打分,分值在 1 到 5 分之间。

1370
来自专栏机器学习、深度学习

人群计数--Single-Image Crowd Counting via Multi-Column Convolutional Neural Network

Single-Image Crowd Counting via Multi-Column Convolutional Neural Network CVPR...

46510
来自专栏SIGAI学习与实践平台

OCR技术简介

光学字符识别(Optical Character Recognition, OCR)是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。亦即将图...

3.4K1
来自专栏AI科技大本营的专栏

干货 | 目标检测入门,看这篇就够了(下)

? 作者 | 李家丞( 同济大学数学系本科在读,现格灵深瞳算法部实习生) 近年来,深度学习模型逐渐取代传统机器视觉方法而成为目标检测领域的主流算法,本系列文...

6697
来自专栏CVer

[计算机视觉论文速递] 2018-03-01

[1]《Stereoscopic Neural Style Transfer》 CVPR 2018 论文首次尝试对3D电影或AR/VR的新需求进行立体神经风格...

5028

扫码关注云+社区

领取腾讯云代金券