前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >[计算机视觉论文速递] 2018-04-23

[计算机视觉论文速递] 2018-04-23

作者头像
Amusi
发布2018-07-24 11:07:05
3980
发布2018-07-24 11:07:05
举报
文章被收录于专栏:CVerCVer

通知:这篇文章有6篇论文速递信息,涉及目标检测、图像分割、3D卷积等方向(含1篇CVPR论文)

目标检测

[1]《Zero-Shot Object Detection》

Abstract:我们介绍和解决了Zero-Shot 目标检测(ZSD)的问题,它旨在检测训练期间未观察到的物体类别。我们与一组具有挑战性的对象类一起工作,而不是将我们限制在类似和/或细粒度的类别中。之前的zero-shot classification工作。我们遵循一个原则性的方法,首先适应ZSD的视觉语义嵌入。然后我们讨论与选择背景类相关的问题,并激发两种背景感知方法来学习鲁棒检测器。其中一个模型使用固定的背景类,另一个基于迭代的潜在分配。我们还概述了与使用有限数量的训练类别相关的挑战,并提出了基于使用大量类别的辅助数据对语义标签空间进行密集采样的解决方案。我们提出了两种标准检测数据集 - MSCOCO和VisualGenome的新型分割,并讨论了广泛的实证结果,以突出所提出的方法的优点。我们提供有用的insights into the algorithm,并通过提出一些开放问题来鼓励进一步的研究。

arXiv:https://arxiv.org/abs/1804.04340

注:对Zero-Shot方向感兴趣的同学可以自行google一下 zero-shot classification

图像分割

[2]《Outline Objects using Deep Reinforcement Learning》

Abstract:图像分割需要局部边界位置信息和全局对象上下文信息。 最近最先进的方法 - 全卷积网络 - 的性能在端到端训练风格中同时平衡两种信息之后,由于神经网络限制而出现瓶颈。 为了克服这个问题,我们将语义图像分割成时间子任务。 首先,我们找到一个物体边界的可能像素位置; 然后在有限长度内按步骤追踪边界,直到整个对象被勾画出来。 我们提出了第一个深度强化学习方法来进行语义图像分割,称为DeepOutline,它在Coco val2017数据集中的中等和大尺寸人员类别中优于Coco检测排行榜中的其他算法。 同时,它通过强化学习计算机视觉问题,提供了一种分而治之的方法。

arXiv:https://arxiv.org/abs/1804.04603

注:使用了强化学习(Reinforcement Learning),实在很6

[3]《A two-stage 3D Unet framework for multi-class segmentation on full resolution image》

Abstract:深度卷积神经网络(CNN)已被广泛用于多种类别的数据分割,并获得了最先进的性能。然而,处理大型高分辨率3D数据时的一个常见问题是,由于计算设备的存储容量有限,输入深度CNN的体积必须进行裁剪(crop)或降采样(downsample)。这些操作会导致输入数据 batches 中分辨率的降低和类不平衡的增加,从而降低分割算法的性能。受到图像超分辨率CNN(SRCNN)和self-normalization(SNN)的架构的启发,我们开发了一个两阶段修改的Unet框架,它可以同时学习检测整个体积内的ROI并对体素进行分类而不会丢失原始图像解析度。对各种多模式音量的实验表明,当用简单加权的模子系数和我们定制的学习程序进行训练时,该框架显示比具有高级相似性度量标准的最先进的深CNN更好的分割性能。

arXiv:https://arxiv.org/abs/1804.04341

3D

[4]《Pix3D: Dataset and Methods for Single-Image 3D Shape Modeling》

CVPR 2018

Abstract:我们从一个图像研究三维形状建模,并从三个方面对其做出贡献。 首先,我们展示了Pix3D,这是一个不同图像形状对与像素级2D-3D对齐的大型benchmark。 Pix3D在形状相关的任务中有着广泛的应用,包括重建,检索,视点估计等。然而,构建这样的大规模数据集非常具有挑战性; 现有数据集或者只包含合成数据,或者缺少2D图像和3D图形之间的精确对齐,或者仅包含少量图像。 其次,我们通过行为研究来校准三维形状重建的评估标准,并使用它们客观地,系统地对Pix3D上的cutting-edge重建算法进行基准测试。 第三,我们设计了一个同时进行三维重建和姿态估计的新模型; 我们的多任务学习方法可以在两项任务中实现最先进的性能。

arXiv:https://arxiv.org/abs/1804.04610

homepage:http://pix3d.csail.mit.edu/

code:https://github.com/xingyuansun/pix3d

[5]《CubeNet: Equivariance to 3D Rotation and Translation》

Abstract:3D卷积神经网络对应用于其输入的转换很敏感。这是一个问题,因为3D对象的体素化版本(voxelized version)及其旋转的克隆在通过网络的最后一层之后看起来彼此不相关。相反,理想化的模型会保留体素化对象的有意义的表示,同时解释两个输入之间的姿态差异。等变表示向量有两个组成部分:不变身份(identity)部分和转换的可辨别编码。无法解释姿态差异的模型会“稀释”表示,以追求优化分类或回归损失函数。

我们引入了一个群组(group)卷积神经网络,它具有三维平移和直角旋转的线性等变性。我们称之为网络CubeNet,反映它的立方体状对称性。通过构建,这个网络有助于保持3D形状的全局和局部签名,因为它通过连续的层次进行转换。我们将该网络应用于各种3D推理问题,实现了ModelNet10分类挑战的最新技术,以及ISBI 2012 Connectome分段基准测试的可比性能。就我们所知,这是第一个用于体素表示的3D旋转等变CNN。

arXiv:https://arxiv.org/abs/1804.04458

注:一般2D对象都是用pixel,而3D对象是用voxel来计算,后者难度很大啊!

其它

[6]《Extraction of Airways using Graph Neural Networks》

Abstract:我们从图像数据中提取树结构(如气道)的提取,作为图形细化任务。 为此,我们提出了一种图形自动编码器模型,该模型使用基于图形神经网络(GNN)的编码器来学习来自输入节点特征的嵌入和解码器以预测节点之间的连接。 GNN模型的性能与平均野外网络相比,能够从3D胸部CT扫描中提取气道。

arXiv:[1804.04436] Extraction of Airways using Graph Neural Networks

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-04-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CVer 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 目标检测
  • 图像分割
  • 3D
  • 其它
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档