在 How Well Should You Label (你该标记得多好) 中, 作者着眼于为了从现代 CNN 架构中得到良好的分割质量,对训练标签的质量要求有多低。 这很重要,因为合成数据通常以其像素完美的质量而闻名。 作者在 Auto City 数据集上进行实验,证明最终的分割质量确实与标记所花费的时间量密切相关,但与每个标签的质量无关。
Soccer on Your Tabletop (桌面上的足球) 提出了一个可以拍摄足球比赛的视频流并将其转换为移动 3D 重建的系统,该重建可被投影到桌面上并使用增强现实设备进行观看。系统提取运动员的边界框,使用姿势和深度估计模型分析人物图形,最终得到非常精确的3D场景重建。
Training Deep Networks with Synthetic Data (用合成数据训练深度网络) 提出了一种依赖合成数据的域随机化训练用于真实物体检测的深度神经网络数据的精确方法。域随机化通过刻意和随机地干扰环境的纹理来迫使网络聚焦并识别对象的主要特征,从而减少对高质量模拟数据集的需求。为了增强这一过程的性能,会进行结合合成数据和真实数据的额外训练,从而弥合现实差距、得到更好的性能。论文还提出了不同的方法来发挥合成数据的潜力,认为这一领域将在未来几年进一步发展。
Embodied QA 以创建完全智能代理为目标,这些代理可以主动感知,在基于环境的对话中自然交流、表现和执行命令。通过目标驱动的 3D 设置智能导航,代理被要求基于对象识别和视觉定位和理解来回答问题。有趣的是,该代理仅使用自我中心视觉来导航其周围环境。这意味着代理没有提供地图,只能通过原始感官输入(像素和单词)进行训练,并且必须依靠常识来导航不熟悉的环境。
Unsupervised Domain Adaptation with Similarity Learning(用相似度学习实现无监督域适应 使用对抗性网络处理域适应。作者让一个网络从标记的源域和另一个网络中提取特征,以实现从一个未标记的目标域中提取具有相似但不同数据分布的特征。训练模型以将目标原型与所有其他原型区分开来的分类是不同的。为了标记来自目标域的图像,作者将图像的嵌入与来自源域的原型图像的嵌入进行比较,然后分配其最邻近标签。
Image to Image Translation for Domain Adaptation (域适应的图像到图像转换 研究用于图像分割的域适应,其广泛用于自动驾驶汽车,医学成像和许多其他领域。从根本上来说,这一域自适应技术必须找到从源数据分布到目标数据分布的映射结构。该方法使用3种主要技术:(i)domain-agnostic feature extraction(从源域和目标域提取的特征的分布无法区分),(ii)domain-specific reconstruction(嵌入可以被解码回源域和目标域 ),和(iii)cycle consistency(正确学习映射)。
Conditional GAN for Structured Domain Adaptation (用于结构化域适应的条件 GAN 提供了一种新方法,通过结构化域自适应方法克服语义分割模型中跨域差异的挑战。与无监督域自适应不同,该方法不假设存在跨域公共特征空间,而是采用条件生成器和鉴别器。因此,条件 GAN 被集成到 CNN 框架中,迁移标记的合成图像域到未标记的真实图像域。该方法的结果优于以前的模型,凸显了合成数据集在推进视觉任务方面不断增长的潜力。
训练基于深度学习的模型依赖大量带注释的数据集需要大量资源。尽管在许多视觉识别任务中实现了最先进的性能,但跨域差异仍然是一个巨大的挑战。为了跨域迁移知识,Maximum Classifier Discrepancy for Unsupervised Domain Adaptation 使用新颖的对抗性学习方法进行域适应,而不需要来自目标域的任何标记信息。据观察,这种方法最小化来自目标域的样本的两个分类器的概率估计之间的差异,可以产生用于从分类到语义分割的各种任务的类判别特征。
4 — 生成对抗网络
2018 年对于计算机视觉最成功的生成模型 - 生成对抗网络(GAN)来说无疑是重要的一年。 让我们来欣赏一些改进 GAN 模型的本年度最佳作品:
条件 GANs 已经广泛用于图像建模,但它们对于风格迁移也非常有用。尤其是它们可以学习与特定图像元素相对应的显著特征,然后改变它们。在PairedCycleGAN for Makeup中,作者们提出了一个图片妆容修整的框架。他们为不同的面部组件训练各自的生成器并单独应用它们,用不同的网络提取面部要素。
Eye Image Synthesis with Generative Models(生成模型的眼睛图像合成) 着眼于生成人眼图像的问题。这是一个有趣的用例,因为我们可以使用生成的眼睛来解决视线估计问题——一个人在看什么?作者使用眼形合成的概率模型和 GAN 架构来生成遵循该模型的眼睛。
Generative Image In-painting with Contextual Attention(基于内容感知生成模型的图像修复) 探讨了填补图像空白这一挑战性问题。通常,要修复图像,我们需要了解基础场景。而这种方法使用 GAN 模型,使用周围图像中的特征来显著改善生成。
当前最先进的基于 GAN 的文本到图像生成模型仅在句子级别编码文本描述,并忽略能够改善生成图像质量的单词级别的细粒度信息。AttnGAN 提出了一种新颖的词级注意力机制,在制作复杂场景时效果更赞。
Pose-Sensitive Embeddings for Person Re-Identification 应对了行人重识别(person re-identification)的挑战。通常,这个问题通过基于检索的方法来解决,即求导查询图像与来自某个嵌入空间的存储图像之间的相似度度量。这篇论文提出将姿势信息直接嵌入到 CNN 中,并设计了一个无监督的重排序新方法。架构如下图所示。
3D Poses from a Single Image(基于单色图像的 3D 姿势 ) 提出了一种姿势估计的特别方法。它直接通过一种结合了姿势估计、人体轮廓分割和网格生成的端到端卷积结构生成人体的 3D 网格,关键点在于它使用了 SMPL,一种统计学身体形状模型,为人体的形状提供了良好的先验。因此,它得以从一张单色图像构造人体的 3D 网格。