《 NEXT 技术快报》：计算机视觉篇（上）

原创

serena

修改于 2021-08-03 14:56:11

1.3K0

文章被收录于专栏：社区的朋友们

作者：WesleyJiang
导语： 每年暑期都是各路顶会扎堆，今年也不例外，SIGGRAPH，CVPR，ICML这三个我们一直关注的领域顶会相继召开，本期“NEXT技术快报”将重点关注这三大顶会的内容，摘录与游戏开发，游戏体验相关的内容做一个归纳点评。

图像生成 ( Image Synthesis )

图像生成是计算机视觉中非常重要的一类问题，也有着很长的研究历史。同时这一类问题也和动画制作有着紧密的关联。广义的说来，凡是生成新的图像内容的相关问题都可以归为图像生成问题。

Scribbler: Controlling Deep Image Synthesis with Sketch and Color

原文链接：http://scribbler.eye.gatech.edu/paper.pdf

项目主页：http://scribbler.eye.gatech.edu/

【摘要】

本文由乔治亚理工、Adobe 研究院和普林斯顿大学的相关研究人员联合发表在CVPR 2017上。本篇文章提出了一种新的基于深度学习的图像合成框架，根据草图和颜色stroke来生成不同内容的图像。下图左半部分为基于草图的合成结果，右半部分为本文提出的基于草图和颜色的合成结果。

【问题】

近来的基于深度卷积神经网络(CNN)的图像生成方法由于很难控制网络生成的结果，技术应用受到比较大的限制。

【解决方法】

● 提出一种基于深度对抗网络的图像合成方法：依赖于草图轮廓(sketched boundaries)和很少量的颜色stroke来生成真实化图片。

● 该方法允许用户在草图上任意的涂写来指定偏爱的颜色使得结果满足用户要求。

● 使用前馈网络直接生成结果，速度达到实时。

● 网络结构为生成式对抗网络(GAN),生成网络采用编码-解码结构，基本模块为残差模块；判别网络采用全卷积网络。

【结果分析】

● 优势：

❖ 用sketch来指导网络生成图像高层视觉结构，用很少量的颜色stroke来控制生成的颜色模式

❖ 当输入图像分辨率为256*256时，处理速度达到20ms

● 不足：

❖ 生成的结果中，有时会出现物体之间或物体颜色不同的区域之间边缘模糊和颜色泄漏的现象

❖ 当用户指定一些不太常见的颜色(比如紫色的汽车)或形状时，生成结果不理想

【应用落地】

● artists设计虚拟角色和创作时，提供一款实时交互式图像编辑工具，即刻看到结果反馈。

Transformation-Grounded Image Generation Network for Novel 3D View Synthesis

原文链接：https://arxiv.org/abs/1703.02921

项目主页：http://www.cs.unc.edu/~eunbyung/tvsn/

【摘要】

本文由北卡罗来纳大学教堂山分校和Adobe研究院的研究人员合作发表在CVPR 2017上。作者提出了一种新的网络结构来从给定的某一视角输入图像合成新的3D视角图像。减少了结果中的畸变和“洞”，提升合成质量。下图为合成结果示意图。



输入图像	Ground Truth	当前最好方法本文方法

结果示意图

【问题】

● 3D视角合成这一问题很困难：从单一视角到3D形状具有语义的歧义性

● 需要推断输入视角下不可见部分的物体appearance

● 基于图像合成的3D视角合成方法在视觉质量上低于基于几何的方法

【解决方法】

技术处理流程

给定一幅任意单视角的包含目标的输入图像，合成一幅三维视角的图像，将目标进行一个特定视角的变换。

将该任务分为两个步骤：首先显式地推断在输入和输出视角中可见的几何部分：提出了一个新的神经网络结构来预测一个流动(flow)将像素从输入移动到目标视角位置。然后，然后将剩余的合成问题转换为图像填充问题：利用神经网络根据中间结果来推断输入图像中不可见的部分所对应的合成结果。

除了提出了新的网络结构，提出了对抗损失函数和视觉感知损失函数来减少合成结果中的畸变和空洞。

【结果分析】

● 优势：在CG渲染的标准数据集上和真实互联网图像数据集上分别进行了360度旋转的3D重建、真实图像的3D物体旋转两组实验，与当前最好方法AFN相比，两个客观指L1 error 和SSIM 都更优，表明标合成的图像质量更好，artifacts更少

● 不足：训练集多样性不足，生成结果中，例如车灯和轮胎等一些结构不够准确和出现失真。

【应用落地】

基于图像的渲染技术中，可以在背景中放置指定姿态的虚拟物体；或者在场景中操作虚拟物体

Shape Completion using 3D-Encoder-Predictor CNNs and Shape Synthesis

原文链接：https://arxiv.org/pdf/1612.00101.pdf

项目主页：http://graphics.stanford.edu/projects/cnncomplete/

【摘要】

本文由斯坦福大学和慕尼黑工业大学的研究人员联合发表在CVPR2017上。该文章提出了一种基于数据驱动的方法来填充物体的3D形状。通过利用3维编码-解码神经网络，实现了高精度预测全局结构和局部高分辨率细节。

【问题】

当前获得的3D扫描由于遮挡因素的存在，在物理上无法保证所有的表面点能在扫描过程中被覆盖，导致获得的3D模型是不完整的。甚至对于一个单独的物体进行3D扫描，以上问题仍然存在。因而限制了在计算机图形学中的应用。

【解决方法】

直接应用深度学习来从部分扫描的输入来预测缺失的结构。一，基于volumetric CNN提出了一个3D-编码-预测网络来推断全局结构；二，提出了一个基于迭代优化的3D形状合成流程来获取局部几何细节，并提高了输出的分辨率。最后将这两个步骤结合在一起，提出了一个端到端的模型来进行3D形状合成。下图为提出的方法的整理处理流程图。

整体处理流程图

【结果分析】

● 优势：在一个包含1200个模型的测试集上进行结果量化评估。物体类别包括飞机、桌子、汽车、椅子、沙发、裙子、台灯和木船。对比方法包括经典方法Poisson、ShapeRecon以及与本方法最相似的3DShapeNets三种方法。在L1 error指标上，最终的合成结果要低于对比方法。

● 不足：

❖ 3D-编码-预测网络的分辨率是最大的限制。尽管它可以预测全局结构，但是无法推断更小的一些结构成分。尤其是几何细节在一个voxel尺寸以下。

❖ 当输入结构非常不足以至于缺少足够的上下文来进行有效的推断。

❖ 目前仅限于对于单独物体的处理，无法处理较大规模场景，比如一间屋子规模。

3D Menagerie: Modeling the 3D Shape and Pose of Animals

原文链接：https://arxiv.org/pdf/1611.07700.pdf

结果链接：https://www.youtube.com/watch?v=70VzFdthqRo

【摘要】

本文来自意大利帕维亚研究所、马里兰大学和德国马普智能系统研究所的研究人员。提出了一种对动物形状和姿态进行建模的方法。下图为对动物3D形状与姿态进行建模的结果示意图。

对动物3D形状与姿态进行建模的结果示意图

【问题】

相比于人，动作很难听从指令配合，因此也就缺少各种类型和姿态的3D扫描模型。

【解决方法】

从少量训练集中学习动物的3D统计形状模型。将这一模型和形状和姿态于2D图像进行配准，从而可以对之前没有见过的形状生成模型。

【结果分析】

● 优势：通过使用玩具模型(toy model)的扫描图作为数据集训练模型，得到的模型具有比较好的泛化性，可以对真实动物图片进行建模，捕捉3D形状。

● 不足：数据规模不够大，还需要通过更多类型的图像来训练；对于一些方向变化比较大和深度信息模糊的动物图像，建模结果会失败。

【应用落地】

辅助动画制作。

Controlling Perceptual Factors in Neural Style Transfer

原文链接：https://arxiv.org/abs/1611.07865

代码链接：https://github.com/leongatys/NeuralImageSynthesis

【摘要】

本文由德国图宾根大学和Adobe 研究院的相关研究人员联合发表在CVPR 2017上。作者在当前图像风格迁移方法的基础上，提出了新的对于合成图像区域位置、颜色信息和空间尺度的控制方法，使得用户可以在一定程度上按照个人喜好来合成图像。以下是不同控制方法对应的图像风格迁移结果示意图。

不同控制方法对应的图像风格迁移结果示意图

【问题】

当前基于深度学习的图像风格迁移对于合成的结果图像只有统计学上的解释，单缺乏直观理解，同时对于风格迁移的过程无法进行控制。

【解决方法】

本文提出了如下的假设：图像风格可以被分解为空间区域、颜色与光照信息和跨空间尺度这三个因素。

对于空间因素的控制，通过引入一个新的空间引导矩阵，来控制风格图像的哪一部分用来风格化内容图像对应的图像区域。

对于颜色因素的控制，可以只采用亮度通道进行迁移或者颜色直方图匹配方法来实现。

对于空间尺度因素的控制，通过选择神经网络中不同层对应的统计信息进行风格迁移来实现。

【结果分析】

分别对提出的三种控制合成方法进行了对比实验。在作者给出的三组实验结果中，可以看出可以实现了对于空间区域、颜色与光照信息和跨空间尺度这三个因素的控制。

● 优势：可以生成更加多样性的艺术风格图像

● 不足：评价方法很主观，对于方法的计算效率和实时性没有分析。

【应用落地】

用一种可解释和可控制的方法来进行多种图像风格的迁移与合成，增加结果的多样性。

姿态估计 ( Object Pose Estimation)

目标姿态估计是计算机视觉研究领域中非常重要的一类问题。它指的是给定一幅图像或一段视频，然后去恢复其中人体关节点位置的过程。根据输入图像的类型，人体姿态识别算法可以分为两类：基于深度图的算法和直接基于RGB图像的算法。相较于深度图对图像采集设备要求过高而带来的应用易受限的问题，基于RGB图像的人体姿态估计算法具有更广的应用前景，并且在学术上也取得了很好的成果。目前，即便是针对比较复杂的场景下，基于RGB图像的人体姿态估计算法也能达到很好的识别效果。

姿态估计在游戏领域的应用也十分广泛，可以应用到各类体感游戏中，增加游戏交互性。同时应用到动画制作中。

● 人体(human body)

Realtime Multi-Person Pose Estimation using Part Affinity Fields

原文链接：https://arxiv.org/pdf/1611.08050.pdf

项目主页：https://github.com/ZheC/Realtime_Multi-Person_Pose_Estimation

结果视频展示：https://www.youtube.com/watch?v=pW6nZXeWlGM

【摘要】

本文来自卡耐基梅隆大学的研究人员。文章提出了一种高效检测图像中多人姿态的方法。通过利用全局上下文信息和一种自底向上的信息处理流程，在保持高精度的同时，达到了实时估计。

【问题】

之前的许多方法存在以下的几个问题：当然待检测图像中人数过多时，计算效率严重下降；对于全局的上下文信息利用不足，导致对于一些人体接触、遮挡和肢体不全的情景性能不好。

【解决方法】

提出了一种基于人体局部检测与关联的处理流程，通过学习一个2D向量场来编码图像里人的身体的位置和方向。举例来说，当图像中有多个人时，同时检测每个人的胳膊和腿等部位，并且对于检测结果进行编码和计算它们之间的关联性，然后利用全局的上下文信息来重新优化检测结果。下图为文本提出的完全流程图。

方法的完整流程图

【结果分析】

● 优势：在两个公开的标准数据集——MPII和COCO 2016 keypoints——进行结果比较。与原有最好的方法Deepercut相比，mAP指标平均提升13%。在运行时间上，测试图像尺寸为368*654时，PC机为Nvidia GTX-1080 GPU时，在同时检测19个人的情况下，可以达到8.8 fps。

● 不足：

❖ 对于一些罕见的动作或者人的外表特征，检测失败；一些动作姿态检测不完整；

❖ 对于一些人体部位重叠的情况，仍然存在漏检的情况。

PoseTrack: Joint Multi-Person Pose Estimation and Tracking

原文链接：http://pages.iai.uni-bonn.de/iqbal_umar/PoseTrack/PoseTrack_cvpr17.pdf

项目主页：http://pages.iai.uni-bonn.de/iqbal_umar/PoseTrack/

【摘要】

本文来自德国波恩大学和澳大利亚阿德莱德大学的研究人员。文章创新性地提出了一种同时对视频中多人姿态进行估计和跟踪的方法。

【问题】

当前基于top-down的方法有以下问题：

❖ 整个流程依赖于单个的人体姿态估计，一旦person 检测失败，则整个方法就无法复原

❖ 方法复杂度正比于图像/视频中的人数，随着目标个数增加，计算开销大大增加。

❖ 基于bottom-up的方法同样有计算效率低的问题，无法达到实时

❖ 之前的方法在处理大幅度动作、尺度变化、快速运动、身体被遮挡和突然被截断等情况时，效果不理想。

【解决方法】

首先在空间上对每个人的人体关节进行联合检测，然后对于单人和多人在时间和空间上进行关节之间的关联计算，完成整体的动作估计；另一方面，对于每个人在时间维度上进行动作跟踪。

【结果分析】

● 优点：

❖ 在公开数据集MPII上，mAP指标高于目前最好的方法DeeperCut。

❖ 在算法运行时间上，单线程3.3GHz CPU上，每一帧需要花费14.7s。

❖ 可以较好处理大幅度动作、尺度变化、快速运动、身体被遮挡和突然被截断等情况

● 不足：

❖ 仍然无法达到实时

3D Human Pose Estimation from a Single Image via Distance Matrix Regression

原文链接：https://arxiv.org/pdf/1611.09010.pdf

结果链接：http://www.iri.upc.edu/people/fmoreno/Publications/2017/misc/Moreno_cvpr2017.mp4

【摘要】

本文来自西班牙高等科学委员会下属的自动机械与工业信息研究所。通过创新性地提出使用距离矩阵来表示人体动作数据，引入了结构信息约束，提高了预测精度。

【问题】

对于人体姿态估计问题(假定有N个关节)，目前大多数方法采用一种向量化的表示方法，即将这一问题转化为2N到3N的回归问题。这类处理方法会忽略姿态的一些空间结构信息，导致估计不准确。

【解决方法】

使用N*N欧式距离矩阵(EDM)来表示2D和3D人体姿态，并将姿态估计问题转化为矩阵回归问题。具体的，使用一个神经网络来拟合2D到3D的EDM回归。

整体处理流程图

【结果分析】

● 优势：在Humaneva-I、Human3.6M和Leeds Sports Pose(LSP)三个数据集上进行效果评估。相比于当前最好的几种方法，估计误差明显减小，并且对于没有见到过的数据有较好得泛化性。通过EDM引入了人体的空间结构信息约束和关节之间的相关性，从而对于遮挡、2D噪声有更好的鲁棒性。

● 不足：没有给出计算效率的分析

接《 NEXT 技术快报》：计算机视觉篇（下）

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

人工智能

数据处理

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

人工智能

数据处理

登录后参与评论

0 条评论

热度