爱奇艺“能动的海报”刷爆全网！我们距离裸眼3D还有多远？

大数据文摘

发布于 2020-05-19 16:01:59

1K0

发布于 2020-05-19 16:01:59

文章被收录于专栏：大数据文摘

大数据文摘出品

作者：牛婉杨

不知道大家有没有印象，小时候很多书籍封面或者小卡片都是用“光栅立体卡”做的，以光学的原理把不同的图案印刷在特殊材料上，从不同的角度可以看到不同的画面，将平面转换成了3D效果。

图片取自网络视频

现在这种光栅立体卡仿佛很少见了，但人们对于将平面立体化的研究却从未停止，例如从1922年世界上第一部3D电影《爱情的力量》诞生开始，3D电影创造了一个又一个票房奇迹，3D技术也一直在进化迭代。

随着5G时代到来，VR也迎来了应用端的新纪元，而3D内容成为了构建VR生态的“主力军”。从光栅立体卡这种实体卡片，到3D电影，再到现在火热的VR应用，3D技术还能给我们带来哪些惊喜？

3D海报时代来了！

上周五，爱奇艺技术产品团队发布了一篇文章，文章显示AI通过深度学习可以实现2D到3D的转换了！这一技术可以延伸到3D海报的制作。

该团队表示，3D海报是一张2D图片加上其深度关系图，通过一系列的新视点渲染，得到一组动态的，人能感知的立体影像。

为什么会想到把海报做成3D的呢？

因为相对于2D内容，优质的3D内容有输出符合真实景深关系的能力，用户在观看时具有更好的沉浸感。

那除了海报，3D转换技术还可以用在哪里呢？

3D转换让广告也能变“套娃”？3D电影低成本制作不再是梦

大数据文摘联系到了爱奇艺技术产品团队，他们表示在3D海报视差图精修部分所涉及到的人像抠图、人脸重建等技术还有非常多的应用前景。

在2D转3D技术研发的初期，他们的目的是做电影的自动2D-To-3D转制，扩充3D内容的资源数量。3D海报其实算是研发过程中的一个“副产品”，最近他们也在计划一些新的应用方向，如3D直播等。

而2D-To-3D作为一系列技术的组合，不光能进行景深预测、修图，作为一项基础的技术积累未来也可能应用到更多方向，例如：景深预测可以在视频广告软植入中根据物体的景深进入无缝的贴图，什么意思呢？

让我们想象一下：广告中一个人从电视机前走过，那么这个电视机里能不能也通过系列技术让它很自然的播放我们想要的广告呢？在观众看来，或许很难区分这是后期处理，但却可以让植入广告变得更加的自然、炫酷。

另外，爱奇艺技术产品团队还表示会在包括内容、VR硬件平台生态、人体重建、人机交互等方向上继续探索，带来更多新奇的体验。

我们可以大胆展望下行业以后的发展：3D制作的低成本化及自动化会促进硬件侧如裸眼3D外设设备、3D电视等硬件的发展，用户侧如VR，AR等非影院的观影体验行业的发展，或成为一些低成本电影或者无3D版本电影重新发行3D版本的一种选择。

说了这么多，那么技术上究竟是如何实现的呢？接下来就和文摘菌一起看看是如何用AI从2D转换成3D内容的吧~

尝试各种新视角生成方案，终于找到看起来最不晕的那个了！

要想研究3D，就必须了解人眼的成像特点。为什么我们看到的世界是立体的？因为人的左眼和右眼看到的像是有差别的，也就是所谓的视差。然而“脑子是个好东西”，这两个角度的成像经过大脑处理之后便产生了深度。

那一只眼睛也是可以看出立体感的啊，没错，因为我们在看东西时不是像照相机一样拍下物体的瞬间，而是可以看到一个连续的画面，所以即使一只眼睛也可以看出远近的距离感，只不过两只眼睛看到的更加立体。

所以，要想模仿人眼所看到的立体感，就要用到一个工具——双目相机。没错，它可以模仿人双眼的深度成像，依靠拍摄的两张图片（彩色RGB或者灰度图）就可以计算深度。

图1 双目相机成像与视差原理

如图1左所示，两个相机拍摄同一场景生成的图像会存在差异，这种差异叫视差，其产于与真实的三维空间。视差不能通过平移消除，同时离相机近的物体视差偏移较大，反之越小。

人的左右眼就如同图中的左右相机一样，分别获取对应图像后，通过大脑合成处理这种差异，从而获取真实世界的 3D 感知，通过图 1 右可得出视差与相机焦距和轴间距间的关系：

公式（1）

其中z为物体距离相机的深度，x为三维映射到二维的图像平面，f为相机焦距，b为两个相机间的距离轴间距，

和

分别为物体在左右不同相机中成像的坐标，因此可知左右图对应像素

和

的视差

。

同时，考虑到转制的对象为2D介质，因此，通过单目深度估计合成新视点的算法原型诞生：通过公式(1)可知，假设有一个函数

那么就有：

公式（2）

通过公式（2）可知，只需要将图1左作为训练输入，图1右作为参考，即可建立深度学习模型，通过大量双目图片对训练估计出函数?。这样就可在已知相机参数(?,?)的前提下获取对应的深度值?，完成单目深度估计的任务。

通过公式（1）与公式（2）可以发现，深度与视差成反比，因此深度估计和视差估计的方法可以互用。Deep3D[1]虽然通过视差概率估计实现2D到3D介质的转换，但固定视差的设定，难以适应不同分辨率2D介质输入；

方法[2]没有充分利用双目信息作指导，景深不够细；monodepth[3]在方法[2]的基础上，充分利用了双目信息进行对抗指导，学习到更多深度细节；

SfmLearner[4]这类方法引入帧间时序信息，结构较复杂，运行速度慢。因此通过实现及适用性考虑最终我们选择以monodepth为baseline，其框架结构如图2所示：

monodepth框架图

通过以上方法对大量3D电影真实视差的学习与建模，完成从单目视图到双目视图的转换。这样做的好处，一是节约了技术成本，二是适用多种场景的真实3D视差关系，用户基本不会感到不适。

毕竟每一部3D电影的后期制作，动辄几千万的资金成本，需要上百人的团队长达几个月时间才能完成。而利用AI模型，能够快速、批量、全自动的把2D转制成3D内容，能极大的减少3D内容制作成本，同时以很快的速度丰富3D内容生态。

既省钱，又不晕，可以说是非常有前景的一套方案了。

类似的技术在国际上也有，前阵子Meng-Li Shih团队在CVPR2020上发表了一篇论文，通过上下文感知三维图像分层深度修复技术，可以把2D照片变为3D。

该团队称，他们提出了一种方法，将单个RGB-D输入图像转换为3D照片，即这是一种新颖视图合成的多层表示，包含了原始视图中被遮挡区域的幻觉颜色和深度结构。他们使用具有显式像素连接的分层深度图像作为底层表示，并提出了一个基于学习的inpainting模型，该模型以空间上下文感知的方式迭代地将新的局部颜色和深度内容合成到闭塞区域。生成的3D照片可以有效地使用标准图形引擎的运动视差进行呈现。

Meng-Li Shih团队的3D转换成果

随着AI领域的发展，3D内容将迎来更多可能

不知道大家是否像文摘菌一样好奇，他们是怎么想到这个idea的呢？

爱奇艺称，他们团队主要的研究方向是计算机视觉，而且团队里有资深的算法成员具备丰富的3D视觉经验，同时结合爱奇艺自身的业务，他们便开始了2D转3D这一创新研究。

尽管项目初期非常艰难，视频内容的2D转3D少有研究可以借鉴，他们尝试了非常多的方案都很不理想。好不容易可以在技术上实现2D转3D，又发现还有帧间抖动、物体空洞、物体边缘和背景存在模糊流动区域等非常影响观众体验的问题。

为了解决以上问题，他们采用BicycleGAN的“双轮训练”结构来解决不同数据集相机参数不同带来的问题，video2video的结构来解决帧间预测不连续的问题，用图像修复中的Gated-conv结构作为后处理网络以解决插值空洞的问题。

AI模型生成的3D红蓝视差图（3D红蓝视差图是能够表现出静态视差的图，带上常见的红蓝眼镜即可看到有3D效果的画面）

现在看来，能有如此效果已经非常棒了。爱奇艺团队也表示，这项技术目前已经申请了一些专利，更多专利申请在进行中。

未来，一方面他们还会继续继续优化模型，将模型应用拓展到更多的应用方向；另一方面，还会继续结合目标检测、抠图、图像修补等技术来完成对特定场景下的景深修正，来更逼真的还原那些特效场景。

在这漫长的研发过程中，他们也会遇到挫折，甚至陷入了瓶颈期。

团队中多是刚毕业没多久的的年轻人，很多人第一次接触3D视觉这个方向，在初期有一大段时间陷入研发瓶颈期，大家的情绪上都难免有所懈怠气馁。

怎么解决？

在他们眼中，没什么是一顿火锅解决不了的！如果不行，那就两顿！

2D转3D对视频/影视行业的价值思考

在过去3D技术应用创造商业价值，受制于两个方面：在硬件层面，拿前两年火热的3D电视举例，限制3D技术应用发展的其实是内容。一部昂贵的3D电视，结果花不了多少时间就把所有能看的3D内容全看完了，之后就沦为一台普通的电视。

而VR设备除了3D内容的缺乏因素，还有笨重、眩晕、清晰度等硬件技术上的问题，不过近两年VR设备都在快速进行产品迭代优化，相信未来几年VR设备能够更轻更强大，带给用户更好的体验。甚至是类似Google Glass之类的轻量级VR眼镜也不是没有可能出现。

软件和技术层面，2D转3D技术其实近年来也不乏有相关研究，但是更多的是在2D图片转成有3D立体感的图片（类似3D海报应用）上，而能够将影片转制成3D并且保留良好观影体验，甚至从效果上很难区分是原生3D还是AI模型转制的3D，这个是比较难做到的，爱奇艺在这个领域的研究具备一些优势。

但有挑战也就充满机遇：

在影视行业每一部3D电影的后期制作，动辄几千万起步的资金成本，上百人团队长达几个月时间和人力成本，都是阻碍3D内容丰富发展的痛点。但成熟的AI模型也许能够快速、批量、全自动的把2D转制成3D内容，能极大的减少电影公司的制作成本，同时以很快的速度丰富公司的3D内容生态，同时研发过程中积累的技术和内容，能够为之后几年的5G、VR、AR的发展提供一些积累。

随着5G技术的应用，更快的网络传输能够承载更多的信息，大型的实时场景如春晚、体育赛事的直播等内容，可能在很短时间内就能在VR端得到普及。以往VR场景里3D内容的缺乏是行业内的一个痛点，但是如果AI能够快速、批量、全自动制作3D内容，也许能更加繁荣VR行业。

此外，随着三维传感器的快速发展，还有智能移动机器人、无人驾驶、AR等三维应用场景快速发展衍生的强烈需求。近几年三维视觉技术开始从实验室走向寻常百姓家，服务于人们的生活和娱乐，如扫地机器人移动中的避障、复原文化古迹的三维结构等，也创造了更多的3D技术应用场景。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2020-05-15，如有侵权请联系 cloudcommunity@tencent.com 删除

图像处理

深度学习

本文分享自大数据文摘微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

图像处理

深度学习

登录后参与评论

0 条评论

热度