学习
实践
活动
专区
工具
TVP
写文章

Facebook新研究:只需1秒,2D照片也能模拟3D效果

还记得2018年F8大会上,Facebook发布的一项关于手机拍摄3D照片的玩法吗,该功能已正式推出。和其它的照片类似,Facebook 3D照片结合手机IMU,在新闻流中呈现出具有环绕效果的沉浸观感。

不过,虽然3D照片确实仅需一台手机,但是对手机有要求,仅部分支持“人像模式”的双摄机型才支持。显然,这会降低它的使用便捷性。

为了降低使用门槛,Facebook今天公布一项新的AI应用,让2D照片转换成3D照片,和直接拍摄3D照片不同的是:它只需单摄即可完成,意味着几乎所有安卓和iOS手机、平板电脑,甚至单反相机都支持。

应用场景方面,3D照片玩法有很多,例如把多年前的家庭相册翻拍,会别有一番趣味。甚至现在有了单摄支持,部分机型还可以通过前置单摄进行3D自拍。

不过需要注意的是,目前3D照片工具仅支持:iPhone 7及更新型号的苹果手机,或中高端安卓机型,Facebook并未给出具体支持列表。

当然,原来的3D照片功能也是基于卷积神经网络(以下简称:CNN)构建,并且当时也公布了基于单摄的CNN,但是最终效果不如双摄机型好。而本次发布的2D转3D照片,效果已经接近无差别。

据青亭网了解,最新的基于单摄的3D照片转换的CNN中,最大的特点是:可以分析出几乎所有2D图像中的3D结构。具体而言,运用到的CNN有:FBNet、ChamNet等。

2D图像深度估算演示(颜色越深,表示距离越远)

Facebook发布博客表示,将2D照片转换成3D照片面临巨大的挑战,需要进行大量模型训练,并且满足可以在移动设备上进行高效的运算。

真实拍摄2D照片转换3D照片效果

为了满足移动设备运算需求,在给定格式的RGB照片中,3D照片CNN需要为每一个像素进行相机距离估算,为此Facebook提出的目标是:

1,使用一组可参数化,并针对移动设备优化的CNN;

2,自动化神经架构搜索,使得其能在1秒内在任何移动设备上完成运算;

3,量化感知训练,利用高效的INT8移动量化,同时尽可能避免降低画质;

4,使用大量公开的3D照片。

关于神经网络的构建基块,其受到FBNet启发,这是一套针对移动设备进行优化的ConvNet架构体系,细节不再展开。

关于自动化神经架构搜索,这里用到了Facebook AI部门的ChamNet算法。可以满足在指定搜索空间采样,进行精度训练。为了实现特定资源的高效输出,其采用一种搜索空间,会产生3.4×10的22次方种结果。最后,他们采用800块NVIDIA Tesla V100显卡,耗时3天进行搜索,并进行调整。

据了解,INT8仅FLOAT32所需存储空间的1/4,减少首次使用传输的数据量,而且后者运算符吞吐量也更高。

2D照片转换3D照片效果

复杂场景的2D照片转换3D效果也不错

通过以上的照片来看,我们看到了基于常规2D照片转换3D照片的能力,而且在高效率的CNN加持下,未来Facebook有望全面普及3D照片。至少,可以有机会让那些单摄手机或平板电脑,有机会体验到。

2D照片转3D照片提出为大家提供了新颖的交互玩法外,还可以帮助我们更好的理解2D图像内容;应用到3D场景,就可以帮助机器人更好地识别空间环境进行导航等。

除此之外,Facebook还透露正在扩展新玩法:为手机等移动设备提供更质量的3D视频,准确的说是提供深度估算。相比照片,视频的难度要更大,因此要保证相邻的2帧之间深度信息是一致的。可以预见的是,视频的深度信息估算将开创更多可能性。

同时,随着该CNN不断强化,其还在探索包括在AR环境中,进行实时深度估算,空间推理等。

毫无疑问,实时的深度信息估算将是打开移动AR/VR沉浸式交互的新大门,对于未来各种虚实融合场景有着极深的影响。

相关阅读:《Facebook F8讲到的3D照片是怎么一回事?》

参考:Facebook

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20200229A0OF0Q00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

关注

腾讯云开发者公众号
10元无门槛代金券
洞察腾讯核心技术
剖析业界实践案例
腾讯云开发者公众号二维码

扫码关注腾讯云开发者

领取腾讯云代金券