还记得2018年F8大会上,Facebook发布的一项关于手机拍摄3D照片的玩法吗,该功能已正式推出。和其它的照片类似,Facebook 3D照片结合手机IMU,在新闻流中呈现出具有环绕效果的沉浸观感。
不过,虽然3D照片确实仅需一台手机,但是对手机有要求,仅部分支持“人像模式”的双摄机型才支持。显然,这会降低它的使用便捷性。
为了降低使用门槛,Facebook今天公布一项新的AI应用,让2D照片转换成3D照片,和直接拍摄3D照片不同的是:它只需单摄即可完成,意味着几乎所有安卓和iOS手机、平板电脑,甚至单反相机都支持。
应用场景方面,3D照片玩法有很多,例如把多年前的家庭相册翻拍,会别有一番趣味。甚至现在有了单摄支持,部分机型还可以通过前置单摄进行3D自拍。
不过需要注意的是,目前3D照片工具仅支持:iPhone 7及更新型号的苹果手机,或中高端安卓机型,Facebook并未给出具体支持列表。
当然,原来的3D照片功能也是基于卷积神经网络(以下简称:CNN)构建,并且当时也公布了基于单摄的CNN,但是最终效果不如双摄机型好。而本次发布的2D转3D照片,效果已经接近无差别。
据青亭网了解,最新的基于单摄的3D照片转换的CNN中,最大的特点是:可以分析出几乎所有2D图像中的3D结构。具体而言,运用到的CNN有:FBNet、ChamNet等。
2D图像深度估算演示(颜色越深,表示距离越远)
Facebook发布博客表示,将2D照片转换成3D照片面临巨大的挑战,需要进行大量模型训练,并且满足可以在移动设备上进行高效的运算。
真实拍摄2D照片转换3D照片效果
为了满足移动设备运算需求,在给定格式的RGB照片中,3D照片CNN需要为每一个像素进行相机距离估算,为此Facebook提出的目标是:
1,使用一组可参数化,并针对移动设备优化的CNN;
2,自动化神经架构搜索,使得其能在1秒内在任何移动设备上完成运算;
3,量化感知训练,利用高效的INT8移动量化,同时尽可能避免降低画质;
4,使用大量公开的3D照片。
关于神经网络的构建基块,其受到FBNet启发,这是一套针对移动设备进行优化的ConvNet架构体系,细节不再展开。
关于自动化神经架构搜索,这里用到了Facebook AI部门的ChamNet算法。可以满足在指定搜索空间采样,进行精度训练。为了实现特定资源的高效输出,其采用一种搜索空间,会产生3.4×10的22次方种结果。最后,他们采用800块NVIDIA Tesla V100显卡,耗时3天进行搜索,并进行调整。
据了解,INT8仅FLOAT32所需存储空间的1/4,减少首次使用传输的数据量,而且后者运算符吞吐量也更高。
2D照片转换3D照片效果
复杂场景的2D照片转换3D效果也不错
通过以上的照片来看,我们看到了基于常规2D照片转换3D照片的能力,而且在高效率的CNN加持下,未来Facebook有望全面普及3D照片。至少,可以有机会让那些单摄手机或平板电脑,有机会体验到。
2D照片转3D照片提出为大家提供了新颖的交互玩法外,还可以帮助我们更好的理解2D图像内容;应用到3D场景,就可以帮助机器人更好地识别空间环境进行导航等。
除此之外,Facebook还透露正在扩展新玩法:为手机等移动设备提供更质量的3D视频,准确的说是提供深度估算。相比照片,视频的难度要更大,因此要保证相邻的2帧之间深度信息是一致的。可以预见的是,视频的深度信息估算将开创更多可能性。
同时,随着该CNN不断强化,其还在探索包括在AR环境中,进行实时深度估算,空间推理等。
毫无疑问,实时的深度信息估算将是打开移动AR/VR沉浸式交互的新大门,对于未来各种虚实融合场景有着极深的影响。
相关阅读:《Facebook F8讲到的3D照片是怎么一回事?》
参考:Facebook
领取专属 10元无门槛券
私享最新 技术干货