Google披露Pixel 6人像模式可计算精确景深效果的秘密

文章来源：企鹅号 - 十轮网科技

Google在Pixel 6中，使用一种全新的技术，来计算自拍人像精确的Alpha遮罩，目的是要改善人像模式的拍摄效果，在合成景深效果的时候，能够利用精确的Alpha遮罩，来截取拍摄对象的轮廓，并且分离前景和背景。官方提到，这个技术让拥有各种发型的用户，使用人像模式自拍时，都能取得漂亮的照片。

图片去背（Image Matting）是一种截取精确Alpha遮罩的程序，该遮罩可以将前景和背景物体分开，被广泛地应用在电影或是图像编辑中，以完成替换背景或是合成景深效果等视觉效果。在传统的图片分割技术中，图像会以二元的方法进行分割，每个像素皆属于前景或是背景。

研究人员解释，图片分割技术无法处理细致的场景，像是头发或是毛皮，除非替前景物体，估算每个像素透明值。而与分割遮罩不同，具有透明信息的Alpha遮罩，可以保留发丝等级的细节，并且精确地标记出前景边界。

虽然目前深度学习技术，在图片去背方面有了明显的进展，但Google提到，这项技术仍然存在许多挑战，像是生成准确基准真相Alpha遮罩的方法，或是提高野外图像的泛化能力，甚至是在移动设备上，使用模型对高分辨率图像进行推理的障碍等。

Pixel 6人像模式所使用的人像去背技术，则克服了这些挑战，Google训练了一个由串行编码器和解码器模块，所组成的全卷积神经网络，来估计高品质的Alpha遮罩。

研究人员使用MobileNetV3模型作为骨干，加上浅层解码器，将RGB图像以及粗糙的Alpha遮罩作为输入，取得初步低分辨率经改善过的Alpha遮罩。

接着则是通过串行浅层编码器和解码器模块，来处理高分辨率图像，以及上一步经改善过的Alpha遮罩，研究人员解释，浅层编码器和解码器比MobileNetV3，更依赖低端的特征，能够利用高分辨率的结构特征，来预测每个像素最终的透明度数值。

全卷积神经网络能够细化初始前景Alpha遮罩，并截取像是发丝等非常精细的细节，该神经网络架构，皆使用Tensorflow Lite，并可在Pixel 6上高性能地运行。

当前多数的图片去背深度学习研究，都依赖人工注解每个像素以产生Alpha遮罩，以分开前景和背景，这些遮罩由图像编辑工具或是绿幕生成，Google提到，这个过程很无聊，也难以产生大型资料集，而且Alpha遮罩也容易出现错误。

Google则是使用容积截取系统Light Stage，来生成高品质的训练资料集，跟过去的资料集相比更加真实，另外，Google还通过合成野外图像的Alpha遮罩，来提高模型的泛化能力。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货