作者 | Vivek Jayaram
来源 | Medium
编辑 | 代码医生团队
是否希望在没有完整工作室的情况下制作专业质量的视频?还是在视频会议期间Zoom的虚拟背景功能效果更好?
最近在CVPR 2020中发表的论文 [1]提供了一种新的简便方法来替换您的背景以用于各种应用。可以在日常设置中在家中使用固定或手持摄像机进行此操作。方法也是最先进的,可提供与专业结果相当的输出。在本文中,逐步介绍了该方法的动机,技术细节和使用技巧。
项目页面和代码库。
https://grail.cs.washington.edu/projects/background-matting/
https://github.com/senguptaumd/Background-Matting
什么是遮罩?
遮罩是将图像分为前景和背景的过程,因此可以将前景合成到新的背景上。这是绿屏效果背后的关键技术,广泛用于视频制作,图形和消费类应用程序。为了对此问题建模,将捕获图像中的每个像素表示为前景和背景的组合:
消光方程
问题是解决给定捕获图像(C)的每个像素的前景(F),背景(B)和透明度(alpha)。显然,这是高度不确定的,并且由于图像具有RGB通道,因此需要从3个观测值中求解7个未知数。
细分问题
一种可能的方法是使用分段来分离前景以进行合成。尽管近年来分割取得了长足的进步,但它不能解决完整的消光方程。分段为每个像素分配一个二进制(0,1)标签,以表示前景和背景,而不是求解连续的alpha值。在以下示例中可以看到这种简化的效果:
此示例说明了为什么分段不能解决合成问题。使用DeepLab v3 +进行分割[2]。
边缘周围的区域(尤其是头发中的区域)的真实Alpha值介于0和1 之间。因此,分段的二进制性质在前景周围创建了粗糙的边界,从而留下了可见的伪像。解决部分透明性和前景色可以在第二帧中实现更好的合成。
使用随便捕获的背景
由于消光比分段困难得多,因此即使使用深度学习,也经常使用附加信息来解决此不受约束的问题。
许多现有的方法[3] [4] [5]使用trimap或已知前景,背景和未知区域的手动标注地图。尽管对图像可以做到这一点,但对视频进行注释非常耗时,并且不是解决此问题的可行研究方向。相反,选择使用捕获的背景作为真实背景的估计。这使得更容易求解前景和alpha值。称其为“随意捕获”的背景,因为它可能包含轻微的移动,色差,阴影或与前景类似的颜色。
捕获过程。当对象离开场景时,会捕获它们背后的背景以帮助算法。
上图显示了如何轻松地提供真实背景的粗略估算。当人员离开现场时,捕获了他们背后的背景。下图显示了它的外观:
捕获的输入,捕获的背景以及在新背景上合成的示例。
请注意,此图像具有挑战性,因为它具有非常相似的背景和前景色(尤其是在头发周围)。它也用手持电话录制,并且包含轻微的背景移动。
“称其为随意捕获的背景,因为它可能包含轻微的移动,色差,阴影或与前景相似的颜色。”
拍摄技巧
尽管方法适用于某些背景干扰,但是当背景恒定且在室内环境下效果最佳时,效果会更好。例如,在被摄对象投射出非常明显的阴影,运动的背景(例如水,汽车,树木)或较大的曝光变化的情况下,它不起作用。
失败案例。这个人是在移动喷泉前被摄制的。
还建议通过让人们在视频结尾处离开场景并从连续视频中拉出该帧来捕获背景。从视频模式切换到照片模式时,许多手机的缩放和曝光设置都不同。用手机拍摄时,还应该启用自动曝光锁定。
理想的捕获方案。背景是在室内,不动,被摄对象没有投射阴影
捕获提示摘要:
这种方法像背景减法吗?
另一个自然的问题是,这是否像背景扣除。首先,如果易于使用任何背景进行合成,那么这些年来电影业就不会在绿色屏幕上花费数千美元。
背景减法不适用于随意捕获的背景
此外,背景减法不能解决部分alpha值,从而具有与分割相同的硬边。当前景和背景颜色相似或背景中有任何运动时,它也不能很好地工作。
网络详细信息
该网络包括一个受监督的步骤,然后是无监督的优化。将在此处对其进行简要总结,但是有关完整的详细信息,您可以随时查看本文。
监督学习
为了首先训练网络,使用Adobe Composition-1k数据集,其中包含450个经过认真注释的地面真相alpha遮罩。以完全监督的方式训练网络,在输出上每像素损失一次。
网络的受监管部分。使用几种输入提示,然后输出Alpha遮罩和预测的前景色。在Adobe 1k数据集上进行训练,并提供了真实的结果。
请注意,接受了几个输入,包括图像,背景,软分割和时间运动信息。新颖的上下文切换块还确保了对不良输入的鲁棒性。
GAN的无监督优化
监督学习的问题在于,adobe数据集仅包含450个地面真值输出,这几乎不足以训练一个良好的网络。获得更多数据非常困难,因为这涉及到手动注释图像的Alpha遮罩。
为了解决这个问题,使用了GAN优化步骤。从受监管的网络中获取输出alpha遮罩,并将其合成到新的背景上。然后,判别器尝试辨别它是真实的还是伪造的图像。作为响应,生成器学习更新Alpha遮罩,以便最终合成的图像尽可能真实,以欺骗识别器。
无人监督GAN优化步骤。将前景放在新的背景上,然后GAN尝试判断它是真实的还是假的。
这里的重要部分是不需要任何标记的训练数据。鉴别器接受了数千个真实图像的训练,非常容易获得。
在数据上训练GAN
GAN的另一个有用之处在于,可以在自己的图像上训练生成器,以在测试时改善结果。假设运行网络并且输出不是很好。可以根据该确切数据更新生成器的权重,以更好地欺骗鉴别器。这将过度适合数据,但会改善所提供图像的结果。
未来的工作
尽管看到的结果很好,但是仍在继续使这种方法更加准确和易于使用。
特别是,希望使这种方法在诸如背景运动,相机运动,阴影等情况下更加健壮。也在寻找使该方法实时运行且具有较少计算资源能力的方法。这可以在视频流或移动应用程序等领域中实现各种用例。
参考文献
[1] S. Sengupta,V。Jayaram,B。Curless,S。Seitz和I. Kemelmacher-Shlizerman,背景抠图:世界就是您的绿屏(2020),CVPR 2020
https://grail.cs.washington.edu/projects/background-matting/
[2] LC Chen,Y.Zhu,G.Papandreou,F.Schroff和H.Adam,具有Atrous可分离卷积的编码器-解码器用于语义图像分割(2018年),ECCV 2018
https://arxiv.org/abs/1802.02611
[3]庄勇,B。Curless,DH Salesin和R. Szeliski,贝叶斯数字抠图方法(2001),CVPR 2001
https://grail.cs.washington.edu/projects/digital-matting/papers/cvpr2001.pdf
[4]侯Q和刘F。用于同时前景和Alpha估计的上下文感知图像抠像(2019),ICCV 2019
https://arxiv.org/abs/1909.09725
[5] H.Lu,D.Y。Dai,C.Shen和S.Xu,Indicess Matter:Learning Indexing for Deep Image Matting(2019),ICCV 2019
https://arxiv.org/abs/1908.00672