Google最近宣布了在Google Meet中模糊和替换背景的方法,以便更好地关注人物而不是周围的环境。这些新功能由MediaPipe内置的尖端Web机器学习(ML)技术提供支持 ,该技术可 直接在浏览器中运行,而无需执行任何其他步骤,如安装其他软件。开发这些功能的主要动机之一是在几乎所有现代设备上提供实时的浏览器内性能。它通过结合高效的设备上ML模型, 基于WebGL的渲染和通过XNNPACK 和 TFLite的基于Web的ML推理来 实现此目的。
Web ML解决方案概述
Meet的新功能是通过 Google的开源框架MediaPipe开发 的。它有助于构建应用了ML管道的多模式(例如,视频,音频,任何时间序列数据),跨平台(即Android,iOS,Web,边缘设备)。它还为机器学习实时身体部位和姿势跟踪等机器学习解决方案提供支持。MediaPipe的 Web管道 利用 WebAssembly 来提高处理大量计算任务的速度。在运行时,浏览器将WebAssembly指令转换为本机代码,其执行速度比传统的JS(JavaScript)代码快。
该解决方案通过 从用户背景中分割用户来处理每个视频帧, 并计算低分辨率蒙版。进一步完善此蒙版以使其与图像边界对齐。然后用于通过WebGL2产生背景模糊或替换的输出视频 。
图:WebML管道:所有繁重的计算操作都在C ++ / OpenGL中实现,并通过WebAssembly在浏览器中运行。
因此,Google Meet引入了一种新的浏览器内ML解决方案, 用于模糊和替换背景。这样,ML模型和OpenGL着色器可以在Web上高效运行。所开发的功能即使在低功耗设备上也能以低功耗实现实时性能。
来源:
https://ai.googleblog.com/2020/10/background-features-in-google-meet.html
MediaPipe:
https://mediapipe.dev/