谷歌揭示了新的增强现实动画背后的AI技术

作者:明知不问

发布:ATYUN订阅号

像YouTube Stories这样的应用程序可以在人脸上叠加动画面具,眼镜和帽子,但它们究竟是如何做到如此真实的?谷歌AI研究部发布的深度研究,使它不再那么神秘。

在博客文章中,公司的工程师用Stories和ARCore的Augmented Faces API的核心技术描述AI技术,这可以模拟光反射,模型面部遮挡,模型镜面反射等等,所有这些都是用一台相机实时进行的。

Artsiom Ablavatski和Ivan Grishchenko解释说,“使这些AR功能成为可能的关键挑战之一是将虚拟内容正确地锚定到现实世界,这一过程需要一套独特的感知技术,才能跨越微笑,皱眉或假笑跟踪具有高度动态的表面几何形状。”

谷歌的增强现实管道,利用TensorFlow Lite,用于硬件加速处理,包括两个神经网络。第一个检测器对相机数据进行操作并计算人脸位置,而第二个三维网格模型使用该位置数据来预测表面几何形状。

为什么采用双模式方法?有两个原因,首先,它大大减少使用合成数据增加数据集的需求,并且它允许AI系统将其大部分容量用于准确预测网格坐标。这两者都对于实现虚拟内容的正确锚定至关重要。

下一步需要使用平滑技术将网格网络应用于单帧摄像机镜头,从而最大限度地减少滞后和噪声。该网格是从裁剪过的视频帧生成的,并在标记过的真实数据上预测坐标,提供3D点位置和人脸出现的概率,并在帧内对齐。

AR管道的最新性能和准确性的改进得益于最新的TensorFlow Lite,它在显著提高性能的同时显着降低了功耗。它们也是工作流程的结果,迭代地引导和细化网格模型的预测,使团队更容易处理具有挑战性的案例,例如鬼脸和倾斜角度,相机缺陷和极端光照条件。

有趣的是,管道不仅仅依赖于一两个模型,相反,它包含一系列旨在支持一系列设备的架构。更轻便的网络需要更少的内存和处理能力,必然使用较低分辨率的输入数据(128 x 128),而最复杂的数学模型将分辨率提高到256 x 256。

根据Ablavatski和Grishchenko的说法,最快的“全网格”模型在Google Pixel 3上推理时间小于10毫秒,而最轻的模型将推理时间降低到每帧3毫秒。它们在iPhone X上的速度要慢一些,但也只是一点点。最轻的型号在大约4毫秒内(使用GPU)进行推理,而全网格需要14毫秒。

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2019-03-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

扫码关注云+社区

领取腾讯云代金券