谷歌揭示了新的增强现实动画背后的AI技术

AiTechYun

发布于 2019-05-13 10:05:57

5580

发布于 2019-05-13 10:05:57

文章被收录于专栏：ATYUN订阅号

作者：明知不问

发布：ATYUN订阅号

像YouTube Stories这样的应用程序可以在人脸上叠加动画面具，眼镜和帽子，但它们究竟是如何做到如此真实的？谷歌AI研究部发布的深度研究，使它不再那么神秘。

在博客文章中，公司的工程师用Stories和ARCore的Augmented Faces API的核心技术描述AI技术，这可以模拟光反射，模型面部遮挡，模型镜面反射等等，所有这些都是用一台相机实时进行的。

Artsiom Ablavatski和Ivan Grishchenko解释说，“使这些AR功能成为可能的关键挑战之一是将虚拟内容正确地锚定到现实世界，这一过程需要一套独特的感知技术，才能跨越微笑，皱眉或假笑跟踪具有高度动态的表面几何形状。”

谷歌的增强现实管道，利用TensorFlow Lite，用于硬件加速处理，包括两个神经网络。第一个检测器对相机数据进行操作并计算人脸位置，而第二个三维网格模型使用该位置数据来预测表面几何形状。

为什么采用双模式方法？有两个原因，首先，它大大减少使用合成数据增加数据集的需求，并且它允许AI系统将其大部分容量用于准确预测网格坐标。这两者都对于实现虚拟内容的正确锚定至关重要。

下一步需要使用平滑技术将网格网络应用于单帧摄像机镜头，从而最大限度地减少滞后和噪声。该网格是从裁剪过的视频帧生成的，并在标记过的真实数据上预测坐标，提供3D点位置和人脸出现的概率，并在帧内对齐。

AR管道的最新性能和准确性的改进得益于最新的TensorFlow Lite，它在显著提高性能的同时显着降低了功耗。它们也是工作流程的结果，迭代地引导和细化网格模型的预测，使团队更容易处理具有挑战性的案例，例如鬼脸和倾斜角度，相机缺陷和极端光照条件。

有趣的是，管道不仅仅依赖于一两个模型，相反，它包含一系列旨在支持一系列设备的架构。更轻便的网络需要更少的内存和处理能力，必然使用较低分辨率的输入数据（128 x 128），而最复杂的数学模型将分辨率提高到256 x 256。

根据Ablavatski和Grishchenko的说法，最快的“全网格”模型在Google Pixel 3上推理时间小于10毫秒，而最轻的模型将推理时间降低到每帧3毫秒。它们在iPhone X上的速度要慢一些，但也只是一点点。最轻的型号在大约4毫秒内（使用GPU）进行推理，而全网格需要14毫秒。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2019-03-11，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 ATYUN订阅号微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度