前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >谷歌揭示了新的增强现实动画背后的AI技术

谷歌揭示了新的增强现实动画背后的AI技术

作者头像
AiTechYun
发布2019-05-13 10:05:57
5340
发布2019-05-13 10:05:57
举报
文章被收录于专栏:ATYUN订阅号ATYUN订阅号

作者:明知不问

发布:ATYUN订阅号

像YouTube Stories这样的应用程序可以在人脸上叠加动画面具,眼镜和帽子,但它们究竟是如何做到如此真实的?谷歌AI研究部发布的深度研究,使它不再那么神秘。

在博客文章中,公司的工程师用Stories和ARCore的Augmented Faces API的核心技术描述AI技术,这可以模拟光反射,模型面部遮挡,模型镜面反射等等,所有这些都是用一台相机实时进行的。

Artsiom Ablavatski和Ivan Grishchenko解释说,“使这些AR功能成为可能的关键挑战之一是将虚拟内容正确地锚定到现实世界,这一过程需要一套独特的感知技术,才能跨越微笑,皱眉或假笑跟踪具有高度动态的表面几何形状。”

谷歌的增强现实管道,利用TensorFlow Lite,用于硬件加速处理,包括两个神经网络。第一个检测器对相机数据进行操作并计算人脸位置,而第二个三维网格模型使用该位置数据来预测表面几何形状。

为什么采用双模式方法?有两个原因,首先,它大大减少使用合成数据增加数据集的需求,并且它允许AI系统将其大部分容量用于准确预测网格坐标。这两者都对于实现虚拟内容的正确锚定至关重要。

下一步需要使用平滑技术将网格网络应用于单帧摄像机镜头,从而最大限度地减少滞后和噪声。该网格是从裁剪过的视频帧生成的,并在标记过的真实数据上预测坐标,提供3D点位置和人脸出现的概率,并在帧内对齐。

AR管道的最新性能和准确性的改进得益于最新的TensorFlow Lite,它在显著提高性能的同时显着降低了功耗。它们也是工作流程的结果,迭代地引导和细化网格模型的预测,使团队更容易处理具有挑战性的案例,例如鬼脸和倾斜角度,相机缺陷和极端光照条件。

有趣的是,管道不仅仅依赖于一两个模型,相反,它包含一系列旨在支持一系列设备的架构。更轻便的网络需要更少的内存和处理能力,必然使用较低分辨率的输入数据(128 x 128),而最复杂的数学模型将分辨率提高到256 x 256。

根据Ablavatski和Grishchenko的说法,最快的“全网格”模型在Google Pixel 3上推理时间小于10毫秒,而最轻的模型将推理时间降低到每帧3毫秒。它们在iPhone X上的速度要慢一些,但也只是一点点。最轻的型号在大约4毫秒内(使用GPU)进行推理,而全网格需要14毫秒。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-03-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 ATYUN订阅号 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档