揭秘:快手用AI在短视频里玩出三大花样,背后是怎样的技术原理?

郭一璞 发自 西二旗 量子位 报道 | 公众号 QbitAI

你一定觉得,AI这种前沿科技,主要活在硅谷西二旗的科技公司、大学和研究院的论文、还有资本的热捧里。

这些地方有算力、有人才、有资金。

但实际上,即使是那些中国最质朴的农民,也已经用上AI了。

比如说,快手平台上的1.9亿短视频创作者,他们也在用AI技术丰富自己创作的短视频作者。

那么,具体怎么用呢?

量子位采访到了快手的技术团队,为大家介绍几个快手平台上AI应用,还有背后的原理。

低配手机也能用的Animoji

最有趣的功能当属“萌面Kmoji”,将视频中人物的头像变成虚拟卡通形象,一方面可以给视频增添乐趣,另一方面也可以帮助到那些不想露脸的用户。

类似苹果2017年推的Animoji功能,通过面部识别将用户脸上的细微表情,生成对应的卡通形象。

Kmoji版的快手网红手工耿

量子位也体验了一下“萌面Kmoji”的效果:

至于如何生成这类效果,快手技术团队介绍,需要用到基于物理的真实感渲染算法,让Kmoji上的金属、皮革等模型看起来更拟真。

整个模拟人脸的过程借助了3D结构恢复与3D信息融合,用3D重建技术恢复出3D结构,融合2D信息后,分析人脸特征,进而生成虚拟形象。

在这里,3D人脸重建需要借助快手内部的上万级3D人脸数据集,包含每个人的年龄段、人种、脸型和表情,通过人脸关键点识别技术,帮助3D人脸重建,不管你是哭着还是笑着都可以重现出来。

此外,生成虚拟形象还要分析用户的人脸属性,借助分类/回归/分割等方法,区分出性别、年龄、肤色、脸型等信息。

之后,因为生成的3D卡通图像是会随着人的表情而变化的,需要分析人脸表情,才能在卡通形象上展示出一模一样的表情。

这里需要通过2D的RGB视觉信息对问题进行建模求解,获得人脸关键点和实时重建的3D模型,把各种模态信息做建模、做对齐,求解出人脸的表情,驱动虚拟卡通形象做各种逼真的动作。

另外的一个问题是,如何让模型在手机端(乃至低端手机上)跑起来?

快手技术团队介绍,为了让模型在手机端流畅运行,需要进行图像预处理,合并多种预处理操作,对预处理的图像内存进行统一分配和回收,利用NEON加速和苹果自带的accelerate加速,让运行库只占2M的空间。

最后,在保证预测精度的前提下,快手技术团队对AI模型进行局部的INT8量化,使得运行速度可提高1倍以上,同时AI预测模型的占用空间也压缩到将近原来的四分之一。

世界上的另一个你

世界上的另一个你是快手在去年乌镇的世界互联网大会上亮相的一个线下应用,这个玩法是根据体验者的面孔,匹配亿万快手用户上传在平台上的公开视频,找到那个跟你长相相似的人。

这个应用本身是靠人脸检测。

据快手技术团队介绍,在提取人脸特征后,系统在快手后台数据库中进行检索,找到相似度最高的三个人脸图像。

之后,再对这三个人脸图像进行更细粒度的属性分析,得出对应的年龄、性别、表情等属性,基于属性对检索结果进行重排,从三张人脸里挑出和体验者长得最像的那个。

人像3D打光

快手上的另外一个AI应用则是人像3D打光,就像是短视频版的“逆光也清晰”,在光线不好的情况下,自动“打”一束光到用户脸上,让生成的图像效果有非常自然、符合面部形状的光线。

人像3D打光主要利用了实时人脸三维重建技术,利用了人脸参数化先验模型,根据输入图,自动匹配人脸几何信息,得到人脸3D模型参数,获得人脸3D网格模型。

另外,还可以根据不同的场景设置不同的光源,利用实时渲染技术对虚拟人脸进行渲染,得到面部光影图;对输入人像进行前景分割,得到前景分割蒙版,也可以根据原图得到其他蒙版信息;这些蒙版分别作为不同的图层按照场景需求特定的方式叠加到原图上,就可以得到打光结果。

OMT

除了计算机视觉、计算机图形学方面的应用,据快手算法科学家张国鑫介绍,快手在2019年也会将语音识别融入到产品中,开发更多应用。

原文发布于微信公众号 - 量子位(QbitAI)

原文发表时间:2019-01-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

扫码关注云+社区

领取腾讯云代金券