Octi让智能手机具备识别场景纵深、追踪人体运动的能力

尽管深度摄像头正在逐渐出现在许多手机手机品牌的高端机型上,但是单目、RGB摄像头仍然是占据绝大多数设备的主流。这也就导致了现有的AR技术仍然是基于平面,很难去获取环境的纵深。另外设备也很难捕捉并理解人体以及动作,无法表现更好的增强现实效果。

普及具备深度获取能力的摄像头仍需时日,而人们对于更好的AR体验的追求已经等不及了,如何在不添加传感器的条件下,让单目视觉设备具备对场景纵深的理解能力,对人物动作的追踪能力,成为增强现实视频公司Octi攻克的重点。

在iOS端,Octi推出了一款名为“Octi”的APP,已经可以在App Store下载体验

这款应用展示了他们的动态抠图技术

识别动态的尬舞人体,选择特效,例如变成透明人

将从别处抠下来的动态跳舞妹子放进同一个场景中

点击边框调出视频工具条

和时下流行的短视频结合起来似乎会有奇妙的效果。

在Octi的官网上能看到技术的简要说明。

首先是移动实例分割。

所谓实例分割,就是机器自动从图像中用目标检测方法框出不同实例,再用语义分割方法在不同实例区域内进行逐像素标记。换言之,就是当场景中出现很多人的情况下,实例分割能够区分出那些像素属于第一个人,哪些属于第二个人。

而Octi专有的人员实例分割方法能够实现在移动设备(手机)上以高帧率运行。

为了让机器具备理解人体及其运动的能力,Octi建立了成熟的机器学习和计算机视觉技术。

首先,它扫描人体,检测关键点比如眼睛、鼻子、臀部肘部等。

然后利用这些点来构建骨骼模型

Octi独特的3D重建技术结合使用神经网络和运动学模型,比同类方法具有更高的精度。

使用人的姿势、分割和一系列专有运动模型的先验组合,Octi在移动端实现了人体的体积重建。

看来Octi采用的便是被丸子酱点名批评过的,通过在模拟出的骨骼模型上套上一个粗糙的人体外壳完成的人体3D模型重建(

Facebook最新开源,普通RGB相机即可实时映射3D模型

)考虑到在手机端各方条件都受限制,不能强求更多,实用就好。

为了让单目RGB相机识别环境中的相对深度

Octi利用深度估计估计模型来区分图像的前景和背景(即物体的远近),这种能力加强了设备对于场景的语义理解,并且允许我们在不考虑背景噪声的情况下提取人的详细动作。

Octi日前确定了同NFL球员协会(美国国家橄榄球联盟)确定了投资战略和合作关系,球迷粉丝们可以通过Octi提供的技术同超过2000名橄榄球运动员进行视频形象互动,就像我们在文章开头看到的那样。

动作捕捉似乎是个和我们普罗大众相距甚远的技术条目,Octi此举却告诉了我们,我们可以利用这项技术做很多有趣的事情,而且仅需要一个配备单目摄像头的智能手机,就可以从场景中提取清晰人体动作,这将给AR技术的普及推广进一步推波助澜。

Octi不久前宣布获得750万美元投资,有了更多资金,Octi将继续完善其计算机视觉科学家、机器学习工程师的研究人员团队,或许能在技术上更进一步。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180725A1ZU3Y00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券