独家 | 我们扒出了这家中国创业公司,竟比苹果iPhone X早两年推出黑科技,还不用借助深度摄像头

于是,没有iPhone X,我也可以在我仅2000元的安卓机上玩转黑科技了。

记者:鸽子

在我威威天朝,表情包早已泛滥在各类社交应用程序中,如今,咱可以玩点新的包了。

就这个啦!在苹果iPhoneX的带领下,一种新的娱乐方式来了...

它生动而霸道地诠释了什么才是真正的表!情!包!

我的表情我做主,吼吼...

这就是iPhone X在基于Face ID的新功能下,推出的Animoji。

当你对着摄像头抬眉头、皱眉毛、动下巴、睁眼睛、闭眼睛、张嘴唇、咧嘴笑时,手机就会捕捉你的表情,并将其赋予可爱的卡通形象,实时生成一个属于自己的表情包。

如果说今天我们的重点是聊苹果,那也太low了,发布会过去了这么久,太对不起媒体的实效性。

今天,我们想说的是,有一家神秘的中国公司,早在2年前,就在手机上推出了同样的功能,并且越做越深。而更为神奇的是,在完全没有深度摄像头,甚至没有双目摄像头的情况下,它做到了同样的效果。这引起了AI科技大本营的注意。

这家低调的公司名叫appMagics——迈吉客科技。

早在2016年,该公司就完成了千万级人民币的A轮融资,投资方为极客帮及紫辉创投。在2016年9月获得蓝港互动战略投资后,它又在2017年6月完成了由华盖资本领投,博将紫辉跟投的数千万人民币A+轮融资。

在看过苹果发布会关于表情包的展示后,AI科技大本营记者也第一时间联系并试用了appMagics的产品。

总体的感觉是:体验很流畅,表情的贴合度较高,模拟很真实也很细腻。不过,当人突然将距离拉远,且快速剧烈摇摆时,表情识别偶尔会出现捕捉掉线的情况。

视频内容

这之后,AI科技大本营记者对appMagics CTO金宇林进行了独家专访,问题略微犀利,回复拒绝套路。希望搞清楚,创业两年多的appMagics,与苹果最新的黑科技,到底有何可圈可点之处。采访内容在不披露被采公司核心技术机密的情况下,尽量保持原样,部分言辞稍作不改变原意的修改。

AI科技大本营:简单了解一下您的技术背景。

金宇林:最早我是在北京航空航天大学读计算机图形学硕士,之后去了斯坦福继续读计算几何学,这算是计算机图形学的一个分支。毕业了一直留在美国微软总部,算是微软研究院3D打印项目的创始人之一,也申请过挺多专利。算起来,我做计算机图形学,已经15年了。

AI科技大本营:我们直击重点,表情识别这个玩法,背后的技术原理是什么?

金宇林:我尽量说得通俗一点。

原理大致分为三个步骤,第一步是人脸关键点识别与跟踪,第二步是表情分析和映射,第三步是三维模型的控制。

具体来讲,人脸关键点识别和实时跟踪,就是根据脸部标注的关键点,比如,哪里是眉毛、哪里是眼睛、哪里是嘴等,让摄像头清楚看懂人的面部。

表情分析则是说,根据识别和跟踪到的面部关键信息比如眉毛、眼睛、嘴等进行的运动,预测用户是闭眼还是说话,开心还是悲伤。

而三维模型的控制则是用面部关键信息,来驱动构建好的虚拟形象,去学习和模拟用户的表情。

总的来说,前两部分属于计算机视觉的研究范围,第三部分属于计算机图形学的研究领域。

AI科技大本营:到底appMagics所做的表情识别与苹果刚发布的iPhoneX,差别在哪?

金宇林:刚刚我提到了表情动画的原理分为三个步骤,我们跟苹果的差别主要是在前两步上,也就是第一步人脸关键点识别与跟踪,和第二步表情分析和映射。

简单来说,苹果是在3D系统(RGBD摄像头)的基础上做,而我们是在2D系统(RGB摄像头)上,所依赖的软硬件系统不同。(小编注:为了便于理解,以下RGB摄像头统称2D系统,RGBD摄像头统称3D系统)

那2D与3D系统在效果上有什么差别呢?

对于眼睛、眉毛、鼻子、嘴巴这些人脸中分界比较明显,特征比较明显的地方来说,只要训练的面部数据足够多,2D跟3D系统在捕捉上几乎没有差别。

但对于面部特征不太明显的额头、脸颊等,2D系统的捕捉就不如3D系统精准了。2D不太容易识别出这些部位的点,但3D由于多了一个纵深信息(z轴),它是可以识别到额头、脸颊这些点的。

拿苹果所采用的深度摄像系统来说,这是一个3D结构光传感系统。也就是说,这个系统除了有日常2D系统(普通前置RGB摄像头)捕捉的平面视觉信息外,还有纵深的视觉信息,也就是Z轴。

这个Z轴纵深的数据信息主要来自Dot Projector(点阵投影仪),通过它将结构红外光投射到人脸上,再用红外摄像头接收这些投射在人脸上的形变,计算面部每个点的深度数据。

这样,每个点不仅有了平面的坐标,而且有了Z轴深度坐标,对每个图像信息点的定位更为精准。

至于第三步,我们跟苹果没有差别。在三维模型控制和最终呈现效果上,我们从一开始的定位就是三维混合现实。

AI科技大本营:那我是不是可以说,苹果iPhoneX无论在精准度上,还是性能上,都更占优势?

金宇林:就客观条件来说,由于iPhoneX在RGBD摄像头的硬件基础下,识别的关键点更多,所以确实能精准捕捉到更多细节。

另外,由于苹果可以完全支配自己的软硬件系统,因此iPhoneX在性能上,一定更稳定。别说是表情,在很多方面,苹果手机由于软硬件一体化,性能也是大大优于其他手机的。这是客观硬件配置所决定的,没办法。

不过要说到苹果的优势,其实并不完全是这样。这里有两点需要说明一下。

第一,对于表情的捕捉,并非越精准就一定越好。因为人的感官并非完全是写实的。

怎么理解?我举个例子。当你闭上双眼的时候,其实并不是同时闭上的,可你自己以为是同时闭的,所以,当你看到表情捕捉到一只眼总是闭得慢一些时,会产生不适感。

再比如,当你闭一只眼时,另一只眼其实会眯上一点,但人并不自知。所以,当你看到表情捕捉呈现出最真实的效果时,反而不舒服,因为这跟你的潜意识不符。

所以,当我们把表情捕捉用于泛娱乐场景时,它更重要的目标是让虚拟形象能够传达人类的情感。所以,我们会用算法做一些处理,让你在真实和虚拟中达到一种视觉平衡。这种情况,确实并非越写实越好。

做VR和AR的人,可能对这一点的理解更深。

第二,在某些必须达到的真实度上,即使硬件并不具备,我们用算法也是能弥补的,而且效果绝不差。

我们两年来,一直埋头所做的一件事情就是,通过不断优化的算法,让表情模拟在普通手机上也能玩起来,而且传达人类的情感。

啥意思?

简单来说就是,原本普通RGB摄像头不容易捕捉的部分,我们靠算法来弥补。

比如,当我咧嘴的时候,我们会通过算法,来预测和模拟脸部肌肉的隆起;在皱眉的时候,也通过算法,来模仿额头的变化。我们在2D摄像头系统之上模拟了三维数据,在客观硬件基础不具备的情况下,也能将表情动画玩起来,而且看不出来太大的差别。

也就是说,通过算法,尽量降低玩表情动画的硬件要求和硬件成本。目前我们在iphone6上就能玩起来,安卓机也能玩。

AI科技大本营:这算技术上的核心竞争力吗?

金宇林:可以这么说。

其实,要说表情识别,好莱坞很多年前就在电影特效中用上了。

比如阿凡达和魔兽世界里面的表情就是用三维重构来实现的。具体的原理是,通过在演员的脸上贴图,形成一定的点阵(与苹果点阵投影仪的原理一致),脸部的特征就出来了。这样,当你的面部表情变化时,脸上的点随之而动,摄像头将其精准捕捉,就可以放在三维模型上用了。

但好莱坞的硬件多贵啊,普通人想玩这个怎么办呢?所以我们就基于普通手机的RGB摄像头,重新设计算法,在没有深度信息的情况下用算法来弥补,把这些功能实现了。

把影视CG技术消费化,把影视动漫玩的东西搬到每个人的口袋里,iPhonen能用,安卓手机能用,普通PC能用,Mac也能用,跨平台,这算是核心竞争力。

说白了,是把工业级能力和技术转化为民用级,让人想玩就玩,不用考虑太多硬件的配置。

AI科技大本营:如果说多年积累的核心竞争力在于,在2D系统(RGB摄像头)用算法来做3D系统(RGBD摄像头)才能做的事。那当3D摄像头普及,还有优势吗?

金宇林:就像我刚刚提到的,在表情识别上, 我们的核心算法分为三部分,获取现实中的关键信息确实基于普适的2D摄像头系统,不过我们从一开始就采用的3D数据模拟和控制,如果有一天所有手机都能直接获取三维数据,那么这一步我们的算法是不用做任何更换的,直接复用,所以这部分积累的优势仍然在。

但正如你所说,如果3D摄像头普及,整个行业的软件算法门槛将被大大拉低,我们基于2D系统所做的算法积累和优化确实就没有特别多的优势了。

不过你要知道,RGBD摄像头的普及并非易事,苹果不也是在iphone X上才采用,iphone8上都没有,因为目前RGBD无论在硬件微型化的成本和耗电方面壁垒都太高了。

这样说吧,从现在到未来很长一段时间,市场上绝大多数手机仍是2D摄像头的苹果和安卓机,那么我们基于2D系统所积累的三维算法壁垒,仍长期存在。

AI科技大本营:所以,基于目前的优势,主要拼抢的是中低端2D摄像头市场?

金宇林:从技术上来说,两个方向吧。

一个方向主打深度和精细度,高端手机市场,基于现有技术积累不断开发新算法的能力,包括直接可兼容用在3D系统中的算法;

一个方向主打广度,继续针对2D系统,扩大该技术在中低端手机上的适用性。目前我们算法的定位可以适用iphone5以上的苹果机型,以及主流安卓机型。这块会一点点往下做,匹配更多中低端安卓机型,覆盖更多用户。

这两方面都很重要。

抛开技术,从整个公司的战略来说吧,创始人Leody(小编注:appMagics 创始人CEO 伏英娜)一直强调,我们自身定位是跨界跨界跨界,不是天天埋头就搞计算机视觉、图形学、人工智能这些技术,技术的背后要有感觉,有感情,有感性的元素才行啊。

appMagics所设计的卡通表情形象

AI科技大本营:既然这样,为何非要自己开发背后整套技术,为何不直接调用第三方人脸识别科技公司的技术,专注于打造娱乐产品就好,岂不更省事?

金宇林:其实一开始,是考虑采用第三方技术的,不过试过所有的第三方技术,发现没有办法直接用。

为什么呢?

你看,目前CV(计算机视觉)领域,最大的市场是安防和金融。

对于安防和金融来说,计算机视觉主要的作用是,在很短的时间内判断是不是本人。而我们的要求是,计算机所识别到的表情是否精细,虚拟表情所模拟的效果是否准确。

这是两个完全不同的目标。那么其训练的出来的数据和算法,只能服务于一个目标,没有办法兼容。

再一个,目前的人脸识别大多是二维算法,但二维算法没有深度信息,用在表情模拟和控制上是远远不够的,因为很多特征不明显的关键点捕捉不到。这块就必须用三维算法来补齐。

所以,我们只能自己来做,从头到尾设计算法,做数据训练。

AI科技大本营:随着想要实现的不同目标越来越多,未来CV领域貌似越来越细化了。

金宇林:必须细化。

AI科技大本营:估算一下,表情动画这块有多大的市场规模?

金宇林:不说别的,就单说手机。如果现在所有的手机用户,管他是苹果还是安卓,管他高中低端,都想玩这种表情包,而现有手机的硬件条件也都带得起来,你觉得这是一个多大的市场。这块你可以具体跟Leody聊聊。

AI科技大本营:苹果这次iPhone X发布会,对公司倒是个很不错的PR机会。就最近而言,有什么特别大的直观的影响吗?

金宇林:特别大!这几天,因为苹果iPhone X推表情动画这个事,突然多了一堆找上来的合作伙伴和投资人,什么安卓厂商,APP,做输入法的公司,全挤过来了。

Leody还没回北京已经约不过来了。

一个行业最好的状态是什么呢,就是你做一个东西,一开始只有你在做,慢慢的,很多人发现,“咦,这个东西很有用啊”,于是都来学你做,因为表情动画很可能在未来两年成为App和手机标配,这就证明,你之前预测对了,你押对宝了。(笑)

附:

appMagics创始人兼CEO

伏英娜 Leody Fu是位女极客+连续创业者。2004年离开索尼爱立信创办MoGenisis,并于2007年成功被Symbian(诺基亚)并购。2010年加盟微软,先后担任大中华区及美国总部高管,带领团队进行微软新技术的传播和推广。2014年创办appMagics,专注于计算机视觉混合现实相关技术与文娱领域的跨界创新。

原文发布于微信公众号 - AI科技大本营(rgznai100)

原文发表时间:2017-09-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

AI全面超越人类还需多少年?352名专家预测(附论文)

安妮 编译整理自Inverse 量子位出品 | 公众号 QbitAI ? 展望未来,AI可以在10年后模仿出斯威夫特的歌曲,37年后可以代替人类进行手术,86年...

376100
来自专栏新智元

Stuart Rusell 专访:斯坦福百年报告否定人类水平 AI,不可理喻

【新智元导读】 UC Berkeley 大学计算机科学系教授,人工智能著名教材《Artificial Intelligence: A Modern Approa...

427180
来自专栏机器之心

从苹果店员到机器学习工程师:学习AI,我是这样起步的

我曾经在苹果商店工作,我想要改变,那么就从自己服务的技术入手吧。我开始学习机器学习和人工智能——这个领域非常热门,每一周,谷歌、Facebook 这样的科技公司...

8720
来自专栏镁客网

全球AI泰斗Stuart Rusell:研究人工智能太诱人了,不可抗拒

20560
来自专栏新智元

AI 预测人脸“第一印象”: 为没有真实数据,只有可衡量行为的问题建模

【新智元导读】美国圣母大学、哈佛大学等研究人员挑战为没有真实数据,只有可衡量行为的问题建模,他们设计了设计了一个基于回归框架的卷积神经网络,纯粹基于视觉判断得出...

35390
来自专栏AI科技大本营的专栏

突发 | Yann LeCun卸任!Facebook变天,做AI不能落地是不成了

作者 | 波波 编辑 | 谷磊 1月24日早间重磅消息,Facebook 人工智能研究部门(FAIR)的负责人Yann LeCun 宣布卸任,之后将担任Face...

354120
来自专栏深度学习自然语言处理

从苹果店员到机器学习工程师:学习AI,我是这样起步的

我曾经在苹果商店工作,我想要改变,那么就从自己服务的技术入手吧。我开始学习机器学习和人工智能——这个领域非常热门,每一周,谷歌、Facebook 这样的科技公司...

9130
来自专栏新智元

【福布斯】O‘reilly人工智能大会,LeCun 等解读人工智能12大痛点

【新智元导读】如今人工智能发展到底处于何种状态,面临哪些难点,未来发展潜力如何?参加了O‘reilly人工智能大会的行业专家Gll Press带来了他的12个观...

35490
来自专栏达摩兵的技术空间

你该为老板选择什么样的人(2)

怎样的一个面试过程会比较愉快呢?一般的面试者或者面试官怎样操作得到一个比较满意、综合的面试过程。

8730
来自专栏CDA数据分析师

果断收藏!机器学习人才发展全面指导手册(含学习路径和职业规划)

机器学习的学习路径 一、为什么是列出一堆可以探索的书,而不是要去寻找一条路 机器学习的研究和应用已经有很长的时间了。随着人类的发展,数据和计算能力都在不断的增加...

20860

扫码关注云+社区

领取腾讯云代金券