人脸识别进入“超级独角兽时代”:旷视、商汤、依图等共论计算机视觉

【新智元导读】旷视科技最新宣布4.6亿美元C轮融资,创下AI融资记录。当下,人脸识别技术做到了什么程度?未来计算机视觉创业还有没有机会?在上周日第二届微软亚洲研究院院友会年度大会上,微软全球执行副总裁沈向洋主持,商汤、旷视、依图和中科视拓的创始人/CEO/首席科学家——5位微软亚洲研究院院友坐在一起,共论人脸识别的技术趋势与商业落地。商汤、旷视、依图这些人脸识别独角兽各自的定位和发力点在哪里?他们怎么看待彼此和整个行业?本文将告诉你答案。

旷视科技昨天夜间宣布了金额高达4.6亿美元的C轮融资,引起热议。

2017年,中国计算机视觉初创公司屡创纪录。前有商汤4.1亿,后有旷视4.6亿,下一个融资会突破5亿甚至10亿美元吗?

日期,在第二届微软亚洲研究院院友会年度大会上,计算机视觉的大佬们聚在一起,微软全球执行副总裁、微软人工智能及微软研究事业部负责人沈向洋主持,来自商汤、旷视、依图等各家5位微软亚洲研究院院友坐到了一起——

商汤科技联合创始人兼CEO徐立,旷视科技Face++首席科学家兼旷视研究院院长孙剑,中科院计算所教授、中科视拓董事长兼CTO山世光,依图科技业务技术副总裁吴岷,以及旷视科技Face++创始人兼CEO印奇。

他们怎么看人脸识别?他们怎么看当前中国计算机视觉这个产业?更为精彩的,他们怎么看待彼此?

以下是新智元对论坛讨论的摘录整理。

共论“看脸的时代”:(左起)印奇、徐立、沈向洋、吴岷、山世光、孙剑

人脸识别技术还远远没有超过人类:熟人识别还是难点

沈向洋:人脸识别现在是否已经全面超越人类识别?

徐立:现在的技术还差得很远。机器在陌生人的识别技术上可能在一定程度上超越人,但人类识别人的过程,尤其是熟人识别,是技术还远远没有达到,这当中还有很多应用可以探索。其实每一个阶段都讲“技术已经成熟了”,我们在跟罗湖深圳海关做项目的时候,他们说人脸识别很早就成熟了,十多年前就已经用上了——叫技术人员过来一问,窗口的人脸识别技术判别准确率是多少?53%。这是个什么概念呢?光靠猜的话判别准确率是50%,用了算法可以做到53%,而那个时候大家也觉得技术“已经成熟了”。在各个阶段有各个阶段不同的成熟的点,现在我们这个阶段,在一定程度上,在一些场景上技术已经可以应用了。所以我觉得现在才是大好的发展契机。

微软全球执行副总裁、微软人工智能及微软研究事业部负责人沈向洋主持论坛

印奇:无论是AI还是单纯人脸识别,商业化路径里跟场景结合非常紧密,要实现人眼的整套系统软件还有很长的路要走,但在局部问题上现在的技术已经可以跟人眼类比。

山世光:我们最近在做一个项目,身份证识别比对,左边是身份证照片,右边是现场照片,对比是不是同一个人,人与系统PK,目前来看系统是全面落败的。不过,陌生人识别,就像刚才徐立说的,尤其在被识别对象这个人相对比较配合的情况下,机器的能力可以说超越了人。但是,熟人识别,别说100万人——忘记是谁提到过——一个家庭里面机器识别5个人,要做到100%识别,现在的机器也是完全不可能的。

孙剑:机器人在家庭里识别人这一点是我之前提过。我也一直在思考,人脸识别有很多应用场景,比如支付、“刷脸”,往深层看,人脸识别最终还是要做“人识别”。而人类识别的人时候,使用的线索远远超过人脸这个范围。所以,今后的技术也要考虑到这一点。

旷视科技Face++首席科学家兼旷视研究院院长孙剑表示,做“人脸识别”最后还是要做“人识别”

商汤、旷视、依图这几家,可能都从“云+端”这个角度去看整个行业

沈向洋:从产品的角度看,现在你公司的专注点在哪里?

山世光:过去几年深度学习对人脸识别的冲击,远远超越了ImageNet对图像识别的影响。刚才提到的身份证照片和人现场照片的比对,4年以前我绝对不认为这件事情是可以做的。但现在,在本人相对比较配合的情况下,机器能够在1万个人里面成功识别出那1个人,在不同条件可以做到90%到99%,友商有时候能够做到99.999%(笑),这让人来做是不可能做到的。中国有大量实名认证的需求,我们希望从这一点切入,安防、单位考勤……希望未来用人脸识别全面替代指纹识别、虹膜识别。

依图科技业务技术副总裁吴岷

吴岷:依图在SaaS上接了200多家互联网金融远程核实业务,和友商竞争也是十分激烈。垂直行业,手机端ToC的App我们没有做,但有供民警使用进行身份核实的产品,在没有使用系统前,10万次只能查出3个人,现在识别率大幅提高,因此在智慧平安城市方面企业收益很大。

徐立:现在技术的进展确实超乎所有企业的想象,甚至超越研究员自己的想象。现在仍然有可能通过技术的壁垒去抢占市场前期资源。未来“云加端”是一个必然的走势,看终端设备,手机大概有37亿台联网设备,安防摄像头全世界每天有2.5亿只在运行,中国在2020年所有的智能摄像头加上联网设备将达到10亿只,完全集中化可能不行,因此需要在端前置化布局,而这么多东西背后也需要整体调控,所以云和端的结合是必然。从某种意义上说,我们这几家都是从这个角度来去看行业整体情况的。

基于垂直服务,AI一定要和行业结合。目前商汤拿到的项目,尤其的大项目,营收很大,但定制化的项目其实没有赚钱。科技企业要发展一定走产品化过程,有标准化的产品,有量,云和端都是一个好的模式,端上规模大,云上集中化,所以云加端的模式是未来AI技术行业发展的方向。

商汤科技联合创始人兼CEO徐立认为,从某种意义上说,商汤、旷视、依图等公司都是从“云+端”这个角度去看待整个行业

印奇:我们6年AI创业,探索了很多行业,发现作为AI创业公司,能选择的行业大致有几大特点,第一可能被互联网完全改造,行业里数据流通非常快,同时这也是一个特别重要的行业,信息化和联网化完成,不然数据化和智能化根本无从谈起。我认为可行有效的行业有“2.5”个,一是网络金融,涉及安全风控能力,这条路要以云为主,这里的云不是简单的API对外设备,而一定是SaaS,是一套完整的数据化服务。第二个是安防,基本是以线下摄像头作为连接智能化的核心,包括政府、平安城市、智能楼宇。这两个行业是有机会在未来两三年有非常大业务闭环的可能性。

还有0.5个行业,比较热闹,我们友商也在一起参与,跟手机、APP以及一些AR的应用有关,这个行业我自己觉得可能是叫好不叫座的,因为它本质的商业模式是IP授权,我们跟友商长时间的良性加恶性竞争,大家打着打着就都不怎么赚钱了。但这个行业,iPhone X出来后起到了很好的用户教育作用,当大家觉得人脸识别是每天都用的东西,就有机会带动更垂直的应用。就人脸识别来说,这2.5个行业是我们比较专注的点。

在学术上很难的问题,在工业上或许有更smart的解决方案

沈向洋:人脸识别情绪,这是感知问题还是认知问题?

山世光:我觉得这是一个前端感知,后端认知的问题。目前我们还完全没有做认知,但在感知方面有很多蛮有意思的进展,但是,短期内大家不要想比人做得更好——不过主要原因是我们标注人员不太够,没有专家。但在某些单点上,通过计算的方法,机器可以对人一些内心情绪的指标进行感知,而且做得比人好,比如通过高速摄像机捕捉到人的肉眼可能感觉不到的东西。但是,解读微表情,现在机器还是不行的。

中科院计算所教授、中科视拓董事长兼CTO山世光

孙剑:这个问题其实我也纠结了很久。怎么去定义情绪,比如不同的文化有不同的面部表达,没有一个标准,因此挺难的。但反过来想,像猴子这些更低等动物也可能有情绪,它们相互之间交互也会感受这些东西,似乎认知也没有在里面发挥很大的作用。所以,是不是缺乏数据造成的,这个问题我真的没有想清楚。但这是非常重要的问题,人脸识别以后,下一步机器人要和人交互,一定要把这个问题弄清楚

印奇:在学术界非常难的问题,放在工业界或许有更smart的方式绕过来解决。在企业做研究的核心是问题追问,在学术上非常难的问题,可以有非常工程或产品的解决方法。在工业界解决问题强调多传感器,比如通过面部识别来判断心跳的工作,这时候添加一个传感器,也许换一种方法,就能找到性价比更高的方案。

徐立:现在科技企业主要在做两件事情,第一是根据实际需求定义问题,这一点其实各家都做得很不好,很多情况下问题稍微一转化,问题的定义就发生了很大的变化,这之后第二步才是过工业的红线。如果不过红线,那么也就是hype了。我们有一个真实的案例,销售跟监狱长聊,说我们有人脸识别抓逃犯的系统,很强,但监狱长说我们不需要,因为人已经被抓起来了;他们需要的是别的东西,比如判断监狱里的人有没有再犯罪倾向或者暴力的想法。因此,需要的是对问题的很好的定义。

iPhone X推动人脸识别公众认知,计算机视觉创业会更有前途

沈向洋:iPhone X发布让公众都知道了人脸识别,这给各位的公司带来了怎样的机会?

徐立:我们正好和iPhone团队有比较好的交流,他们做完人脸识别之后得出的结论是,特别艰苦,艰苦在哪里呢?一是数据,二是各种Corner case,这就是研究与工业最大的不同,研究做到90分就已经很好了,每件事做到90分,然后找方法创新,这篇文章就能够发表,也觉得自己做够了;但在工程里面,每样东西都要做到99分甚至100分。所以,我想强调,真正做产品研究非常非常不容易。

再来讲人脸识别应用场景,我觉得我们这几家,有义务去把人脸识别的整体应用标准定下来。如果手机能够在现阶段“刷脸”,那手机上就有一个“Face print”(脸纹),我去商场购物,进入小区,是不是能像刷二维码一样刷这个face print?但目前来说,我们这几家的标准应该是不兼容的,所以,随着市场的推广,就会遇到一个问题,没有办法进行数据流通。我觉得应该站出来说,未来有非常多的线上线下场景,前期如果能够形成一个联盟,尽早的把标准和流通性制定出来,之后应用场景会更好。

旷视科技Face++创始人兼CEO印奇:iPhone X让人脸识别成为短期关注热点,但这可能只是一个开始,并非苹果核心商业动机

印奇:我2011年就在微软做人脸识别,一些技术还用到了Windows上,为什么这一代iPhone能够用上人脸识别?我认为背后有两大驱动力,一是全面屏,另一个是手机厂商对摄像头的投资。在这两大因素的驱动下,人脸识别成为大家短期关注的点,但它很可能只是一个开始,并非苹果核心商业动机,这是第一。第二点,我们现在与华为、小米和VIVO合作,感觉很强的一点就是,技术厂商真的非常需要软硬一体化的能力,这些手机厂商有非常强大的供应链,现在他们遇到这样一个新的问题,怎么把硬件和软件放在一块,其实非常难。第三点很有意思,iPhone X产量不行,我们最近接到富士康的一个需求,如何通过视觉手段在生产过程中查看良率。所以,光是一个iPhone X,里面就有这么多视觉有关的故事。

孙剑:我记得原来在微软的时候,在Harry(沈向洋)办公室,讨论计算机视觉到底能在微软做什么。Harry说做到Windows里面,做了几年终于把Windows Hello做进去了。到了今天又这样新的机会,把人脸识别做到几乎所有手机厂商里。感觉十几年前想到的一些事情,今天真的可以真正动手去做了。苹果iPhone X会推动产业的发展,把价钱降下来,计算机视觉创业会更有前途。

11月8日,在新智元 AI World 2017 世界人工智能大会上,旷视科技首席科学家、旷视研究院院长孙剑博士将发表演讲,解读AlphaGo Zero核心技术之一的ResNet,聚焦人脸识别等视觉前沿技术和应用,分享他在旷视的最新研究。

孙剑博士介绍说:“如果回顾这几年视觉计算的方法,我们会发现我们已经从人工设计特征,变成了人工设计神经网络结构。从 2012 年的 AlexNet 开始,到 2014 年的 GoogleNet & VGG,到 2015 年的 ResNet,再到今天的各种 Nets。如果我们从计算的角度上看,我们会发现在这个 Spectrum,主流方向是计算量愈来愈大。

“但是,相反的方向研究缺比较少。我们知道今天智能计算不仅要运行在云上,也要运行在端上。对于手机或嵌入式设备,计算量可能只有5-10M FLOPS,我们如何设计在端计算上最好的神经网络呢?如何填补这个空白?

“在这个演讲中,我将分享 Face++ 旷视研究院最近研究成果 ShuffleNet。ShuffleNet 的计算设计目标是 10-50M FLOPS,它的核心思想是进一步把滤波器分组的思想应用的 1x1 卷积上,使用一个通道间的 shuffling 操作,有效增强了分组 channel 间的信息交换。这个网络在 10-100M FLOPS 上的性能现在是最好的。我也会展示如何将 ShuffleNet 应用于 Face++ 的产品中,例如我们最近推出的基于 FPGA 的全帧率、全画幅智能人像抓拍机,以及手机端应用于 vivo、小米等的人脸解锁技术。”

本文分享自微信公众号 - 新智元(AI_era)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-11-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能快报

英国开通移动VISA申请服务

2016年4月,英国政府开通了一项被称为“按需移动签证”的新服务,个人可在家里接受签证申请服务,由签证办理公司VFSGlobal提供。 只需花费750英镑,“按...

29030
来自专栏人工智能快报

加拿大入境安检将采用面部识别技术

据加拿大国际广播公司网站2016年1月8日报道,加拿大政府正在边境安全检查中测试面部识别技术。 这一工作由加拿大边境服务局牵头,魁北克大学参与。系统会扫描摄像机...

32250
来自专栏人工智能快报

新软件可编辑演员表情

据2016年2月8日美国媒体消息称,已经出现了可编辑演员表情的新软件。美国迪士尼研究院和塞瑞大学开发的Facedirector软件可以减少电影拍摄的任务量,因为...

31650
来自专栏人工智能快报

中国大学研制具有面部识别功能的警车

据《华尔街日报》2016年3月30日报道,中国的研究人员开发出了一款可以自动扫描行人面部并在犯罪数据库中进行匹配的警车。这款警车由电子科技大学的研究团队开发,现...

33790
来自专栏人工智能快报

微软发布情绪识别API

2015年11月11日,微软宣布其Oxford项目将开放一个可用于情绪识别的API。微软一位负责技术与研究的人员表示该API可帮助市场营销人员评估顾客对商店展示...

66540
来自专栏人工智能快报

可穿戴设备在工作场合的风险正在增加

Centrify公司在2016年的RSA大会上提出了对“非托管可穿戴设备渗透到工作场所”的警告。 该公司经调查发现,69%的受访者不使用登录凭据,因为他们使用了...

33350
来自专栏AI科技评论

动态 | 最权威的比赛,看全球人脸识别技术发展格局

AI 科技评论按:在最近公布的国际权威人脸识别供应商测试 FRVT(Face Recognition Vendor Test)结果中,中国公司依图科技获得了四项...

45570
来自专栏人工智能快报

【生物识别】2020年银行领域的生物识别市场将达110亿美元

市场研究公司Goode Intelligence总结了生物识别技术在金融服务领域的五大应用趋势。该公司预测,到2020年该领域的市场规模将达110亿美元。 该公...

27430
来自专栏人工智能快报

调查显示美国人较能接受工作场合的生物识别应用

生物识别资讯网站findbiometrics于2016年1月14日报道,美国民间独立调查机构皮尤研究中心最新的一项研究结果显示,美国人对面部识别技术可能并没有部...

36380
来自专栏人工智能快报

瑞士企业发布支持Windows 10脸部识别功能的眼部追踪平台

瑞士公司Tobii宣布,其开发的眼部追踪平台支持Windows Hello的脸部识别功能,为计算机和外围设备提供了Windows 10生物特征身份验证与眼部追踪...

46390

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励