现场 | 英特尔中国研究院认知计算实验室主任陈玉荣博士:如何“享用”视觉识别技术的低廉化大潮

英特尔中国研究院认知计算实验室:

致力于视觉认知和机器学习前沿领域的科技创新,开发视觉内容理解和视觉内容创建的领先技术,从而在英特尔平台上实现视觉数据的智能处理并提供全新的用户体验。目前已经在CVPR, NIPS, IJCAI, ACM MM等国际顶级会议上发表多篇论文,并拥有数十项相关专利,并连续两年摘得英特尔研究院全球最高奖Gordy Award (以英特尔公司创始人之一戈登·摩尔命名)。

陈玉荣博士,现任英特尔首席工程师/高级研究总监、英特尔中国研究院认知计算实验室主任。目前,他主要负责领导面向英特尔智能计算的视觉认知(视觉分析和理解)和机器学习研究工作。同时他也是英特尔研究院“视觉理解与合成”全球研究规划的共同负责人,主导和推动基于英特尔平台的智能视觉数据处理的技术创新。

以下是陈玉荣博士的现场演讲,AI科技评论做了不改变原意的编辑

视觉理解在未来会有很大的市场需求

当今,视觉识别技术无处不在,且成本越来越低廉。这得益于视觉识别技术在深度学习方面的不断突破。其中一个主要的推动力是视频内容在互联网所占比例越来越高,大量的互联网数据都是视频内容。预计到2019年,互联网内容中的77%将由视频组成,视觉媒体公司的数量将会继续增加,视觉内容数量也会持续增加。面对这一现象,主要的挑战在于机器如何能够识别并学习数量如此庞大的视觉内容,而这一问题的答案就在于视觉分析技术。视觉分析就是处理并理解视频内容的过程,而这一技术发展的重点在于在识别过程中如何确定视频内容中的对像并进行分类。

视觉理解的应用范畴

举几个视觉理解方面的例子,比如说,物体识别与辨认,情感识别,行动识别,语义分割,场景识别、几何布局评估等等。其中,物体与动作的识别和检测是视觉理解技术中最基础的部分,视觉识别技术要求能够识别出物体的形状轮廓,而视觉检测技术同样要求能够辨认出物体在进行怎样的活动。视觉识别中要求能识别出物体以及物体数量,而进行视觉检测时则需要更多的要求。 举个例子,当人在移动时经过摄像机,识别技术可以知道有人正在经过摄像机,而通过视觉检测对它的动作进行分析,可以明白这个人是在拍照。以上的这些都是机器参与并进行识别的一部分。2012年实验室新研发出的算法使得识别准确率提高了40%,而另一项算法使得在识别方面的准确率每一年都能够提高30%-40%。在2015年,微软的研究让识别错误率降到了3.57%。这边研究人员也在努力推进相关的研究,而研究的一个主要目的就是发展视觉理解。但这其中也包含一些基础的内容,如CNN建构等。

英特尔中国研究院认知计算实验室的主要研究成果

人像分析与情感识别

这项技术有着广泛的应用前景,可以与任何智能设备配合使用,还可以与增强实现技术配合使用。在过去的几年内,实验室建立起了一套人脸识别系统,它利用了更加科学严谨的算法,这一技术的发展基于英特尔本身,能够完成人脸识别,表情识别,建立人像档案等,我们改进了它的应用,拓展了它的应用范畴,提供了问题的解决方案, 我们同样试图完善我们的系统,让它具备情感识别功能,因为在人像识别中,情感识别功能非常重要,它对于智能计算和智能系统的建立至关重要。实验室发明了世界领先的ILC互动式人脸分析技术,它能够捕捉面部的肌肉活动,基于这个识别方法,实验室研究团队获得了2015情感识别挑战大奖,这一奖项是主要是基于音频视频内容的情感识别。共有来自世界各地的74家队伍参加了这次比赛,在多个挑战项目中,基于音频视频内容的识别挑战最有难度,因为它需要非常复杂的技术。

基于视觉认知的机器学习

基于视觉识别的深度学习,实验室开发了高效的CNN算法模型。这一技术非常有效,设计中各个元素在识别情感中彼此互补,在识别7种表情的任务中,准确率达到了53.8%,这得益于实验室团队在过去的四年中的努力。有人可能会问,视觉理解在视觉认知中只是一个最基础的技术,那么还有哪些是更具有挑战性的任务呢?答案是机器学习、视觉分析和多模态情感识别。这是一个更为快速的功能,是一个基于目标检测的方案。该方案十分重要,融合了各种高效的方法,灵活地应用了低端的边角,中部的主体,和高端的芯片,在一个漂亮的二维空间里呈现出一个动态的图像。因此能够直接扫描和处理目标图像。这个高效的方案可用于生成阅读指南和目标检测。这个方案有两个优势。首先,它拥有最先进的阅读指南存储功能,从指南中无法发现机器检测正在运行的工作。其次,检测工作能够更有效利用空间,花费更短的检测时间。这个方案颠覆了原本的连接金字塔,这一框架将基于地区和不基于地区的方法统一起来,弥补它们各自的劣势,突破性地解决了两个根本性的问题。首先,它的多维度目标定位功能凭借倒转的连接金字塔能够检测出不同维度的目标。其次,它有着高效的实体空间挖掘功能,以目标为网络的核心,显著地减少了物体的第二空间。目标对象跨越的维度很大,该方案呈现出来的是对象的集合,呈现出倒置的图像,不管是在精确度还是运行速度上,性能都是十分突出的。这也被今年的城市计划报道了。

视觉分析和多模态情感识别

在分析视频内容时,会对视觉, 说话方式, 语言, 甚至国籍进行识别, 以便于机器对于内容更好分析,这一技术让自动为图片和视频内容添加说明成为可能,也让视觉问答技术的发展成为可能,这都得益于实验室的研究成果。而在视频字幕和多模型分析方面,实验室正在从事一个更为创新且富有挑战性的任务,即密集视频字幕的研发,这一任务旨在设计出一个具有多重视觉信息和多样字幕状态的视频片段。实验室研发出了一个人工智能的密集视频字幕方案,采用了国外视频水平等级,融合多种设计方法。举一些例子,在下面这个视频中,可以制造出不同部分的描述。比方说在第一部分中,一个带着墨镜的女人正在给小孩子们拍照,而在第二部分一群人正在给马拍照,然后在第三部分小孩子们正在接受采访。另一段视频,像观众们详细描绘了这个船长的形象。这还有一个例子,它表明实验室的方案可以制造出信息丰富场景多样的视频。实验室可以设计出能够采集每一秒钟信号的模型。比方说,在前一秒一个男人正在喝酒,下一秒另一个男人在喝水,而在再下一秒,两个男人就开始攀谈了起来。程序的最后一个功能所带来的甚至超越顶级的单个视频字幕创造方案。大家可以看到展示的这个样本短视频中的底部有字幕出现。实际上研究人员可以在每个视频中制作5个视频片段。在这个视频中,一个男人正在家里做一个主题发表。如演讲或非演讲的表演形式都可以被展现出来。实验室的这一努力缩短了人们了解图像信息未知部分的距离。

总结

认知计算实验室的研发结果推动了数据处理成果的发展,通过研发创新、在多个平台间处理数据,研究人员运行了最前沿的算法,进行了机器学习的研究,获得了多个范式的视频数据研发成果。这就是我今天的演讲,感谢大家的参与。

via AI科技评论整理

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-06-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

吴恩达错了!实践者说,企业千万别设“首席 AI 官”

【新智元导读】吴恩达曾在《如何物色人工智能总监?》中将 AI 革命与100年前的店里革命相比,认为正如100年前需要电力总监一样,企业应该聘用一名“首席AI官”...

3476
来自专栏灯塔大数据

用好大数据须有大智慧 ——准确把握、科学应对大数据带来的机遇和挑战 徐宗本

? 拥有大数据是时代特征,解读大数据是时代任务,应用大数据是时代机遇。大数据作为一个时代、一项技术、一个挑战、一种文化,正在走进并深刻影响我们的生活。党的十八...

25011
来自专栏钱塘大数据

【钱塘号专栏】中国工程院院刊:人工智能2.0时代序幕开启

【导读】中国科学技术部 “科技创新2030—重大项目”近期或将新增“人工智能2.0”,人工智能将进一步上升为国家战略。近日,中国工程院院刊信息与电子工程学部分刊...

34410
来自专栏华章科技

做数据挖掘工作需要具备哪些思维原理?

大数据时代,计算模式也发生了转变,从“流程”核心转变为“数据”核心。Hadoop体系的分布式计算框架已经是“数据”为核心的范式。非结构化数据及分析需求,将改变I...

371
来自专栏直播系统

仿抖音短视频系统源码—短视频+新模式发展

抖音、快手等短视频在功能上趋近相似,新的企业再加入短视频行业,一味的模仿已经不能抢占市场。那怎么才能以另外一种形式加入短视频行业来占领市场呢?

1174
来自专栏Java学习网

开发者,别让任何人绑架你的工作节奏

作为一个软件开发者,你的工作内容远远不止写代码。还有一些是你职责范围内的事: 预估工作周期 理解你没写过的软件的功能 把复杂的问题简单化 把复杂的问题分解成若干...

2655
来自专栏PPV课数据科学社区

Kaggle 2017数据科学报告:最受欢迎的工具竟然是......

摘要:数据平台 Kaggle 近日发布了2017 机器学习及数据科学调查报告,针对最受欢迎的编程语言、不同国家数据科学家的平均年龄、不同国家的平均年薪等进行深...

2714
来自专栏新智元

【未来驾驶新思路】王飞跃平行智能理论启发ACP自动驾驶,技术全解析

编辑:张乾 【新智元导读】2月2日,在青岛2018国家智能产业峰会上,中国自动化学会副理事长兼秘书长王飞跃教授介绍了《第三轴心时代的智能产业》报告。王教授的平行...

3567
来自专栏新智元

【V直播】网易有道周枫:神经翻译更懂人话,谷歌入华影响不大

嘉宾:网易高级副总裁、网易有道CEO 周枫 【新智元导读】本周,新智元V享圈请来网易高级副总裁、网易有道CEO周枫一起畅聊机器翻译。周枫分享了有道在自然语言处理...

32312
来自专栏智能相对论

智能机器人客服 让对话“恰到好处”

电影《Her》讲述了一个宅男爱上客服机器人的故事。男主想要与客服机器人产生更多互动,就试着教它学习复杂的人类情感,希望客服机器人能爱上自己,实现真正有质量的沟通...

773

扫码关注云+社区