现场 | 英特尔中国研究院认知计算实验室主任陈玉荣博士:如何“享用”视觉识别技术的低廉化大潮

英特尔中国研究院认知计算实验室:

致力于视觉认知和机器学习前沿领域的科技创新,开发视觉内容理解和视觉内容创建的领先技术,从而在英特尔平台上实现视觉数据的智能处理并提供全新的用户体验。目前已经在CVPR, NIPS, IJCAI, ACM MM等国际顶级会议上发表多篇论文,并拥有数十项相关专利,并连续两年摘得英特尔研究院全球最高奖Gordy Award (以英特尔公司创始人之一戈登·摩尔命名)。

陈玉荣博士,现任英特尔首席工程师/高级研究总监、英特尔中国研究院认知计算实验室主任。目前,他主要负责领导面向英特尔智能计算的视觉认知(视觉分析和理解)和机器学习研究工作。同时他也是英特尔研究院“视觉理解与合成”全球研究规划的共同负责人,主导和推动基于英特尔平台的智能视觉数据处理的技术创新。

以下是陈玉荣博士的现场演讲,AI科技评论做了不改变原意的编辑

视觉理解在未来会有很大的市场需求

当今,视觉识别技术无处不在,且成本越来越低廉。这得益于视觉识别技术在深度学习方面的不断突破。其中一个主要的推动力是视频内容在互联网所占比例越来越高,大量的互联网数据都是视频内容。预计到2019年,互联网内容中的77%将由视频组成,视觉媒体公司的数量将会继续增加,视觉内容数量也会持续增加。面对这一现象,主要的挑战在于机器如何能够识别并学习数量如此庞大的视觉内容,而这一问题的答案就在于视觉分析技术。视觉分析就是处理并理解视频内容的过程,而这一技术发展的重点在于在识别过程中如何确定视频内容中的对像并进行分类。

视觉理解的应用范畴

举几个视觉理解方面的例子,比如说,物体识别与辨认,情感识别,行动识别,语义分割,场景识别、几何布局评估等等。其中,物体与动作的识别和检测是视觉理解技术中最基础的部分,视觉识别技术要求能够识别出物体的形状轮廓,而视觉检测技术同样要求能够辨认出物体在进行怎样的活动。视觉识别中要求能识别出物体以及物体数量,而进行视觉检测时则需要更多的要求。 举个例子,当人在移动时经过摄像机,识别技术可以知道有人正在经过摄像机,而通过视觉检测对它的动作进行分析,可以明白这个人是在拍照。以上的这些都是机器参与并进行识别的一部分。2012年实验室新研发出的算法使得识别准确率提高了40%,而另一项算法使得在识别方面的准确率每一年都能够提高30%-40%。在2015年,微软的研究让识别错误率降到了3.57%。这边研究人员也在努力推进相关的研究,而研究的一个主要目的就是发展视觉理解。但这其中也包含一些基础的内容,如CNN建构等。

英特尔中国研究院认知计算实验室的主要研究成果

人像分析与情感识别

这项技术有着广泛的应用前景,可以与任何智能设备配合使用,还可以与增强实现技术配合使用。在过去的几年内,实验室建立起了一套人脸识别系统,它利用了更加科学严谨的算法,这一技术的发展基于英特尔本身,能够完成人脸识别,表情识别,建立人像档案等,我们改进了它的应用,拓展了它的应用范畴,提供了问题的解决方案, 我们同样试图完善我们的系统,让它具备情感识别功能,因为在人像识别中,情感识别功能非常重要,它对于智能计算和智能系统的建立至关重要。实验室发明了世界领先的ILC互动式人脸分析技术,它能够捕捉面部的肌肉活动,基于这个识别方法,实验室研究团队获得了2015情感识别挑战大奖,这一奖项是主要是基于音频视频内容的情感识别。共有来自世界各地的74家队伍参加了这次比赛,在多个挑战项目中,基于音频视频内容的识别挑战最有难度,因为它需要非常复杂的技术。

基于视觉认知的机器学习

基于视觉识别的深度学习,实验室开发了高效的CNN算法模型。这一技术非常有效,设计中各个元素在识别情感中彼此互补,在识别7种表情的任务中,准确率达到了53.8%,这得益于实验室团队在过去的四年中的努力。有人可能会问,视觉理解在视觉认知中只是一个最基础的技术,那么还有哪些是更具有挑战性的任务呢?答案是机器学习、视觉分析和多模态情感识别。这是一个更为快速的功能,是一个基于目标检测的方案。该方案十分重要,融合了各种高效的方法,灵活地应用了低端的边角,中部的主体,和高端的芯片,在一个漂亮的二维空间里呈现出一个动态的图像。因此能够直接扫描和处理目标图像。这个高效的方案可用于生成阅读指南和目标检测。这个方案有两个优势。首先,它拥有最先进的阅读指南存储功能,从指南中无法发现机器检测正在运行的工作。其次,检测工作能够更有效利用空间,花费更短的检测时间。这个方案颠覆了原本的连接金字塔,这一框架将基于地区和不基于地区的方法统一起来,弥补它们各自的劣势,突破性地解决了两个根本性的问题。首先,它的多维度目标定位功能凭借倒转的连接金字塔能够检测出不同维度的目标。其次,它有着高效的实体空间挖掘功能,以目标为网络的核心,显著地减少了物体的第二空间。目标对象跨越的维度很大,该方案呈现出来的是对象的集合,呈现出倒置的图像,不管是在精确度还是运行速度上,性能都是十分突出的。这也被今年的城市计划报道了。

视觉分析和多模态情感识别

在分析视频内容时,会对视觉, 说话方式, 语言, 甚至国籍进行识别, 以便于机器对于内容更好分析,这一技术让自动为图片和视频内容添加说明成为可能,也让视觉问答技术的发展成为可能,这都得益于实验室的研究成果。而在视频字幕和多模型分析方面,实验室正在从事一个更为创新且富有挑战性的任务,即密集视频字幕的研发,这一任务旨在设计出一个具有多重视觉信息和多样字幕状态的视频片段。实验室研发出了一个人工智能的密集视频字幕方案,采用了国外视频水平等级,融合多种设计方法。举一些例子,在下面这个视频中,可以制造出不同部分的描述。比方说在第一部分中,一个带着墨镜的女人正在给小孩子们拍照,而在第二部分一群人正在给马拍照,然后在第三部分小孩子们正在接受采访。另一段视频,像观众们详细描绘了这个船长的形象。这还有一个例子,它表明实验室的方案可以制造出信息丰富场景多样的视频。实验室可以设计出能够采集每一秒钟信号的模型。比方说,在前一秒一个男人正在喝酒,下一秒另一个男人在喝水,而在再下一秒,两个男人就开始攀谈了起来。程序的最后一个功能所带来的甚至超越顶级的单个视频字幕创造方案。大家可以看到展示的这个样本短视频中的底部有字幕出现。实际上研究人员可以在每个视频中制作5个视频片段。在这个视频中,一个男人正在家里做一个主题发表。如演讲或非演讲的表演形式都可以被展现出来。实验室的这一努力缩短了人们了解图像信息未知部分的距离。

总结

认知计算实验室的研发结果推动了数据处理成果的发展,通过研发创新、在多个平台间处理数据,研究人员运行了最前沿的算法,进行了机器学习的研究,获得了多个范式的视频数据研发成果。这就是我今天的演讲,感谢大家的参与。

via AI科技评论整理

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-06-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能快报

利用图像数据,机器学习可重构城市3D模型

据数码趋势网站报道,研究人员通过数以百万计的图像和视频重建了瑞士苏黎世市的三维模型。瑞士苏黎世联邦理工学院(ETH)研究人员开发的Varcity平台,从大量的图...

3414
来自专栏企鹅号快讯

人工智能与设计的碰撞

现在说的最多的话题就是“人工智能”,但是每个人对于人工智能又有多少了解呢? 对于人工智能的出现,更多的人考虑到的是今后替代人的劳动的问题,有这份担忧是没有错的,...

3439
来自专栏AI科技评论

周志华CAIS大会现场演讲:人工智能时代什么最贵?人才!

9月12日上午,南京金秋洽谈会“2017中国人工智能峰会(CAIS 2017)”在南京国际博览会议中心盛大开幕。本次峰会以“创新、变革、突破”为主题,并设两大主...

3688
来自专栏新智元

未来AI并不Care人类,主要对其他AI感兴趣

1596
来自专栏AI科技大本营的专栏

Python超过R,成为数据科学和机器学习的首选语言!

| 全文1765共字,建议阅读时长3分钟 | 近期,数据挖掘资讯网站KDnuggets开展了一项调查,问题是“2016年和2017年,在数据分析、数...

2725
来自专栏新智元

自然语言处理全球市场报告:未来3年迎来爆发点,交互式应用是关键

【新智元导读】这份全球自然语言处理市场报告从类型、技术、终端用户、应用和地域五个方面全方位分析了NLP市场的机会,并对2020年之前NLP的应用发展进行了预测。...

2858
来自专栏新智元

【NSR】中国人工智能迎来黄金时代,跟风发展快但缺乏重大突破

【新智元导读】近日,中科院在其第一份英文科技类综述期刊 National Science Review(国家科学评论)上发布了一篇名《中国人工智能研究与发展》的...

3174
来自专栏人工智能头条

当机器学习遇见“众包”——访微软雷德蒙研究院首席研究员周登勇

903
来自专栏无原型不设计

优秀交互设计师成长指南

近几年来,随着互联网行业的兴起,设计师这一职业迅速成为热门。欣欣向荣的职业趋势吸引着更多的人加入到这一行业中来,优秀的设计师更是抢手。按岗位需求,设计师也分为...

2794
来自专栏CSDN技术头条

从工程师转变为工程经理过程中所学到的

导师很重要——尤其是在公司内部 当开始第一份工作时,我确信已经找到了软件工程相关的工作。这是由于在上半年就完成了硕士课程,并在这方面完成了一些比较成功的小型项目...

1816

扫描关注云+社区