智能识别技术 让计算机看懂世界

互联网发展之初受到网络带宽、数据存储等相关技术的限制,信息传播以单模态形式为主,如文字报道、图像相册等。进入大数据时代,信息传播变得丰富多彩,人们从互联网中同时接受图像、视频、文本等不同模态的信息。例如,当我们在互联网上浏览一篇精彩的新闻报道时,不仅可以看到详细的文字描述,还能看到现场拍摄的照片,甚至还有相关的视频报道。这体现了互联网数据从单模态到多模态的转变。

随着互联网多模态数据的出现和传播,“管不住”和“用不好”两大问题也日益突出。“管不住”是指多模态大数据中隐藏着大量涉恐、涉暴等有害信息,极大地危害着国家安全和社会稳定,目前还缺乏自动的分析与识别技术。“用不好”是指现有技术一般是单模态分析与识别,仅针对信息有限的单模态数据,难以对多模态数据进行有效利用。如何让计算机看懂世界,实现对互联网多模态大数据的有效监管与利用,是目前急需解决的重大问题。

针对上述问题,北京大学彭宇新教授团队在国家自然科学基金、国家863计划、国家科技支撑计划等支持下,历经10余年技术攻关,在图像视频概念检测、视觉目标检测、多模态数据分析与识别、互联网舆情监测四个方面取得了多项重大技术突破和发明创新。在2016年北京市科学技术奖评选中,“互联网多模态内容分析与识别关键技术及应用”项目荣获一等奖。

突破单模态分析与识别技术

单模态分析与识别是突破互联网多模态内容识别的基础和关键技术。图像、视频和文本是单模态信息的重要形式,如何使计算机能够自动分析与识别图像、视频和文本的内容便成为了研究与应用的难点问题。

图像、视频中一般包含某种语义概念,如篮球比赛、奥运会等;同时也包含视觉目标,如行人、汽车、旗帜等。

虽然人类能够很容易地识别与理解这些概念与目标,但在计算机看来,数字图像就是由一个个像素点构成,这样人类的语义概念及视觉目标与计算机看到的二进制数值之间就存在难以逾越的“语义鸿沟”。

由于图像、视频的语义概念比较抽象、视觉目标复杂多变,如“奥运会”这一概念很难从视觉上准确定义,而“旗帜”等目标不具有固定形态,导致计算机自动分析与识别的难度很大。

彭宇新团队针对图像视频概念检测难题,发明了基于注意力模型和增量深度学习的分类方法,一方面注意力模型能够定位图像的显著性区域以提高检测精度;另一方面增量学习在新概念增加过程中,能够利用已经学习到的知识加速新知识学习,同时通过动态扩容以支持新概念的检测。该方法使得特定概念的检测精度突破90%。针对复杂场景下视觉目标检测问题,发明了级联分类器与极角拓扑约束相结合的判别方法,一方面通过级联分类器从海量数据中快速筛选出可能包含特定目标的候选区域,加快检测速度;另一方面通过极角拓扑约束对候选区域进行二次判别,提高检测精度。该方法提高了低分辨率、形变、仿射变换等复杂情况下的检测效果,使特定视觉目标检测精度突破90%。基于上述,彭宇新教授团队参加了国际权威评测TRECVID的视频高层概念检测比赛,获得第一名,参赛队伍包括卡内基梅隆大学、牛津大学、IBM Watson研究中心等国际著名大学和研究机构。

在文本内容分析上,热点话题检测与敏感信息发现是互联网舆情监测的两个主要应用需求。热点话题与敏感信息通常包含特定人名、地名、机构名等实体信息,有效识别实体信息是文本内容分析的关键。针对上述问题,项目团队发明了基于知识元的多模态语义分析方法和基于情感观点的话题追踪方法,有效解决了互联网内容的语言规范性差、噪音大、时效性高导致实体难以识别和利用的问题。在国际权威评测TREC 2014年和2015年的微博信息检索比赛中获第一名。

多模态内容的语义协同

以单模态内容的分析与识别技术为基础,重点研究多模态内容的分析与识别技术。多模态数据在语义表达上具有“共通性”,在内容上也是互相关联的。据此,项目团队提出了基于多模态分解与融合的语义协同方法,综合分析图像、视频、文本等多模态内容以获得更加全面准确的识别结果,并通过跨模态语义互补性实现多模态数据的综合分析与有效利用。

首先提出多模态分解方法,能够对包含一种或多种模态的输入数据,按照模态的不同自动分发到对应的分析与识别模块。例如,对于视频,首先进行镜头分割和关键帧提取,然后分发到镜头检索、片断检索、概念检测、视觉目标检测、人脸识别和视频字幕识别等模块。基于多模态信息的分发结果,对各模态内容分别进行分析与识别,提取文本、图像、视频镜头、视频片断、视觉对象(如视觉目标、人脸)等语义描述信息。进一步对多模态数据进行关联分析,构建多模态关联图来融合不同模态的分析结果,从跨模态关联层面纠正单模态语义描述中的错误结果,以实现多模态信息的语义协同优化。

基于上述成果,项目团队于2009年—2016年多次参加国际权威评测TRECVID的视频语义搜索比赛,均获得第一名。

管住与用好互联网大数据

瞄准互联网大数据 “管不住”和“用不好”这两大难题,项目团队以上述技术为核心,形成了互联网多模态内容分析与识别系统、方正智思互联网舆情监测分析系统、方正智思智能分析系统等系列产品,实现了对互联网文本、图像、视频等多模态内容的全面监测与数据利用。

项目团队的系统和产品已成功应用于国家相关部门等上百家重要单位,涵盖多个行业领域,在维护我国互联网内容安全、促进网络文化健康发展等方面发挥巨大作用。(来源:科技日报)

本文来自企鹅号 - 中国国际技术转移中心媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

【学习】从回归分析到数据挖掘

回归分析是研究两种或两种以上变量之间相互依赖的定量关系的统计分析方法,在很多行业都有广泛的应用。无论是银行、保险、电信等服务行业的业务分析人员在进行数据库营销、...

32150
来自专栏AI科技大本营的专栏

深度学习到底有没有缺陷?这里列满了它做不到的事情

本文源自一次讨论深度学习缺陷的推文风暴,斯坦福大学的Bharath Ramsundar,在用深度学习进行药物研究的过程中发现,深度学习做不到事情其实有很多,比如...

78470
来自专栏机器学习算法与Python学习

一篇文章讲清楚人工智能、机器学习和深度学习的区别与联系

关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第一 【Python】:排名第三 【算法】:排名第四 人工智能的浪潮正在席卷全球,诸多词汇...

46770
来自专栏ATYUN订阅号

IBM的新系统可以自动选择最佳的AI算法

深度学习系统可以摄取数据,转换数据,输出数据并传递数据,但并非所有的都能等同。没有算法适用于每个任务,找到最佳的算法可能是一个漫长而令人沮丧的过程。幸运的是,I...

8120
来自专栏新智元

【Yoshua Bengio 亲自解答】机器学习 81 个问题及答案(最全收录)

这是 Quora 的最新节目,针对特定话题进行系列的问答。如果你不了解 Quora,可以把它看作美国版的知乎,不过里面大咖云集,奥巴马、Elon Musk、Bi...

30450
来自专栏量子位

问答Goodfellow:没有样例能不能训练机器学习算法?

李杉 编译整理 量子位 出品 | 公众号 QbitAI ? 从图像和语音识别到自然语言分析,神经网络已经在很多领域大展身手。过去几年,它们的精确度已经几乎可以与...

27930
来自专栏机器之心

人物 | Ian Goodfellow亲述GAN简史:人工智能不能理解它无法创造的东西

选自Wired 作者:Cade Metz 机器之心编译 参与:黄小天、蒋思源 著名物理学家、加州理工学院教授以及畅销书作者理查德·费曼( Richard Fey...

388110
来自专栏ATYUN订阅号

OpenAI:通过人工智能之间的辩论实现安全的人工智能系统

这种辩论方法可视化为一个游戏树,类似于围棋这样的游戏,只是针对的对象变成了在叶节点上辩手举措和人类判断之间的句子。在辩论和围棋中,真解取决于整个树,但是强大的智...

9320
来自专栏PPV课数据科学社区

作为数据人,你知道人工智能、机器学习、深度学习,三者之间的同心圆关系吗?

本方转自机器之心 作者Micheal Copeland 今年早些时候,当谷歌 DeepMind 团队的 AlphaGo 打败了李世石时,媒体就用人工智能、...

28660
来自专栏企鹅号快讯

深度学习笔记:深度学习在计算机视觉的应用

深度学习最早兴起于图像识别,但在短短几年时间内,深度学习推广到了机器学习的各个领域,如:图像识别、语音识别、自然语言处理、机器人等等。 ? 计算机视觉是深度学习...

29950

扫码关注云+社区

领取腾讯云代金券