专栏首页人工智能前沿讲习【AIDL专栏】梅涛:深度视觉理解(附PPT)

【AIDL专栏】梅涛:深度视觉理解(附PPT)

AIDL简介

“人工智能前沿讲习班”(AIDL)由中国人工智能学会主办,旨在短时间内集中学习某一领域的基础理论、最新进展和落地方向,并促进产、学、研相关从业人员的相互交流。对于硕士、博士、青年教师、企事业单位相关从业者,预期转行AI领域的爱好者均具有重要的意义。

2018年AIDL活动正在筹备,敬请关注获取最新消息。

导读

中国人工智能学会举办的第四期《人工智能前沿讲习班》专题为“智能感知与交互”。微软亚洲研究院主管研究员梅涛博士作了题为《深度视觉理解》的报告。本文根据梅涛博士的报告内容整理发布,对相关领域研究工作具有长期价值。

讲者简介

梅涛,国际模式识别学会会士,美国计算机协会杰出科学家,中国科技大学和中山大学兼职教授博导,现任京东AI研究院副院长。主要研究兴趣为多媒体分析、计算机视觉和机器学习,发表论文 100余篇(h-index 43),先后10余次荣获最佳论文奖,拥有40余项美国和国际专利(18项授权),其研究成果10余次被成功转化到微软的产品和服务中。他的研究团队目前致力于视频和图像的深度理解、分析和应用。他同时担任 IEEE 和 ACM 多媒体汇刊(IEEE TMM 和 ACM TOMM)以及模式识别(Pattern Recognition)等学术期刊的编委,并且是多个国际多媒体会议(如 ACM Multimedia, IEEEICME, IEEE MMSP 等)的大会主席和程序委员会主席。

一、人工智能和计算机视觉

人工智能是当下很火的概念,很多人都在学习人工智能,很多学校也开设了人工智能学院。学术界一直在讨论人工智能能做什么,不能做什么。对于来自于学术界或者企业界的技术人员来说,所研究的问题十几年前就已经存在,到现在为止还没有得到完整的解决。举个例子,最初我们敲钉子是用锤子,现在人工智能、深度学习兴起之后,我们换了一把好点的锤子,把钉子往里敲了一点,但是仍未完全敲进去。很多人都希望人工智能能找到能把钉子完全敲进去的好锤子,找不找得到还不好说。

深度视觉理解中的深度有两层含义。首先,深度视觉理解可以借助深度学习这个工具。要注意人工智能与深度学习并不是一个概念,深度学习只是人工智能中一个非常小的部分。另外,深度是指对视频或者图像内容的理解可以达到很深的地步。

对于计算机视觉,我们希望计算机并不只是理解,还要会描述,这是一个蛮难的事情。计算机视觉相当于给人工智能镶上一个眼睛,希望它能听,能看,能写,能说。计算机视觉有很多研究主题,我们今天主要讲计算机视觉涉及的几点问题。

计算机视觉里面一些经典的方法,在最早的时候,如果要做视觉理解,先检测图片的关键点,然后提取特征,使得边缘的线能够组成一个特征向量,最后把特征向量放在模型里面去学习。SIFT是一个成功的例子,这篇论文引用已经超过了五万次,还是很惊人的。到了2010年以后,随着Image net的出现,深度学习变成了主流。深度学习需要一些条件,第一个条件是大量人工标注好的数据,另外需要很强的算法,最后还需要一个大规模的能够并行计算的GPU。

如果把问题按照粒度从小到大排列,可以分为语义分割,目标检测,图片分类,图像标注和storytelling几个层级。语义分割需要理解到确定每个像素属于哪一类,要解决如此难度的问题,需要大量标注,每个像素都要确定其类别,其工作量非常大。目前学术界里面最大的数据集也就20个类目。高一级是目标检测,目标检测不关心每个像素的类别,只关心能不能把目标检测出来。如果不关心目标的位置,只关心图片中具体有哪些目标,就是图片分类。粒度再粗一些,将图片对应标签连成一句话,就是所谓的图像标注。最后一级叫storytelling,能够自动基于图片序列生成一个故事。

就目前技术所达到的水平来说,深度学习可以接近三岁小孩的水平。三岁小孩还非常不懂事,让他做图像分割,不一定做的比机器好。我们希望机器人视觉能力可以达到五岁小孩的水平,比如可以看图说话,可以看图回答一些简单的问题。今天这个问题不正在解决。

二、细粒度图像与视频理解

传统分类的目标类别有很多,比如可能有二十种花,三十种鸟。但是在真实场景中,花的种类至少有250K,鸟的种类至少有50K。在如此巨大的差距下要求机器理解真实的世界,就需要它拥有更多的智能,能识别出更精细的物体类别。

传统的图像分类网络并不能实现细粒度的图像分类,这里面有两个关键点:在大类中识别小类时,需要知道这个小类和其他小类的区别,主要是一些局部特征;当有了类别之后,需要学习到最好的特征。

2010年Imagenet已经火起来了,但是把CNN用到视频上始于2014年。当时的想法很直接,就是将视频进行截帧,按照图像的处理方法进行处理。这种做法丢失了时间信息,效果当然不理想,于是怎样将时间信息整合进网络成为后来的研究重点。2014年主要有两个工作,第一个工作的亮点在于将视频视为连续帧的集合进行分类,第二个工作对视频序列中每两帧的密集光流予以特别关注,这两个工作都取得了不错的结果。2015年出现了2DCNN+LSTM,它的亮点在于用LSTM对CNN最后一层的激活在时间轴上进行整合。但是以上工作的准确率提高都不多,于是有人想到在做卷积的时候将卷积核扩展到时域,这就是3D CNN。此后的Temporal Segment Networks则不再从相邻帧中采样,而是从整个视频中稀疏取帧,其效果也有提高。尽管3D CNN的效果很好,但是他有一个缺点就是模型太大,为了解决这个问题,就提出了Pseudo 3D ResNet,基本思想是利用一个1*3*3的二维空间卷积和3*1*1的一维时域卷积来模拟常用的3*3*3三维卷积。

三、 Vision to Language

vision to language的用途非常广泛,比较有代表性的有机器视觉,协助盲人出行,视频异常行为警告,聊天机器人等。Vision to language有三个大的方向,分别是image captioning,video captioning和video commenting。

给出一张图片,用一段文字描述它,就是image captioning。Image captioning的难点之一是如何让机器理解图片,难点之二是理解之后如何输出人类语言。解决问题的思路有三种,一种是search-based方法,一种是template-based方法,第三种是sequence learning-based方法。

Search-based方法通过从句子库中选择语义上最相似的句子来为图像生成句子,有时直接复制视觉上相似的图像的句子。由于所有句子来自现有的人类生成的句子,因此这个方向确实可以实现人类层面的描述。然而,收集现有句子难以使句子库做到足够大,而且这种方法不能产生新颖的描述。

Template-based方法首先将每个句子片段与从图像检测到的单词对齐,然后用预定义的语言模板生成该句子。显然,生成的句子高度依赖于模板,并且总是生成具有句法结构的句子。

然而这两种方法效果都不甚理想,他们的问题在于只有足够大的数据库才能保证图片找到对应的句子或模板。Sequence learning-based应用而生。与template-based和search-based的模型不同,sequence learning-based的模型旨在学习视觉内容和文本句子在公共空间中的概率分布,以生成具有更灵活语法结构的新句子。

Image Captioning方面的工作可以总结为“Image Captioning with X”,其中的 X 可以是 Visual Attention,Visual Attributes,Entity Recognition,Dense Caption 和 SemanticAttention等模块。 Visual attention希望每个词对应一个物体;visual attributes将被识别出的物体视为句子成分纠正训练;entity recognition可以识别名人或其他实体;dense caption对重复对象中的每一个都可以用一句话来描述。

与image captioning相似,做video captioning也三种方法,第一种是search-based方法,这个方法可以和image captioning做直接比较;第二种是language model-based方法,它将视频中的一些动作作为句子的动词,加上语法结构,就能生成结果;第三种方法,sequence leaning-based方法将每个关键帧都用独立的CNN做一次处理,得到高维向量。

同样与image captioning类似,“Image Captioning with X”也可以有temporal attention,spatiotemporal attention,visual attributes和dense caption等模块。

Q&A

提问:微软小冰可以根据图像的具体内容来创作,它是否具备一定的艺术价值、美感?

梅涛:小冰最初学的是1920年的现代诗,当时没有找人评价,但是出版诗集的时候,选的139首诗都是通过专家诗人选出来的。小冰写诗问世之后,一两天内有数百万的调用,说明用户还是喜欢的。

提问:在计算机音乐领域,我们用350条规则模拟巴赫的曲子,做成一个自动生成机器,普通听众听起来像模像样,但是真正的音乐家觉得曲子没什么深度。艺术美感抽象程度比较高,应该如何去量化?

梅涛:创作一定要期望,AI能取代低端劳动力,但是要取代有艺术感或创作性的美感,目前还是不现实的。我的观点,AI做有创造力的事情还是有限制,取代不了人。

感谢AIDL志愿者张志鹏协助整理!

本文分享自微信公众号 - 人工智能前沿讲习(AIFrontier),作者:梅涛

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-05-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 人工智能的马克思主义审视

    2018年5月5日是马克思诞辰200周年,马克思曾写到“哲学家们只是用不同的方式解释世界,而问题在于改变世界”。本文作者陈凡,哲学博士,东北大学科技哲学研究中心...

    马上科普尚尚
  • 2018CCAI丨不忘初心,方得始终——我国人工智能发展如何务实推进

    两年前,AlphaGo将我们预想中电脑战胜人类围棋手的时间提前了二十年,也将人工智能带到了公众的面前。那一年,“人工智能”成为网络年度热搜榜第7名,全球有将近两...

    马上科普尚尚
  • CCAI 2019丨周志华:人工智能是个高度凸显“个人英雄主义”的行业

    2019年中国人工智能大会(Chinese Congress on Artificial Intelligence 2019,简称“CCAI 2019”)将于在...

    马上科普尚尚
  • python文件操作二

    结果: 我是最帮的!! 学习文件写入操作我是最帮的!! 学习文件写入操作,加油!!!

    py3study
  • 2018-10-12-如何解决python找不到Crypto模块

    涉及加密算法的python代码,尤其是git上down下来的“老代码”经常会遇到神奇的报错 ImportError: No module named Crypt...

    黄腾霄
  • 【Python 第52课】 元组

    上一次pygame的课中有这样一行代码: x, y = pygame.mouse.get_pos() 这个函数返回的其实是一个“元组”,今天我们来讲讲这个东西。...

    Crossin先生
  • 2018火爆的人工智能和区块链,哪一个更适合你?

    今年4月底,国内某知名招聘网站以4000万中高端人才为样本,时间跨度以2018年第一季度为主,发布了《2018第一季度中高端人才薪酬与流动大数据报告》(以下简称...

    华章科技
  • 年薪50万的AI和年薪80万的区块链,哪一个更适合你?

    年4月底,国内某知名招聘网站以4000万中高端人才为样本,时间跨度以2018年第一季度为主,发布了《2018第一季度中高端人才薪酬与流动大数据报告》(以下简称报...

    曾响铃
  • Postgresql HOT技术内幕解读

    我们知道在数据库行数据更新时,索引也需要进行维护,如果是高并发的情况下,索引维护的代价很大,可能造成索引分裂。Pg为了避免这个问题,采用了HOT(堆内元组技术)...

    数据库架构之美
  • opencv 9 -- 轮廓 层次结构

    使用函数 cv2.findContours 来查找轮廓, 我们需要传入一个参数:轮廓提取模式(Contour_Retrieval_Mode)。 我们总是...

    wust小吴

扫码关注云+社区

领取腾讯云代金券