罗杰波:Computer Vision+:The Next Step Towards Big AI

AIDL简介

“人工智能前沿讲习班”(AIDL)由中国人工智能学会主办,旨在短时间内集中学习某一领域的基础理论、最新进展和落地方向,并促进产、学、研相关从业人员的相互交流。对于硕士、博士、青年教师、企事业单位相关从业者,预期转行AI领域的爱好者均具有重要的意义。2018年AIDL活动正在筹备,敬请关注公众号获取最新消息。

导读

中国人工智能学会举办的第四期《人工智能前沿讲习班》专题为“智能感知与交互”。美国罗切斯特大学教授罗杰波作了题为《Computer Vision ++: The Next Step Towards Big AI》的报告。本文根据罗杰波老师的报告内容整理发布,对相关领域研究工作具有长期价值。

讲者简介

罗杰波教授是IEEE、SPIE和IAPR等国际著名学会的会士(Fellow),图像处理、计算机视觉、机器学习、数据挖掘等领域的著名国际学者。罗杰波教授曾于“柯达实验室”从事研究长达十五年,并担任该实验室首席科学家。2011年秋,罗教授正式加入美国罗彻斯特大学计算机科学系。罗杰波教授是国际顶级会议ACM Multimedia 2010/2018、CVPR 2012、ICIP 2017等大会主席/程序主席,并担任IEEE Transactions on Pattern Analysis andMachine Intelligence(PAMI)、IEEETransactions on Multimedia (TMM)、IEEETransactions on Circuits and Systems for Video Technology (CSVT)、Pattern Recognition (PR)、以及Machine Vision and Applications (MVA)等国际顶尖学术期刊副编辑。罗杰波教授的研究涉及图像处理、计算机视觉、机器学习、数据挖掘、社交媒体、医学影像分析、普适性计算等多个前沿领域,发表三百五十多篇学术论文,持有九十余项美国专利。近年来,罗杰波教授在社交多媒体研究及其社会应用中做出了开创性的贡献。

前言:人工智能和计算机视觉

人工智能发展至今的六七十年中几经波折,近期进入第三个春天。这个春天将持续多久,人工智能将通往何方并无定数。

计算机视觉是人工智能的一个分支。视觉的主要任务是对视觉场景理解,获取图像中物体的种类、位置和关系,并进行描述和推理。

计算机视觉的研究开始于上世纪六七十年代,但长时间没有大的进展,1990年前基本处于“Lena”时代,也就是全世界研究者只有一张数字图像可供研究。直到2000年计算机视觉仍非常不成熟。

近期流行的计算机视觉方法大多基于深度学习,但每个学科都有自己的特色,认为领域知识(Domain Knowledge)不重要是不正确的观念。将数据放到深度网络得到一个结果并不等同于真正理解视觉的内涵。

一、计算机视觉的数据驱动

ImageNet是计算机视觉的一个分水岭,但不是一蹴而就,而是在2012年AlexNet之后才开始跳跃式的改变。现在计算机视觉的主要驱动来自于数据。数据集从十的三次方量级已经发展到了九次方甚至更多。其中的一些数据集如UCF101,TGIF等由罗杰波教授亲自发起或参与。

虽然数据是计算机视觉的重要驱动,但单纯的在数据集刷分无多大意义,类似的工作都是在调参,而没有方法的革新。

二、计算机视觉任务的层次

图像分类是计算机视觉研究的开始,其目的是预测整张图的标签。更进一步是检测识别问题,对图像中感兴趣的物体进行位置和大小标定。再之后即为像素级别的标签,图像语义分割。

Where have DL been?

2011年的ILSVRC分类任务冠军的错误率相比2010年只下降了不到三个百分点,而2012年AlexNet的结果相对2011年得到了大幅改进·。2015年ResNet把错误率下降到了5%以下,第一次超过了人类。

2017年是ILSVRC分类任务比赛的最后一年。当错误率下降到3%甚至2%后,再进一步实际不是在提高性能,而是在过拟合(over-fitting)。

在region层次的识别问题上,YOLO的mAP接近90%,并且速度高达67fps, 比实时的30fps仍要快一倍。在像素级的图像分割任务中,以FCN为代表的算法能将不同场景下的物体比较精确的分割出来。

虽然深度学习在很多计算机视觉任务数据集上已经表现出超过人类的水准,但在实际中并不容易。当下机器视觉公司一方面致力于提高网络结构,但功效有限,更多的仍是增大训练的数据量。

三、近期工作

计算机视觉的终极任务是描述(Description),而目前大多数的系统仍停留在识别阶段。本节将介绍罗教授团队近期的几个工作。

视频内容与标题匹配研究

部分社交媒体用户为博眼球,发布的视频内容和标题大相径庭。为检测视频内容和标题的匹配度,论文(下图)先在知识库中找到关键字所对应的视觉表象,从而形成与关键字相关的图像集。然后从视频中抽取关键帧组成另一个图像集。对这两个图像集进行连接比对得到标题和内容匹配的置信度。

人群情绪状态识别

人群情绪状态不是简单意义上的标签,而是根据人的运动行为状态推测抽象的情绪。

序列图像多尺度描述

和静止图像不同,视频需要考虑时序间的约束关系。对于有时序关系图像的处理,现行的方法主要为LSTM和3D卷积。论文(下图)从不同的时间尺度进行3D卷积提取,结合LSTM可以得到不同时间尺度上的事件描述。

四、Vision + Language

计算机视觉接下来的发展将不单单局限于视觉本身,而会和其他各个领域和应用进行结合形成Vision + X的体系。视觉和语言的结合是一个重要的研究分支。下图所示的视频文字对准(alignment)和图像语义描述(captioning)是罗教授团队的两个工作。

视频文字对准的目的在于寻找小段文字描述所对应的视频区间。论文(下图)先进行物体识别提取,通过物体的时空特征将动作分为小的基元,然后将识别到的物体和动作与文字描述进行匹配。

大多数图像语义描述的端到端系统可解释性很差。为解决这个问题,论文(下图)先进行图片的属性关键词抽取,然后利用注意力(Attention)机制将其关键词描述为完整的句子。相比于直接同图像生成完整的描述,增加中间属性关键词抽取使得系统的可解释性更强,并且更鲁棒。

五、Vision + 情感计算

心理学上将人的情感分为四类正四类负八种情感。罗教授团队的工作PCNN(下图)旨在解决情感计算中数据集缺少的问题。其设计思路具有很强的启发性:用暂有性能较差的网络对网络上的数据进行标注得到更大的数据集,然后用网络对新的数据集进行训练,重复上述两个步骤。

情感计算具有很好的研究前景,因为其准确率仍有较大的上升空间。

六、Vision + 社交媒体

社交媒体的信息是多模态的。从用户在社交媒体上的自拍,文字中都可以得到用户的画像。在近期的研究中,不仅仅局限于做出用户兴趣,爱好的画像,短期情绪推断已经成为现实。

Vision + 社交媒体的研究与实践结合紧密,是把握社会脉搏的有效手段。从公共安全,疾病,到市场,交通,舆情等,Vision + 社交媒体在其中的角色越来越重要。

七、Vision + Healthcare

人工智能和医疗的结合已经开始落地。除个体医疗外,社会健康状态也是一个重要的研究方向。

早期通过问卷调查研究青少年酗酒,吸毒,抑郁等问题,但此类敏感问题的问卷调查可靠性不高。现在的研究通过对Instagram上自拍计算可以判断是否为青少年,进而根据其社交言论推断其是否有不健康的危险行为。这种Visual+NLP+SocialMedia的方法为社会青少年健康状态的研究提供了高效的手段。

Vision+ X是计算机视觉之后的发展方向,除了已经在进行的研究,还会有更多的领域参与进来。单纯的计算机视觉是感知的过程,是人工智能的低级阶段,将其与其他领域结合,逐渐从感知向着认知的方向发展,去解决真正的AI问题。

八、Noise Label机器学习

现实中无论是人工标定的数据还是网络数据(Web Data),标签难免存在标定不准确的情况。噪声标签(NoiseLabel)的机器学习方法研究具有重要的学术和实践意义。

噪声标签学习的目的是将噪声样本剔除,留下有用的信息学习。

Semi-supervised Learning

半监督学习是介于监督学习和无监督学习中间的一种机器学习方式。

半监督学习同时使用标记数据和未标记数据来进行模式识别工作。使用半监督学习在减少人力使用的同时又能够带来比较高的准确性。

Bootstrap

Bootstrap和前文所述的PCNN学习方式很像,不断用结果更好的方法重新标定数据。

Reweighting

Reweighting在学习过程中调整样本的权重分配,可靠的样本在训练过程中权重逐渐变大,噪声样本权重逐渐变小。

●Noise Layer

近期深度学习中出现了通过加噪声层解决标签噪声问题的方法。噪声层的目的是为了反映噪声如何进入网络,但这种方法的问题是无法判断噪声层的有效性。

●Label Smoothing

LabelSmoothing Regularization(LSR)通过在输出y中添加噪声实现对模型的约束,降低模型过拟合程度。

总结

计算机视觉的终极任务是描述(Description),视觉领域在此方向的研究逐渐增多。计算机视觉是人工智能的初级阶段,关注的是感知(perception)。视觉占人类感知近70%,Vision + X是计算机视觉的下一重要研究方向,是实现从感知到认知(cognition)跨越的重要工作。语音(Speech),语言(Language),健康(Healthcare),情感计算(affective computing),社交媒体(Social media),人机交互(HCI)等是未来和计算机视觉结合研究的热点方向。大数据(Big Data)将长期成为计算机视觉的重要驱动力。

展望

人工智能在某种意义上是2017年最热门的话题。不论在学术界,还是工业界,还是投资界,人工智能风起云涌,一时多少豪杰。人工智能不可避免的有浮躁,有忽悠,但也有真正的内涵。

中科大8611校友,UCLA朱松纯教授是一位在人工智能领域耕耘二十余载的严谨学者。他结合自己多年研究,写下一篇四万字50页的文章,纵论人工智能的现状、任务、构架与统一,以期正本清源。这篇文章自从2017年11月发表在松纯,我,和几个同仁一起创刊的公众号,仅一个月内就有50余万人阅读。这个数字可能已经超出泛人工智能从业者当中华人的总数。朱松纯在文借用“战国六雄"来比喻当今人工智能领域的现状,并发问谁会是一统天下的秦呢? 会是计算机视觉吗?还是机器学习? 罗杰波教授认为在某种意义上其实秦已经出现了,就是深度学习。但是他补充说秦看似暴力一统,横扫六和,其实二世而亡。人们期盼的不是秦,而是汉,是功载千秋的大汉,集六个领域之大成的大AI。

感谢AIDL志愿者张志鹏协助整理!

【AIDL专栏】陈玉荣:如何高效的设计深度学习算法?[附PPT下载]

【AIDL专栏】山世光:从人脸识别看深度学习对计算机视觉的推动及挑战[附PPT下载]

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180329G1G9CS00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券