首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >腾讯多媒体实验室参会IJCAI2019并做论文报告

腾讯多媒体实验室参会IJCAI2019并做论文报告

作者头像
腾讯多媒体实验室
发布2019-08-23 10:40:18
8460
发布2019-08-23 10:40:18
举报

2019年人工智能领域国际顶级学术会议IJCAI(CCF-A类推荐会议)于8月16日在中国澳门威尼斯人酒店正式落下帷幕。腾讯多媒体实验室携录取论文参加会议,本文将从会议总览、论文解读等方面介绍本次会议。

一、IJCAI2019论文数据总览

本次会议空前地吸引了全世界超过3000位研究人员注册和参会。根据会议组织方的统计,本次会议有效投稿量达到创该会议投稿记录的4752篇,以17.8%的接受率录用了850篇,涉及人工智能的各个研究方向,如强化学习、传统机器学习与数据挖掘、深度学习的理论与应用等等。

图1-IJCAI2019论文接收统计

二、腾讯多媒体实验室论文报告解读

图2-腾讯多媒体实验室论文报告

腾讯多媒体实验室关于如何高效建模时域信息的论文被收录其中,图2为来自腾讯多媒体实验室的同学在会场介绍关于高效时序建模的研究内容。

该研究的出发点是增强视频任务中的时域处理能力。对于普通的视频分类, 时序建模可能不是必需的,比如一个打篮球的片段,当把视频帧序列时序完全反过来后再送进视频分类网络,得到的结果仍会是打篮球,置信度和正序帧序列结果也基本一致。对于时序要求不严格的视频数据集,局部范围的运动信息如光流信息反而可能更重要。但是,对于一些对时序关系要求比较高的任务,比如针对手语识别任务的视频,当视频时序反过来是, 会得到完全不一样的结果。这就说明, 在时序信息要求比较高的任务上,我们希望有特殊的设计能增强网络的时序建模能力。我们首先以手语任务作为主任务进行实验的分析与验证, 并扩充到其它视频任务(时序关系也很重要)。

对于手语识别任务(gesturerecognition),根据所使用的基础模块不同,可以将目前常见的方法大致归为三类: 基于2DCNN的方法、基于3DCNN的方法、结合3DCNN、ConvLSTM和2DCNN的级联方法。

图3-基于2DCNN的识别框架

其中,使用2DCNN的方法通常将多帧图片进行叠加,然后输入到2D卷积网络中,这种做法仅仅是将网络当作了特征提取,没有显式地建模时域信息,所以单个网路得到的结果较差, 需要依赖多个网络进行ensemble。

图4-基于3DCNN的识别框架

  而使用3DCNN的模型会通过3D卷积学习时空特征,但是3D卷积往往伴随着高的计算复杂度和显存占用,如果3D网络的层数较浅时,就缺少建模长程(long-term)信息, 这种长程信息对于时域建模来说非常重要。

图5-基于级联的识别框架

  也正是为了建模该长程信息,有一些方法将ConvLSTM接在3DCNN后面,这种结合就可以利用3D卷积建模局部时空信息,ConvLSTM建模长程依赖信息。尽管这种方式取得了很高的准确率,但是3DCNN和ConvLSTM都很耗时和耗显存,所以对于实际使用仍提出了较高的挑战。

图6-所提出的框架

  基于上述方案的优缺点,我们的解决思路是:目前的2DCNN已经能较好的建模空域信息或者表观信息,且2DCNN的计算量和参数量相对较少,所以我们可以将时域建模模块插入到已有的2DCNN中,并且该时域模块能同时建模局部和长程时空信息。我们提出的系统框架图如上图所示,其中MKTB和GRB模块为时域建模模块,这两个模块可以直接插入到已有的2DCNN中。另外,该方案是基于经典的TSN([Wang L et al. ECCV2016])框架, 即利用稀疏采样的帧作为输入。

图7-所提出的MKTB模块

  为了能同时建模局部短程(short-term)和长程(long-term)依赖关系, 我们基于经典的多尺度(本文中用多核这个词进行表示)思想,利用不同卷积核生成时域特征金字塔。该特征金字塔弥补了只有单尺度时无法建模长程信息的缺陷。多核时域建模模块如图7所示。直观上看, 该模块将时域和空域建模进行分解学习,利用多核(多尺度)的1D时域卷积进行时序建模。为了尽可能减少计算量,这里考虑使用DepthWise的卷积。在将特征送入多尺度时域卷积前,需要将特征做一定变换, 包括reshape操作和transpose操作,另外将特征的通道数进行变换以便进一步减少计算量,skip连接方式可以帮助网络更好的学习。从图中可以看出,输入输出的特征尺寸保持不变,所以该模块可以插入到网络中的任意位置, 我们实验中直接加在了ResNet的layer之间。

图8-所提出的GRB模块

  MKTB模块中用的是DepthWise的时域卷积进行时域建模,这种卷积会对每个通道单独的进行计算,而忽略了通道间的全局关系建模。为了进一步弥补这种全局信息的缺失,我们提出一个全局调优模块GRB。该模块受Non-Local网络的启发,即利用跨通道的全局关系对特征做进一步学习。不同于原有的Non-Local模块用在网络较前的位置,该模块很自然地用在我们的网络后端(分类层前),此时,输入特征已经不含空域维度,所以GRB模块中仍然是1D卷积而不是Non-Local模块中的2D或者3D卷积,所以该GRB模块计算量较低。

图9-实验所用数据集

  我们在手语识别数据集、视频理解数据集以及视频行人重识别数据集上都进行了实验。所使用的数据集信息如图9所示。

  实验结果如图10所示,可以看出我们的模型在不同数据集上的表现都稳定且较好。在IsoGD数据集上要明显好于2DCNN的方法,这是由于我们模型显式地建模了多尺度的时域信息,能对尺度变换较大的测试序列有更好的处理能力。相比于3DCNN的方法,我们的模型能取得更好的结果,因为我们的模型能建立长程时域信息。而相比于级联的方法,我们的模型同样能取得更有优势的结果,特别地, 在速度上,我们的模型具有较大的优势。

图10-实验结果对比

图11-消融实验结果

  为了更好的评估各个模块的作用,我们进行了相关消融实验。从图11中可以看出,当增加MKTB模块时,能取得更好的效果。这进一步说明了时域建模的有效性。多核或者说多尺度的时域建模能力能带来表现的提升;除了利用多个不同核大小的卷积建模多尺度信息外,还可以利用多个不同dilation rate的卷积,本质上讲, 这两种方法都是利用不同感受野来提升处理能力;从表中还可以看出,相比于普通的1D卷积, GRB模块能取得更好效果。

图12-可视化结果

  为了更直观体现所提模型带来的改进,我们可视化了网络的中间特征图。如图12所示,我们的方法能较稳定地将处理的注意力保持在手部区域,相比之下,没有显式建模时域信息的TSN模型对于关键信息的处理能力相对较差。

图13-在其它任务上扩展实验的结果

  如前文所说,我们的方法能作为单独的模块使用在别的任务或者别的网络中,所以为了验证所提模块的泛化能力,我们进行了扩展实验。在建模人-物体关系的视频理解任务和基于视频的行人重识别任务中,我们的模型均取得一定的提升。可以对我们的方法进行进一步展望,将所提的方法用在更多的视频处理任务上, 包括视频的分割、视频的超分辨率、去燥等等。我们还可以尝试突破已有的基础网络, 搭建更适合视频处理任务的基础架构。

三、IJCAI2019会场见闻分享

图14-SONY工作人员演示基于深度摄像头的手势交互

  本次IJCAI学术会议和工业界的联系同样十分密切, 赞助商总数超过二十家。各大互联网公司都在会场设置了展台进行demo的演示和技术交流,图14为SONY工作人员演示基于手机深度摄像头的交互系统。

  本次会议包括workshop、特邀报告、panels、main track等流程,其中特邀报告邀请了不同领域的大牛进行分享,例如来自MIT的Leslie Kaelbling教授介绍了关于智能机器人的设计与思考,来自UCLA的AdnanDarwiche教授分享了关于AI系统中的表现推理,以及来自南京大学的周志华教授分享了关于深度学习为什么有效、局限性以及对突破局限的探索。

图15-周志华教授报告Slide

  在周志华教授的分享中,介绍了深度神经网络有效的几个可能原因,包括有大量的训练数据,其强大的计算能力,以及各种训练技巧。进一步值得深入考虑的一个问题是这几个因素同样可以运用到浅层的网络中,但是浅层网络的效果却远达不到深度很深的网络的效果。

图16-周志华教授报告Slide

周志华教授在报告上给的一个本质原因是“表征学习”的能力。

图17-周志华教授报告Slide

那么影响该“表征能力”的关键又是什么呢, 是“逐层处理”-Layer-by-layer processing。又可以有新的问题,传统机器学习算法如决策树也是用的逐层的思路, 那为什么就不能达到深度神经网络的效果呢。

图18-周志华教授报告Slide

周志华教授指出主要是由于传统的机器学习模型虽然满足了逐层处理的条件,但是没有做到特征变换,以及模型的复杂度不充分。所以,对于深度模型,关键的几个因素就是逐层处理、特征变换、足够的模型容量。然后基于这几个关键因素,结合大量训练数据、强大的硬件条件以及训练技巧,就能达到较好的效果。

图19-周志华教授报告Slide

知道深度神经网络有效性的关键因素后,周志华教授指出可以利用上述关键因素来设计新的模型,在新设计的模型中,摆脱现阶段深度模型的固有缺陷如必须是可微的这一条件。基于该思路,周志华教授提出了基于决策树森林的一系列工作,并在一些任务上达到甚至超过了现阶段深度学习的方法,目前周教授仍在致力于发展该方向。

在本次IJCAI会议上, 还有很多有意思的工作,比如声音方向,有音乐唱声分离、基于分解式音色分离的作曲风格转换、端到端音乐合成和翻唱音乐识别等等。计算机视觉方向同样有很多有意思的研究,比如基于分层卷积自注意力机制的视频问答、基于Bi-LSTM 的动态Early 动作识别、图像/视频目标检测网络中的对抗样本研究等等。

四、IJCAI2019参会小结

  本次学术会议给学术界和工业界提供了一个技术交流的平台,大家都在致力于推动着技术尤其是人工智能领域的发展。腾讯多媒体实验室目前也已经将音视频AI能力整合并落地到相关产品中,包括音频处理平台、丽影视频处理平台、腾讯会议等等,并且将继续利用各项AI技术打磨产品,让我们的产品更好的服务整个社会。

———— / END / ————

最新资讯 丨 技术干货

就在腾讯音视频实验室

长按二维码关注我们

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-08-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯音视频实验室 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图像处理
图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档