大会 | AAAI 2018论文:视频语义理解的类脑智能

AI 科技评论按:近日,美图云视觉技术部门与中科院自动化所共同合作研发,提出一种基于类脑智能的无监督的视频特征学习和行为识别的方法 NOASSOM (Hierarchical Nonlinear Orthogonal Adaptive-Subspace Self-Organizing Map based Feature Extraction for Human Action Recognition),该方法不依赖于标签信息,可以自适应地、无监督地学到视频的特征表示,相关成果已发表在 AAAI 2018 上,并以 oral 的形式在大会上进行了报告。

视频语义理解一直是学术界的研究热点之一。近两年随着短视频领域的火爆发展,围绕短视频的业务场景应用也在增长,工业界应用场景都对视频内容理解提出了迫切的落地需求。与学术界用的确定性数据集不同,工业界业务产生的视频数据具有如下特点:首先,数据量大,每天都会有成千上百万的视频被上传;其次,内容未知,现实生活中的场景是很复杂的,尤其对于 UGC 内容,无法确定用户上传的视频中的主体和场景,行为更是无法预测;再次,时效性,在不同的时间段内视频的主题、场景以及行为是不同的,它可能会随着时间发生变化进行转移。因此,在这样的数据集上人工建立标签体系非常困难。NOASSOM 算法的提出有效解决了算法模型在训练过程中无标签输入的问题。

NOASSOM 是通过模拟视觉皮层中表面区域的结构来构建的,以数据驱动自组织更新,恢复基本视觉皮层中的神经元对输入刺激的反应。NOASSOM 是对 ASSOM 方法的改进。ASSOM 是一种特征提取方法,它可以从输入数据中学习统计模式,并对学到的模式进行自组织排列,从而进行特征表示。但是 ASSOM 只能处理有标签的数据,并且只对线性化的数据有效,无法胜任其他复杂情形。NOASSOM 的提出解决了 ASSOM 的这两个重要问题。首先,NOASSOM 通过引入一个非线性正交映射层,处理非线性的输入数据,并使用核函数来避免定义该映射的具体形式。其次,通过修改 ASSOM 的损失函数,使输入数据的每个样本可以独立地贡献于损失函数,而不需要标签信息。这样,NOASSOM 可以有效地、无监督地学习数据的统计模式和本征表示。图 1 示意了 NOASSOM 与 ASSOM 的网络结构区别。

图 1 NOASSOM 与 ASSOM 网络结构

ASSOM 由输入层、子空间层、输出层组成。NOASSOM 比 ASSOM 增加一个非线性正交映射层,用于实现输入层和子空间层的非线性正交映射。为保证映射后的子空间基向量仍然保持正交性,NOASSOM 采用正交约束的核函数:

输出层使用输入在子空间的投影表示:

使用投影残差构建损失函数:

原始的 ASSOM 的损失函数表示如下:

通过修改损失函数使每个样本独立地贡献于损失函数,而不必使用 Class-specific 的数据进行有监督训练。NOASSOM 使用随机梯度下降法对网络进行训练。

在每次迭代之后,重新对基向量进行正交化处理。算法流程图如下:

NOASSOM 论文进一步还提出一个层级的 NOASSOM 来提取高层的抽象特征,有效地描述视频中行为轨迹的表观和运动信息,构建了一个层级的 NOASSOM 结构提取视频中的局部行为特征,并使用 FISHER VECTOR 进行聚合编码,采用 SVM 进行分类,如图 2 所示。

图 2 层级 NOASSOM 特征提取框架

训练得到的基向量的可视化结果如图 3 所示,左边是表观信息滤波器,右边是运动信息滤波器。可以看出表观信息滤波器可以学到一些类似边缘检测的滤波器,这样类型的滤波器对图像的水平边沿和垂直边沿能进行检测,从而提取良好的轮廓纹理信息。右边的运动信息滤波器学到了一些类似 Gabor 滤波器的滤波器,这样的滤波器对运动信息更加敏感,实现对运动信息进行良好的提取。

图 3 NOASSOM 中基向量的可视化结果

NOASSOM 中训练得到的基向量的可视化结果如图 2 所示,左边是表观信息滤波器,右边是运动信息滤波器。可以看出表观信息滤波器可以学到一些类似边缘检测的滤波器,这样类型的滤波器能对图像的水平边沿和垂直边沿进行检测,从而提取良好的轮廓纹理信息。右边的运动信息滤波器学到了一些类似 Gabor 滤波器学到的信息,这样的滤波器对运动信息更加敏感,实现对运动信息地鲁棒性提取。

NOASSOM 在国际公开大型数据集 UCF101, HMDB51 和小型数据集 KTH 上进行了评测,获得了 93.8%,69.3% 和 98.2% 的识别率。在 UCF101 和 HMDB51 上,分别超出使用手工特征的 iDt+HSV 基准方法 5.9% 和 8.2%,并且分别超出使用卷积神经网络模型的 iDt+CNN 方法 2.3% 和 3.4%,在 KTH 上超过 iDT+MBH 的基准方法 3.2% 以及基于 3D CNN 的方法 8.0%。公开数据集上的实验结果表明,这种方法优于之前基于手工特征的方法和大多基于深度特征的方法。此外,在小数据库上,性能更加优于基于 CNN 的方法。更多的技术细节和实验结果请参考原始论文。

NOASSOM 方法的独特优势在于,可以从大量没有标签的数据进行更加快速的训练,并且获得和其他基于有标签数据方法性能相当甚至更加优越的性能。基于这项技术的输出将被应用于美拍短视频多个业务场景中,如相似视频的推荐和大规模视频检索,基于短视频内容的用户聚类和画像,以及基于短视频内容的运营标签挖掘等等。

附:

美图云视觉技术部门,专注于文本、图像和视频等领域的视觉算法研发和平台构建。部门主导研发的 AI 视觉分析平台 DeepNet,提供检测、分类、语义理解、哈希、OCR 等多个方向的技术支撑,正在为美图各产品和业务,如美拍短视频运营、商业化广告、推荐业务、搜索业务和安全审核等提供算法支撑。视觉部门长期招纳视觉领域相关人才,方向不限,有意者请发简历至 lili.zhao@meitu.com

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2018-03-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

论文Express | 美图云+中科院AAAI2018:视频语义理解的类脑智能

1122
来自专栏机器之心

专栏 | 用神经网络来判定量子纠缠?这里有一篇简单易懂的方法解读

纠缠态 (entangledstate) 是量子力学预言的一种叠加态,最早是为了批判量子力学所蕴含的哲学思想,而由爱因斯坦等三名科学家于 1935 年首先提出的...

1403
来自专栏AI科技评论

动态 | 邀请函or挑战书?OpenAI喊你来研究7个AI未解问题啦

AI 科技评论按:OpenAI 昨日发布一篇博客,介绍了 7 个自己近期在研究但尚未解决的问题,希望邀请到外部的研究者一同参与研究、做出进展。OpenAI 尤其...

3449
来自专栏Coding迪斯尼

深度学习初论:构建基础思维框架

1102
来自专栏人工智能头条

格灵深瞳:人脸识别最新进展以及工业级大规模人脸识别实践探讨 | 公开课笔记

8143
来自专栏机器之心

120万美元机器24分钟训练ImageNet,UC Berkeley展示全新并行处理方法

选自UC Berkeley 机器之心编译 参与:李泽南、蒋思源 今年 6 月,Facebook 实现 1 小时训练 ImageNet 的成绩之后,通过增加批量大...

2847
来自专栏量子位

224秒!ImageNet上训练ResNet-50最佳战绩出炉,索尼下血本破纪录

刚刚,索尼在arXiv上发文宣布:他们用224秒在ImageNet上完成了ResNet-50训练,没有明显的准确率损失。

1122
来自专栏新智元

纽约大学联合谷歌大脑提出「COG」数据集,可提高系统的「视觉推理」能力

【新智元导读】在认知心理学和神经科学中丰富的视觉推理和记忆传统的启发下,我们开发了一个人工的、可配置的视觉问题和答案数据集(COG),用于在人类和动物中进行平行...

32511
来自专栏ATYUN订阅号

赫尔辛基大学AI基础教程:机器学习的类型(4.1节)

每张图片上方都会显示正确的标签(本应写入的数字)。请注意,某些“正确的”类标签是存疑的:例如,请参阅左侧的第二个图像:那是7还是4?

1088
来自专栏AI科技评论

Ian Goodfellow & ICLR-17最佳论文得主新作:验证与测试,机器学习的两大挑战

AI 科技评论按:去年年底,Ian Goodfellow与Nicolas Papernot(是的,就是ICLR 2017的最佳论文得主之一)合作开了一个博客叫c...

3196

扫码关注云+社区

领取腾讯云代金券