首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大会 | AAAI 2018论文:视频语义理解的类脑智能

大会 | AAAI 2018论文:视频语义理解的类脑智能

作者头像
AI科技评论
发布2018-03-29 17:02:14
1.3K0
发布2018-03-29 17:02:14
举报
文章被收录于专栏:AI科技评论AI科技评论

AI 科技评论按:近日,美图云视觉技术部门与中科院自动化所共同合作研发,提出一种基于类脑智能的无监督的视频特征学习和行为识别的方法 NOASSOM (Hierarchical Nonlinear Orthogonal Adaptive-Subspace Self-Organizing Map based Feature Extraction for Human Action Recognition),该方法不依赖于标签信息,可以自适应地、无监督地学到视频的特征表示,相关成果已发表在 AAAI 2018 上,并以 oral 的形式在大会上进行了报告。

视频语义理解一直是学术界的研究热点之一。近两年随着短视频领域的火爆发展,围绕短视频的业务场景应用也在增长,工业界应用场景都对视频内容理解提出了迫切的落地需求。与学术界用的确定性数据集不同,工业界业务产生的视频数据具有如下特点:首先,数据量大,每天都会有成千上百万的视频被上传;其次,内容未知,现实生活中的场景是很复杂的,尤其对于 UGC 内容,无法确定用户上传的视频中的主体和场景,行为更是无法预测;再次,时效性,在不同的时间段内视频的主题、场景以及行为是不同的,它可能会随着时间发生变化进行转移。因此,在这样的数据集上人工建立标签体系非常困难。NOASSOM 算法的提出有效解决了算法模型在训练过程中无标签输入的问题。

NOASSOM 是通过模拟视觉皮层中表面区域的结构来构建的,以数据驱动自组织更新,恢复基本视觉皮层中的神经元对输入刺激的反应。NOASSOM 是对 ASSOM 方法的改进。ASSOM 是一种特征提取方法,它可以从输入数据中学习统计模式,并对学到的模式进行自组织排列,从而进行特征表示。但是 ASSOM 只能处理有标签的数据,并且只对线性化的数据有效,无法胜任其他复杂情形。NOASSOM 的提出解决了 ASSOM 的这两个重要问题。首先,NOASSOM 通过引入一个非线性正交映射层,处理非线性的输入数据,并使用核函数来避免定义该映射的具体形式。其次,通过修改 ASSOM 的损失函数,使输入数据的每个样本可以独立地贡献于损失函数,而不需要标签信息。这样,NOASSOM 可以有效地、无监督地学习数据的统计模式和本征表示。图 1 示意了 NOASSOM 与 ASSOM 的网络结构区别。

图 1 NOASSOM 与 ASSOM 网络结构

ASSOM 由输入层、子空间层、输出层组成。NOASSOM 比 ASSOM 增加一个非线性正交映射层,用于实现输入层和子空间层的非线性正交映射。为保证映射后的子空间基向量仍然保持正交性,NOASSOM 采用正交约束的核函数:

输出层使用输入在子空间的投影表示:

使用投影残差构建损失函数:

原始的 ASSOM 的损失函数表示如下:

通过修改损失函数使每个样本独立地贡献于损失函数,而不必使用 Class-specific 的数据进行有监督训练。NOASSOM 使用随机梯度下降法对网络进行训练。

在每次迭代之后,重新对基向量进行正交化处理。算法流程图如下:

NOASSOM 论文进一步还提出一个层级的 NOASSOM 来提取高层的抽象特征,有效地描述视频中行为轨迹的表观和运动信息,构建了一个层级的 NOASSOM 结构提取视频中的局部行为特征,并使用 FISHER VECTOR 进行聚合编码,采用 SVM 进行分类,如图 2 所示。

图 2 层级 NOASSOM 特征提取框架

训练得到的基向量的可视化结果如图 3 所示,左边是表观信息滤波器,右边是运动信息滤波器。可以看出表观信息滤波器可以学到一些类似边缘检测的滤波器,这样类型的滤波器对图像的水平边沿和垂直边沿能进行检测,从而提取良好的轮廓纹理信息。右边的运动信息滤波器学到了一些类似 Gabor 滤波器的滤波器,这样的滤波器对运动信息更加敏感,实现对运动信息进行良好的提取。

图 3 NOASSOM 中基向量的可视化结果

NOASSOM 中训练得到的基向量的可视化结果如图 2 所示,左边是表观信息滤波器,右边是运动信息滤波器。可以看出表观信息滤波器可以学到一些类似边缘检测的滤波器,这样类型的滤波器能对图像的水平边沿和垂直边沿进行检测,从而提取良好的轮廓纹理信息。右边的运动信息滤波器学到了一些类似 Gabor 滤波器学到的信息,这样的滤波器对运动信息更加敏感,实现对运动信息地鲁棒性提取。

NOASSOM 在国际公开大型数据集 UCF101, HMDB51 和小型数据集 KTH 上进行了评测,获得了 93.8%,69.3% 和 98.2% 的识别率。在 UCF101 和 HMDB51 上,分别超出使用手工特征的 iDt+HSV 基准方法 5.9% 和 8.2%,并且分别超出使用卷积神经网络模型的 iDt+CNN 方法 2.3% 和 3.4%,在 KTH 上超过 iDT+MBH 的基准方法 3.2% 以及基于 3D CNN 的方法 8.0%。公开数据集上的实验结果表明,这种方法优于之前基于手工特征的方法和大多基于深度特征的方法。此外,在小数据库上,性能更加优于基于 CNN 的方法。更多的技术细节和实验结果请参考原始论文。

NOASSOM 方法的独特优势在于,可以从大量没有标签的数据进行更加快速的训练,并且获得和其他基于有标签数据方法性能相当甚至更加优越的性能。基于这项技术的输出将被应用于美拍短视频多个业务场景中,如相似视频的推荐和大规模视频检索,基于短视频内容的用户聚类和画像,以及基于短视频内容的运营标签挖掘等等。

附:

美图云视觉技术部门,专注于文本、图像和视频等领域的视觉算法研发和平台构建。部门主导研发的 AI 视觉分析平台 DeepNet,提供检测、分类、语义理解、哈希、OCR 等多个方向的技术支撑,正在为美图各产品和业务,如美拍短视频运营、商业化广告、推荐业务、搜索业务和安全审核等提供算法支撑。视觉部门长期招纳视觉领域相关人才,方向不限,有意者请发简历至 lili.zhao@meitu.com

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-03-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技评论 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档