AAAI 2018 | 中科大提出新型连续手语识别框架LS-HAN,帮助「听」懂听障人士

选自arXiv

作者:Jie Huang、 Wengang Zhou、Qilin Zhang、Houqiang Li、Weiping Li

机器之心编译

参与:路雪、李亚洲

中科大一篇关于手语识别的论文被 AAAI 2018 接收。该论文提出一种新型连续手语识别框架 LS-HAN,无需时间分割。LS-HAN 由三部分构成:用于视频特征表示生成的双流卷积神经网络、用于缩小语义差距的潜在空间和基于识别的潜在空间分层注意力网络。实验结果表明该框架有效。

手语识别(SLR)面临的一个重要挑战是设计能够捕捉人体动作、姿势和面部表情的视觉描述符(descriptor)。主要有两类:手动制作的特征(Sun et al. 2013; Koller, Forster, and Ney 2015)和基于卷积神经网络的特征(Tang et al. 2015; Huang et al. 2015; Pu, Zhou, and Li 2016)。受 CNN 近期成功的启发,该论文作者设计了一种双流 3D-CNN 用于视频特征提取。

时域分割是连续手语识别的另一个难题。连续 SLR 的常见方案是将句子分解成孤立的单词识别问题,这需要进行时域分割。时域分割并不简单,因为存在多种过渡动作,很难检测。而且时域分割作为预处理步骤,如果分割不准确就会导致后续步骤中出现错误。此外,标注每个孤立的片段非常耗时。

受利用长短期记忆(LSTM)网络进行视频描述生成的启发,研究者使用分层注意力网络(HAN,LSTM 的扩展)绕过时域分割,考虑结构信息和注意力机制。该方案需要向 HAN 馈送整个视频,然后逐词输出完成的句子。但是,HAN 可以根据输入视频和前一个单词来优化生成下一个单词的概率,但忽略了视频和句子之间的关系(Pan et al. 2015)。因此,它会遇到是否稳健的问题。为了解决这个问题,研究者整合了潜在空间(LS,Latent Space)模型,以明确地利用视频和文本句子之间的关系。

这篇论文的主要贡献如下:

  • 提出新型双流 3D-CNN,用于视频特征表示生成;
  • 提出适合连续 SLR 的新型 LS-HAN 框架,无需进行时域分割;
  • LS-HAN 框架对相关性和识别损失进行联合优化;
  • 编译最大的开源中国手语(CSL)数据集(截至 2017 年 9 月)用于连续 SLR,数据集具备句子级别的标注。

图 2:LS-HAN 框架。输入是视频和配套的标注句子。视频用全局-局部特征来表示,每个单词用 one-hot 向量进行编码。它们被映射到同一个潜在空间,以对视频-句子相关性进行建模。研究者基于映射结果,利用 HAN 进行自动句子生成。

图 3:动态时间规整(DTW)生成的相关规整路径。X 轴表示帧索引,Y 轴表示词序索引。网格表示矩阵元素 D[i, j]。(a)表示原始 DTW 的三种可能的对齐路径。(b)表示 Window-DTW 的对齐路径。

图 4:HAN 通过注意力层对视频进行分层编码,并对输入序列加权。它将隐藏向量表示逐词解码,组合成句子。

图 5:测试阶段中的对齐重建。(a)将视频所有的片段分割成两个子序列,并编码成 HAN;(b)将每两个相邻的片段分割成一个子序列;(c)将所有片段平均分割成 7 个子序列(7 是训练集的平均句子长度)。

表 2:连续 SLR 结果。粗体字方法是本论文所提出方法的原始和修改版本。

表 3:在 RWTH-PHOENIX-Weather 上的连续 SLR。

论文:Video-based Sign Language Recognition without Temporal Segmentation

论文链接:https://arxiv.org/abs/1801.10111

摘要:世界上数百万听障人士通常使用手语进行交流,因此手语自动翻译很有意义,也很重要。目前,手语识别(SLR)存在两个子问题:逐词识别的孤立手语识别,翻译整个句子的连续手语识别。现有的连续手语识别方法利用孤立 SLR 作为构造块,还有额外的预处理层(时域分割)、后处理层(句子合成)。不过,时域分割并不简单,且必然会向后续步骤传播误差。更糟糕的是,孤立 SLR 方法通常需要对句子中的每个单词分别进行标注,严重限制了可获取训练数据的量。为了解决这些难题,我们提出了一种新型连续手语识别框架,带有潜在空间的分层注意力网络(Hierarchical Attention Network with Latent Space,LS-HAN),无需对时间分割进行预处理。LS-HAN 由三部分构成:用于视频特征表示生成的双流卷积神经网络、用于缩小语义差距的潜在空间(Latent Space,LS)和基于识别的潜在空间分层注意力网络(HAN)。我们在两个大型数据集上进行了实验,实验结果表明我们提出的框架是有效的。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2018-02-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏技术翻译

机器学习的AdaBoost算法

首先,AdaBoost是Adaptive Boosting的缩写。基本上,Ada Boosting是第一个为二进制分类开发的真正成功的增强算法。此外,它是理解助...

11620
来自专栏目标检测和深度学习

学会这10种机器学习算法,你才算入门(附教程)

作为数据科学家的实践者,我们必须了解一些通用机器学习的基础知识算法,这将帮助我们解决所遇到的新领域问题。本文对通用机器学习算法进行了简要的阐述,并列举了它们的相...

36880
来自专栏新智元

【干货】计算机视觉视频理解领域的经典方法和最新成果

1.6K20
来自专栏数值分析与有限元编程

共旋坐标法( 三 ) 算例

为计算方便,根据对称性取半结构,且刻意将初始刚度设为1,便于观察。取半结构之后,自由度只有一个,用Excel也能算了。当外荷载较小时,不会出现“跳跃”...

23710
来自专栏量子位

一文看懂自动驾驶中应用的机器学习算法

安妮 唐旭 编译自 KDnuggets 量子位出品 | 公众号 QbitAI 机器学习算法已经被广泛应用于自动驾驶各种解决方案,电控单元中的传感器数据处理大大提...

35970
来自专栏PPV课数据科学社区

常见面试之机器学习算法思想简单梳理

前言:   找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据...

37340
来自专栏PPV课数据科学社区

【学习】数据挖掘中分类算法小结

数据仓库,数据库或者其它信息库中隐藏着许多可以为商业、科研等活动的决策提供所需要的知识。分类与预测是两种数据分析形式,它们可以用来抽取能够描述重要数据集...

332110
来自专栏CreateAMind

论文解读:生成模型采样-类比学习应用 多图

12410
来自专栏计算机视觉战队

非神经网络的深度模型

---- 深度学习最大的贡献,个人认为就是表征学习(representation learning),通过端到端的训练,发现更好的features,而后面用于...

32990
来自专栏SIGAI学习与实践平台

视觉多目标跟踪算法综述(上)-附开源代码下载链接整理

目标跟踪是机器视觉中一类被广为研究的重要问题,分为单目标跟踪与多目标跟踪。前者跟踪视频画面中的单个目标,后者则同时跟踪视频画面中的多个目标,得到这些目标的运动轨...

1.3K20

扫码关注云+社区

领取腾讯云代金券