专栏首页机器之心基于传感器的人类行为识别DL方法难在哪?这篇综述列了11项挑战

基于传感器的人类行为识别DL方法难在哪?这篇综述列了11项挑战

机器之心发布

作者:KAIXUAN CHEN、DALIN ZHANG等

传感器设备和物联网的广泛应用使得基于传感器的人类行为识别成为可能。然而,这个领域仍然存在一些重大挑战(challenge),可能会影响行为识别系统在实际应用场景中的性能。在这篇论文中,来自新南威尔士大学、西北工业大学、密歇根州立大学的研究人员综述了近期被用于解决具体行为识别挑战的深度学习方法,并提出了一种基于挑战的分类体系。

除此之外,他们还总结了可用于评估不同挑战任务的公共数据集并讨论了尚待解决的问题,同时为未来的方向提供了一些见解。

原文链接:https://arxiv.org/abs/2001.07416

本文提出的分类体系可分为以下 11 个方面:

1. 特征提取(Feature Extraction)

特征提取是人类行为识别的关键步骤之一,也是得到高识别率的挑战之一。这在一定程度上是由于人类活动的范围很广,而且某一特定行为的表现方式千差万别。本文将特征提取的方法分为三类:时间特征提取(Temporal Feature Extraction)、多模态特征提取(Multimodal Feature Extraction)和统计特征提取(Statistical Feature Extraction)。

图1. 几种多模态特征提取的方法。

2. 注释的稀缺性(Annotation Scarcity)

深度学习依赖大量的标记数据,然而,如此大量的可靠标记数据并不总是可获得的,原因有二:1. 注释过程是昂贵、耗时且非常繁琐的;2. 标注过程容易受到各种噪声源的影响,如传感器噪声、分割问题以及不同人之间活动的差异,这使得标注过程容易出错。本文将解决注释稀缺性的方法分为两类:无监督学习(Unsupervised Learning)和半监督学习(Semi-supervised Learning)。其中,在没有任何标记数据给定真值的情况下,无监督学习至今仍然无法独立完成行为识别。因此,半监督学习的人类行为识别方法是最近的趋势。

本文列举了三种常用于行为识别系统的半监督学习方法,分别是:协同训练(Co-training)、主动学习(Active Learning)和数据增强(Data augmentation)

3. 类不平衡性(Class Imbalance)

类不平衡性是由于一些特定活动的传感器数据很难获取,比如老年人摔倒等等。此外,在不受限制的条件中记录的原始数据天然地是类不平衡的。当使用不平衡的数据集时,传统的模型倾向于预测训练样本数量较多的类别而忽略训练样本数量较少的类别。因此,类别失衡问题的解决迫在眉睫。

4. 数据的异质性(Heterogeneity)

许多最新的人类行为识别方法都假设训练数据和试验数据是独立同分布的。然而,这是不切实际的。这是由于行为识别的传感器数据是异质的。传感器数据的异质性可以分为三类。

首先是用户的异质性(Heterogeneity with Users)。由于生物和环境因素,同样的行为由不同的人实施可以有不同的表现。例如,有些人走得很慢,有些人走得很快。第二个异质性与时间有关(Heterogeneity with Time)。在动态流环境中,行为的数据分布随着时间变化(Concept Drift),新的行为也可能出现(Concept Evolution/Open-Set)。第三类异质性与传感器有关(Heterogeneity with Sensors)。用于人类活动识别的传感器通常是敏感的。一个小变化会对传感器数据造成很大的干扰。可能导致传感器异质性的因素包括传感器实例(Sensor Instances)、类型(Sensor Types)、位置(Sensor Positions)和布局(Sensor Layouts)。

考虑到以上三种类型产生的数据异质性,且在现实场景中识别系统常常在无约束的情况下布置传感装置,我们可以观察到训练数据和测试数据两者之间的分布差异,因此,无缝的深度学习模型对于行为识别是必要的。

图 2. 三种随时间变化的异质性的分布情况。

5. 复合行为(Composite Activities)

大多数人类行为识别任务是基于简单的活动,比如走路和坐着。然而,记录人类日常活动更有意义的方式是由一系列简单行为组成的复合行为。例如,「洗手」可以表示为 {打开水龙头,皂洗,搓手,关掉水龙头}。由于复合行为不仅仅需要识别人体活动,还需要识别周遭环境的信息,因此比识别简单行为更有挑战性。

6. 数据分割(Data Segmentation)

由于原始传感器数据由连续流信号表示,因此固定大小的窗口通常被用于将原始传感器数据序列分割成段,作为模型的输入。这对于克服单一时间步长样本的限制是至关重要的。理想情况下,一个分区数据段只有一个行为,因此一个模型对于单一窗口内的所有样本只预测一个标签。但是,一个窗口中的样本不一定总是共享相同的标签,尤其是在行为转换的过程中。因此,一个好的分割方法是提高行为识别精度的关键。

7. 并行行为(Concurrent Activity)

在真实的场景中,除了按顺序逐个执行每个行为之外,一个人可以同时进行多个行为,这被称为并行行为。例如,一个人可以在看电视时打电话。从传感器的角度来看,一段数据可能对应多个行为。因此,并行行为识别可以抽象为一个多标签任务(multi-label task)。

8. 多人行为(Multi-occupant Activity)

生活和工作空间通常由多个人居住,因此,设计解决多人行为问题的方案具有重要的现实意义。主要有两种类型的多人行为:1. 平行行为(Parallel Activity),比如一个人在吃饭,另一个人在看电视。2. 合作行为(Collaborative Activity),多个居住者合作执行相同的活动,如两个受试者打乒乓球。对于平行行为的识别,当只有可穿戴传感器时,可将其划分为多个单人行为识别任务,并采取传统的解决方案;当使用环境或对象传感器时,数据关联映射到多人的感知信号是主要挑战,并且随着空间中人数的增加而变得更加困难。合作行为通常包括人与人之间的交互并使用各种器械,因此,上下文和对象使用信息在设计识别解决方案中起着至关重要的作用。

9. 运算成本(Computation Cost)

虽然深度学习模型在基于传感器的人类行为识别中显示出了主导作用,它们通常是资源密集型的。例如早期的 DCNN 架构,AlexNet,它有 5 个 CNN 层和 3 个全连接层,处理 61M 参数(249MB 内存),执行 1.5B 高精度操作进行预测。对于不可移植的应用程序,我们通常使用图形处理单元(GPU)加速计算。然而,GPU 是非常昂贵和耗电的,所以不适合用于移动设备上的实时应用程序。目前的研究已经证明了通过引入额外的层和节点来加深神经网络是一种关键的提高模型性能的方法,但是这样不可避免地增加了计算复杂度。因此,如何解决计算量大的问题实现实时性是一个非常重要和具有挑战性的课题。

10. 隐私性(Privacy)

人类行为识别的主要应用是对人类行为的监测,因此传感器需要不断地捕捉用户的活动。由于执行行为的方式因用户而异,所以对手可以通过时间序列传感器数据推断用户的敏感信息,如年龄。具体来说,对于深度学习技术而言,其黑箱特性可能会在无意中暴露出用户的鉴别特征。研究表明,即使 CNN 只接受针对行为分类的交叉熵损失训练,所获得的 CNN 特征仍然具有很强的用户识别能力。因此,解决深度学习模型的隐私泄露问题至关重要。

11. 深度学习对于传感器数据的可解释性(Interpretability of Deep Learning Models in Sensory Data)

人类行为的传感器数据是不可读的。一个数据样本可能包括在一个时间窗口内从多个位置(如手腕、脚踝)得到的不同数据(如加速度、角速度)。但是,只有少数从具体位置采集的数据有助于确定某些活动。不相关的数据会引入噪声,影响识别性能。此外,数据的重要性随时间而变化。例如,在帕金森病检测系统中,异常只出现在短时间内的步态中,而不是整个时间窗口中。直观地说,当身体的某个部分在积极地运动时,相关的数据才有更大的意义。本文将用于人类行为识别的可解释的深度学习方法分为三类:传统方法,软注意力方法(Soft Attention)和硬注意力方法(Hard Attention)。

表 1. 常用的公共数据集。

本文为机器之心发布,转载请联系本公众号获得授权。

本文分享自微信公众号 - 机器之心(almosthuman2014),作者:Synced

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-02-02

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 业界 | 分子性质预测新突破:谷歌新型神经网络助力化学研究

    选自Google Research Blog 作者:George Dahl 机器之心编译 参与:吴攀 理论上讲,由原子构成的分子种类的数量是无穷大的。要了解这些...

    机器之心
  • 业界 | 《硅谷》中的「See Food」不仅是真实的应用,还有真实的故事

    机器之心报道 作者:李泽南 「我们知道杨靖的 app 是在食品领域中的,但我们假设它的实现基于手机摄像头,」HBO《硅谷》第四季中硅谷的投资人这样说道。「比如,...

    机器之心
  • CCKS 2020「基于标题的大规模商品实体检索」竞赛冠军,DeepBlueAI团队技术分享

    第十四届全国知识图谱与语义计算大会(CCKS 2020) 11 月 12 日至 15 日在江西南昌举行,CCKS(China Conference on Kno...

    机器之心
  • xUtils3同步方法getSync(),postSync()使用

    现在Android前端开发,流行的开发框架是RxJava2+Retrofit2+OKHttp模式。当然既然大流如此,当然有它的过人之处,用过后我个人感觉确实牛逼...

    紫兮木溪
  • linux 查看日志的几种基本操作

    注意:>意思是创建,>>是追加。千万不要弄混了。 cat其他参数与tail 类似

    菲宇
  • 加密数字货币乌托邦:上半年加密数字货币报告

    本报告为AUTONOMOUS NEXT继去年发布的《代币狂热》(《Token Mania》)之后的又一部关于数字货币的全面报告,报告关键要点:

    点滴科技资讯
  • [iOS] 技术文章收藏

    现在关注了一些微博,订阅号,博客。每天都能看到不少好文章。现在收藏夹里放了不少文章,我觉得是时候整理一下,把文章分各类,做个目录出来,方便以后查阅。

    wOw
  • 在.Net Core中使用MongoDB的入门教程(二)

    在上一篇文章中,讲到了MongoDB在导入驱动、MongoDB的连接,数据的插入等。 在.Net Core中使用MongoDB的入门教程(一) 本篇文章将接...

    码农阿宇
  • geotrellis使用(二十二)实时获取点状目标对应的栅格数据值

    目录 前言 实现方法 总结 一、前言        其实这个功能之前已经实现,今天将其采用1.0版的方式进行了重构与完善,现将该内容进行总结。        其...

    魏守峰
  • 利用requests和正则表达式抓取猫眼电影top100

    刚学了正则表达式,赶紧用它来练练手,以防搞忘了。这次练习的目标比较简单,就是爬取猫眼电影top100,具体包括电影排名,片名,主演,上映时间,评分等信息。最后存...

    爱吃西瓜的番茄酱

扫码关注云+社区

领取腾讯云代金券