前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >SpikMamba 当基于事件的动作识别中的 SNN 与 Mamba相遇 !

SpikMamba 当基于事件的动作识别中的 SNN 与 Mamba相遇 !

作者头像
未来先知
发布2024-11-12 15:18:36
发布2024-11-12 15:18:36
4400
举报
文章被收录于专栏:未来先知未来先知

人类行为识别(HAR)在视频分析、监控、自动驾驶、机器人技术和医疗保健等领域发挥着关键作用。大多数HAR算法都是从RGB图像中发展出来的,这些图像可以捕捉到详细的视觉信息。 然而,这些算法在隐私敏感的环境中引发担忧,因为它们记录了可识别的特征。事件相机提供了一种有前景的解决方案,它通过在像素级稀疏地捕捉场景亮度变化来捕捉场景,而不捕捉完整的图像。此外,事件相机具有很高的动态范围,可以有效地处理具有复杂照明条件(如低光或高对比度环境)的场景。 然而,使用事件相机在处理HAR中的空间稀疏和高时间分辨率的事件数据建模方面存在挑战。为了解决这些问题,作者提出了SpikMamba框架,该框架将脉冲神经网络的能效与Mamba的长期序列建模能力相结合,以有效地捕捉空间稀疏和高时间分辨率的事件数据中的全局特征。 此外,为了提高建模的局部性,作者使用了基于脉冲窗口的线性注意机制。大量实验表明,SpikMamba在PAF、HARDVS、DVS128和E-Action数据集上的识别性能分别比以前最先进的水平提高了1.45%、7.22%、0.15%和3.92%。 代码可从https://github.com/Typistchen/SpikMamba获得。

1. Introduction

人机行为识别(HAR)旨在对人类行为和动作进行分类 [24, 28]。它已经被应用于各种领域,如机器人导航 [35, 51],医疗保健 [5],以及异常人类行为识别 [26, 41]。大多数HAR方法都是针对RGB图像开发的。尽管它们实现了高性能,但不可避免地记录了人类隐私信息,例如面部特征,这为在隐私敏感环境下部署带来了挑战和担忧 。因此,作者提出一个问题:作者能否设计一个框架,既能有效保护用户隐私,又能准确识别人类行为?

事件相机是一种新型的传感器,灵感来源于人眼的工作机制 。与传统RGB相机记录所有像素强度不同,事件相机异步且稀疏地检测光强度变化,具有微秒级的时序分辨率和高的动态范围 。这意味着与隐私相关的特征通常被忽略,例如面部纹理。尽管使用事件相机数据进行人机行为识别(HAR)可以解决用户隐私问题,但它为HAR框架带来了新的挑战:

1)事件流是空间稀疏的,需要模型将来自不同时间的事件关联起来以捕获有意义特征。

2)事件流具有高时序分辨率,导致需要高效处理大量事件。

在本论文中,作者旨在设计一个事件为基础的HAR框架,以解决这些挑战,同时保持高性能。

现有的基于事件的HAR方法是基于人工神经网络(ANN)或尖峰神经网络(SNN)开发的。为了处理事件相机数据的时空稀疏性,基于ANN的方法(图1(a))通常使用注意力机制、卷积神经网络或图卷积网络来增强从稀疏事件数据中提取的特征。为了提高计算效率,这些方法在时间维度上对事件数据进行下采样,例如[3]使用每0.35秒48ms的事件数据。然而,事件数据下采样会丢失关于人类动作的细粒度信息,这可能有助于提高模型性能。

设计上,SNNs(图1(b))通过事件驱动的计算在时间动态上整合事件特征,有效地处理了事件相机数据的时空稀疏性,形成对场景的连贯理解。然而,现有的基于SNN的方法的计算通常仅限制在计算效率的局部时间上下文中,从而失去了事件数据的全局时间依赖性,无法准确识别人类动作。尽管注意力机制等方法可以应用于动态捕捉全局时间依赖性,但这样做往往降低了SNN的效率。

幸运的是,最近在状态空间模型方面的进展为动态建模具有高时间分辨率的数据提供了有效解决方案,为注意力机制提供了另一种选择。受Mamba和SNNs成功的影响,作者提出将这些方法结合在一起,以高效准确地识别人类行为使用事件数据。为此,作者是首先引入了SpikMamba,它具有基于事件的HAR的两个关键设计。

为了应对事件相机数据的空间稀疏和高时间分辨率,作者模型化了事件数据的全局和局部时间依赖性(图1(c))。首先,作者构建了一个仅包含0s和1s的脉冲形式(即Mamba块)来全局模拟事件数据之间的相互依赖。其次,为了增强脉冲特征的局部性,作者对不同时间窗口的事件数据应用基于脉冲的线性注意机制。为了验证作者框架的有效性,作者使用常见的基于事件的数据集进行实验,结果表明作者的方法超越了先前的最先进方法。

总的来说,作者的主要贡献有:

作者提出了一个名为SpikMamba的框架,利用事件数据有效地、准确地识别人类行为。

作者探索了Mamba和基于窗口的线性注意脉冲基机制,用于模拟事件数据中的全局和局部时间依赖性。

作者使用常见的基于事件的HAR数据进行实验,以展示作者相对于现有最先进算法具有优越性能。

2. Related Work

在本节中,作者简要介绍了基于事件的HAR的ANN(人工神经网络)、基于事件的HAR的SNN(单神经网络)以及状态空间模型。

基于事件的HAR的ANN方法通常使用CNNs,ViTs 和GCNs来提取稀疏事件数据特征。EV-ACT(Kumar et al., 2018)采用具有空间-时间注意力的CNN进行动作识别,而将事件数据适应到CNNs使用事件记忆表面。

ViTs采用基于patch的和小块 Transformer 编码器进行高效的时空特征提取,而GCNs(Wang et al., 2020)管理稀疏、异步结构。然而,大多数基于ANN的HAR方法忽视了空间稀疏和高时间分辨率的问题。作者的SpikMamba网络有效解决了这两个问题。

状态空间模型。状态空间模型(S4)是长程依赖建模的CNNs和Transformer的替代方案。Mamba已被应用于事件数据,其中(Wang等人,2020年)集成了一个用于时间处理的脉冲前端,而(Wang等人,2020年)则使用线性复杂度状态空间模型进行跟踪。作者的研究结合了Mamba在时间序列上的优势以及SNNs在稀疏事件数据上的效率,提出了SpikMamba网络。

3. Method

Preliminaries

神经网络(SNN)的核心是突触神经元,这些神经元接收输入信号 ,并在每个时间步 积累膜电位 。

当细胞膜电位 超过阈值 时,会触发一个尖峰 ,并将细胞膜电位重置。在作者的研究中,作者采用了泄漏积分和放电(LIF)尖峰神经元(Selvin等,2017)。LIF 的数学表示可以总结如下:

当 是膜时间常数, 表示一个Heaviside阶跃函数,当 时,会引发一个尖峰(输出为1),膜电位 在尖峰被引发时会重置为 。

以下是我为您翻译的中文内容:

Mamba受到启发于一种连续系统,该系统将序列 映射到 ,使用隐含时间状态 。在每个时间步长 处,映射通过状态-空间方程进行计算:

在Mamba中,状态空间方程通过零阶保持(ZOH)方法离散化,将参数连续系统A和B转换为具有时间标度参数Δ的离散版本A'和B',以控制离散化过程的步长。Z'[t]是一个占位符变量,A是系统演化矩阵,B和C是投影矩阵。

是单位矩阵, 表示元素乘法。Mamba 还使参数 、 和 依赖于输入 ,以计算 和 。此外,它使用一个在不同的时间步上共享的全卷积来计算输出 。

SpikMamba

作者采用Selvin等人(2017年)提出的表示方法,将事件数据转换为三个通道的事件图像 ,其中 、 和 分别表示事件图像的时域维度、高度和宽度。作者使用SpikMamba(图2)预测事件图像 的动作类别,该模型包含两个主要模块:i) 尖峰3D卷积嵌入。

它将事件帧 划分为patch,并使用SNN计算patch嵌入 。ii) SpikMamba块。它封装基于窗口的线性注意力和Mamba到SNN,以模拟事件数据的局部和全局时间依赖性,从而实现HAR。最后,SpikMamba块生成的嵌入经过池化后,通过一个最终的线性层进行分类。

如图2所示,作者首先将事件帧X划分为patch,然后将它们映射为spike-form特征。与ViT类似,作者在跨patch的共享参数卷积层中计算patch embedding P。

其中,,, 分别表示脉冲层、批量归一化层和卷积3D层,步长为 ,核大小为 ,而 PE 表示在位置和时间维度引入归纳偏置的patch嵌入。

虽然可以有多层3D卷积层用于逐步计算patch嵌入,但作者的实验表明,单层卷积3D层就足够准确地识别人类动作,而且是最有效的方法。

SpikMamba Block. 事件帧X的块嵌入被发送到个SpikMamba块。在SpikMamba块中,它包括一个基于窗口的尖峰线性注意层SpikeSLA 一个尖峰Mamba层 SpikeMamba 和一个 FFN FFN。为了简洁起见,作者不区分不同Mamba块索引之间的计算:

分别为各自层生成的输出特征图的Patch Embedding。

在基于窗口的脉冲线性注意力层中,作者将卷积嵌入 Reshape 为不同的窗口,并使用线性层将卷积嵌入映射为脉冲形式的 Query 、键和值。作者使用脉冲形式的 Query 和键,而连续的值用于改善特征表示。

然后,作者使用线性注意力层(来自(Golovne和Bengio,2013)和尖峰层来计算嵌入。

将通过一个线性输出层 映射到 patch embedding ,并经过 Reshape 后,与 进行哈达马乘法。

为了在 中建模时间全局依赖性,作者的尖峰 Mamba 层 使用一个线性层 和一个一维卷积层 以及尖峰层 和 来扩展 的维度。

并预测Mamba中的状态空间方程的演化矩阵A、B以及时间尺度参数Δ,其中使用线性v(Linear v)、线性C(Linear C)和线性A(Linear A)。

其中,是一个可训练的偏置。在可训练的系统演化参数,和下,和分别被离散化为和(Golovne和Bengio,2013)。

使用尖峰层计算状态空间方程,并经过与的哈达马乘积。

然后,全局输出被传递到前馈层。

预测。作者从SpikMamba块的输出特征中使用全局平均池化进行池化,并使用线性层预测人类动作。

在训练过程中,预测值 优化为与真实人类动作类别一致的交叉熵损失。

4. Experiments

Dataset and Implementation details

作者使用四个数据集来评估作者的模型SpikMamba的性能。这些数据集包括PAF(Spielman等人,2017年),HARDVS(Wang等人,2019年),DVSGesture(Chen等人,2019年)和E-FAction(Spielman等人,2017年)。

具体而言,1) PAF(Spielman等人,2017年)是一个使用DVSIS346事件相机收集的人体动作数据集,包含10个类别,每个类别有45个样本。

2) HARDVS(Wang等人,2019年),这是一个最近发布的数据集,拥有最多的动作类别和样本,共有300个类别和107,646个记录。3) DVSGesture(Chen等人,2019年)捕获了手和手臂的运动,包含11个动作类别,分辨率为128128。4) E-FAction(Spielman等人,2017年)数据集有128个人动作类别,总共1024个记录,分辨率为346260。作者在图3中展示了这些数据集的示例。

实现细节:作者采用AFE表示(Spielman等人,2017年)将事件流压缩为事件帧。作者的SpikMamba模型包含一个电突触3D Patch 嵌入层和两个SpikMamba块用于特征提取。作者使用隐状态维度为256,并将状态空间方程的状态维度扩展到256(通过)。状态空间方程在2048维中运行。

FFN 的隐维度为1024。在训练中,作者使用Adam优化器,权重衰减为。学习率初始化为,并采用CosineAnnealingLR(Spielman等人,2017年),最小学习率为。作者的模型在两个NVIDIA 4090 GPU上训练了100个周期,批处理大小为32。作者的代码将在未来用于研究和比较。

作者的研究结果如下:

1)在作者的四个数据集上,作者的方法分别取得了96.28%、97.32%、99.01%和71.02%的最优准确率。

2)与基于ANN的ExACT(第二高准确率)相比,作者的方法在准确率上分别提高了1.45%、7.22%、0.33%和3.09%。

3)在HARDVS数据集上,作者的SpikMamba和ExACT在与其他方法相比表现出显著的改进,准确率提高了35%以上。此外,作者的SpikMamba还通过提高ExACT的准确率额外提高了7.22%。

4)在DVGesture数据集上,最先进方法的最高准确率已经是98.86%,但作者的SpikMamba将其提高到了99.01%。

5)与四个数据集上第二高的SNNs(次高准确率)相比,作者的SpikMamba在PAF和DVSGesture数据集上的准确率分别提高了6.14%和2.81%,这是第一个比ANN方法更好的SNN方法。

Ablation Studies

在表2中,作者消融了作者的模型中的SpikeSLA和SpikMamba层。作者发现:1)仅使用作者模型的SpikeSLA层,网络在捕捉高时间分辨率事件数据中的长期/全局信息方面的能力显著下降,准确率分别为97.12%,95.33%,98.17%和70.66%。2)当作者从作者的模型中移除SpikeSLA层时,作者观察到准确率的显著下降。平均下降为19.73%。

考虑到四个数据集中的动作持续时间主要在5到7秒之间,动作的关键帧很可能是短期,构成了动作的主要特征。因此,当从作者的模型中移除SpikeSLA时,网络无法有效地增强HAR的特征局部性。3)具有SpikeSLA和SpikMamba层的模型高效且准确地模拟了事件数据的全球和局部时间依赖性,并具有最佳性能。

Discussion

注意力图(Attention Map) 在图4中,作者展示了SpikMamba在最后一个时间步的注意力图。为了清晰起见,作者提供了由SpikMamba生成的RGB图像的注意力图。注意区域用白色 Token ,低注意区域用黑色 Token 。作者的SpikMamba有效地捕获了具有人类动作的图像区域。

计算效率。作者在表3中比较了最新的ExACT和EvT神经网络和SNN方法在计算效率方面的表现。作者的方法有0.18M的参数,比ExACT和EvT少了1.95M和0.30M。SpikMamba、ExACT和EvT的FLOPs分别为0.12、1.1和0.2 GFLOPs。

作者的SpikMamba将SNN和Mamba相结合,以高效地捕获事件数据中的全局依赖性,并使用基于尖峰窗口的线性注意机制来模拟事件数据的局部依赖性,实现了在HAR中计算效率和性能之间的平衡。作者的方法具有最少的参数和FLOPs,同时比最先进的神经网络和SNN方法实现了更好的HAR性能。

ANN与SNN。为了探索SpikMamba的性能,作者删除了SNN层模块。它基于窗口线性注意力和Mamba构建了一个ANN模型,对于四个数据集的结果分别为94.53%、92.47%、98.01%和67.77%。与SpikMamba相比,ANN方法在所有四个数据集上的性能都有所下降,平均降低了2.71%。

显然,基于SNN的Mamba和线性注意在事件数据上更为适用。作者认为这是因为SNN的稀疏性和事件数据的稀疏性之间存在对齐,使得基于SNN的Mamba和线性注意能够有效地、准确地模拟事件数据的整体和局部依赖性,从而在HAR中取得更好的效果。

5. Conclusion

在本文中,作者提出了一个名为SpikMamba的基于事件数据的智能活动识别(HAR)方法。

使用事件数据进行HAR在从空间稀疏和高时间分辨率的事件数据中有效捕捉有意义特征方面面临挑战。

通过利用尖峰神经网络(SNN)的能量效率和Mamba的长时间序列建模能力,SpikMamba有效地捕捉了稀疏和高时间分辨率事件流的全局依赖性。

此外,作者提出了一种基于尖峰窗口的线性注意机制,以增强HAR中事件数据的局部建模。

在常见的基于事件的数据集上的实验表明,与现有的最先进的ANN和SNN方法相比,作者的性能更优越。

参考文献

[0]. SpikMamba: When SNN meets Mamba in Event-based Human Action Recognition.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-11-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 未来先知 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. Introduction
  • 2. Related Work
  • 3. Method
    • Preliminaries
    • SpikMamba
  • 4. Experiments
    • Dataset and Implementation details
    • Ablation Studies
    • Discussion
  • 5. Conclusion
  • 参考文献
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档