Vector-Symbolic Architecture for Event-Based Optical Flow
基于事件的光流矢量符号体系结构 https://arxiv.org/abs/2405.08300
摘要
从特征匹配的角度来看,事件摄像头的光流估计涉及通过比较伴随事件帧之间的特征相似性来识别事件对应关系。在这项工作中,我们为事件帧引入了一种有效且稳健的高维(HD)特征描述符,利用向量符号架构(VSA)。VSA中相邻变量之间的拓扑相似性有助于增强流匹配点的特征描述符的表示相似性,而其结构化符号表示能力有助于融合来自事件极性和多个空间尺度的特征。基于这种HD特征描述符,我们为基于事件的光流提出了一种新的特征匹配框架,包括基于模型(VSA-Flow)和自我监督学习(VSA-SM)方法。在VSA-Flow中,准确的光流估计验证了HD特征描述符的有效性。在VSA-SM中,提出了一种基于HD特征描述符的新颖相似性最大化方法,以自我监督的方式从事件中学习光流,无需辅助灰度图像。评估结果表明,我们的基于VSA的方法在DSEC基准测试中与基于模型和自我监督学习方法相比实现了更高的准确性,同时在MVSEC基准测试中与这两种方法保持竞争力。这一贡献标志着基于事件的光流在特征匹配方法中的重大进步。关键词:向量符号架构、光流、事件摄像头、特征匹配
1 引言
事件摄像头是一种生物启发的视觉传感器,可以异步提供每像素的亮度变化作为一个事件流Gallego等人(2020)。利用其高时间分辨率、动态范围和低延迟,这些摄像头有可能提高运动估计的准确性,特别是在光流Benosman等人(2013);Almatrafi等人(2020)中。然而,与传统摄像头相比,基于事件的光流估计由于其异步和稀疏的事件视觉信息以及获得光流地面实况的难度而面临挑战Gallego等人(2020);Shiba等人(2022)。因此,开发利用事件数据独特特性的无监督光流方法至关重要,消除对昂贵且容易出错的地面实况的依赖Shiba等人(2022)。
光流估计涉及找到在不同时刻捕获的图像之间的像素对应关系。特征匹配方法,一种基于事件的光流的基本方法,依赖于最大化伴随帧之间的特征相似性Gallego等人(2020)。在这种方法中,每个事件通常由事件帧中相应像素周围的图像模式表示Liu和Delbruck(2018,2022)。然而,事件的固有随机性Gallego等人(2020)导致同一物体在不同帧中的图像模式不一致,给获取准确和稳健的特征描述符带来了挑战。由于缺乏有效的仅事件局部特征描述符,基于事件的光流特征匹配方法通常仅限于估计关键点稀疏光流,显示出次优性能Liu和Delbruck(2018,2022)。
在自我监督学习过程中,如果没有恢复亮度或额外的传感器信息(如灰度图像)Zhu和Yuan(2018);Hagenaars等人(2021);Deng等人(2021);丁等人(2022),准确的密集光流估计变得具有挑战性。在这项研究中,我们为事件帧引入了一个高维(HD)特征描述符,利用向量符号架构(VSA)。VSAs以其利用高维分布式向量的有效性而闻名Kleyko等人(2021,2023),传统上被用于人工形状的符号表示Karunaratne等人(2021);Renner等人(2022a,b);Hersche等人(2023)或少量学习分类任务Hersche等人(2022);Karunaratne等人(2022)。在这项工作中,VSAs构成了我们新颖描述符的基础,该描述符由事件摄像头捕获的自然场景组成。该描述符利用VSA中相邻变量的局部相似性特征Frady等人(2021);Renner等人(2022a)来减少事件随机性对表示准确性的影响。采用结构化符号表示Komer(2020),它实现了多空间尺度和双极性特征融合以获得特征描述符。我们在DSEC和MVSEC数据集上对流动匹配点的描述符相似性进行了评估,证明了我们的方法的有效性。
此外,我们专注于一个统一的框架,用于基于事件的光流内的特征匹配策略,围绕提出的HD特征描述符。基于模型的VSA-Flow方法,源自该框架,利用HD特征描述符的相似性来实现更准确的密集光流。在逐渐下采样的尺度上,三个事件帧对的成本体积中的相似性积分,时间间隔逐渐翻倍,使VSA-Flow能够在有限的邻近区域内实现大光流估计。同时,提出的VSA-SM方法依赖于预测流匹配点的相似性最大化(SM)代理损失。这种新颖的自我监督学习方法有效地从仅事件HD特征描述符中估计光流,消除了对额外传感器信息的需要。评估结果显示,我们在DSEC-Flow基准测试的基于模型和自我监督学习方法中获得了最佳准确性,并在MVSEC基准测试中表现出了竞争力。
2 相关工作 2.1 基于事件的光流估计
从方法论的角度来看,基于事件的光流估计包括三种主要方法Gallego等人(2020)。第一种方法是基于梯度的方法,它利用事件数据直接提供的空间和时间导数信息,或在适当处理后计算光流Benosman等人(2012,2013)。先前的研究探讨了基于事件的Horn-Schunck和Lucas-kanade Horn和Schunck(1981);Lucas和Kanade(1981);Benosman等人(2012);Almatrafi和Hirakawa(2019),距离表面Almatrafi等人(2020);Brebion等人(2022)和时空平面拟合Benosman等人(2013);Akolkar等人(2020)。
第二种方法是特征匹配方法,它通过评估连续事件帧之间单个像素的特征表示的相似性或相关性来计算光流。例如,基于模型的EDFLOW通过应用自适应块匹配Liu和Delbruck(2018,2022)来估计光流。同时,这种方法经常用于设计基于学习光流的神经网络,这些网络包含能够计算特征相似性或相关性的成本体积模块,如E-RAFTGehrig等人(2021b)和TMA Ye等人(2023)。此外,将辅助灰度图像视为低维特征,EV-FlowNet通过最小化基于估计光流的扭曲图像之间的强度差异来进行自我监督学习Zhu和Yuan(2018)。
第三种方法,专用于事件摄像头,是对比度最大化方法。这种方法最大化一个目标函数,通常与对比度有关,以量化由同一场景边缘生成的事件的对齐Stoffregen和Kleeman(2018);Gallego等人(2018,2019)。基本思想是通过重建触发事件的边缘模式的清晰运动补偿图像来估计运动。这种方法不仅可以应用于基于模型的光流估计Shiba等人(2022),而且经常用作无监督和自我监督光流学习的损失函数Shiba等人(2022);Ye等人(2020);Paredes-Vallés和de Croon(2021);Hagenaars等人(2021);Paredes-Vallés等人(2023)。
与先前的工作相比,我们提出的基于VSA的基于事件的光流框架采用了经典的特征匹配方法,以深入了解问题。该框架适用于基于模型和自我监督学习方法,类似于对比度最大化方法Gallego等人(2018);Shiba等人(2022)。特别是,框架中的自我监督学习方法可以仅从仅事件VSA-based HD特征描述符实现准确的光流,消除了对辅助灰度图像的需求。
2.2 使用向量符号架构的高维图像表示
向量符号架构(VSAs)被认为是一种强大的算法框架,利用高维分布式向量并采用特定的代数运算和结构化符号表示Kleyko等人(2021,2023)。
VSAs在各种领域展示了显著的能力,包括空间认知和视觉场景理解。通过空间索引向量的叠加,按其相应的图像像素值加权,实现了彩色图像和事件帧的超向量编码,包括人工形状Renner等人(2022b,a)。这些HD表示在神经形态视觉场景理解Renner等人(2022b)和视觉里程计Renner等人(2022a)中找到应用。利用VSAs的结构化符号表示能力,采用生物学启发的空间表示来生成层次化的认知地图,每个地图包含不同位置的对象Komer(2020)。此外,已经引入了几种基于VSA的方法作为系统聚合图像描述符的框架,适用于视觉地点识别Neubert和Schubert(2021);Kempitiya等人(2022)。总的来说,VSA赋予图像HD表示以层次结构和语义的内在属性。
基于特征匹配方法的光流估计需要准确表示包含单个像素及其上下文特征的特征描述符。与之前的工作不同,我们采用了一种特定类型的VSA,向量函数架构(VFA),它体现了连续的相似性特征,以减少事件随机性的影响。这种特定的VSA被用作HD内核,从事件帧中提取局部特征信息。同时,光流估计模型通常采用多尺度金字塔设计来提高性能。利用VSA中结构化特征的绑定能力,我们将来自多个尺度和两个事件极性的HD特征表示合并到一个统一的特征描述符中。
3 方法论 3.1 初步
VSAs构成了一类具有向量表示的计算模型,具有两个独特的属性Kleyko等人(2021);Frady等人(2021)。首先,符号由相互正交的随机d维向量(∈R^d)表示,这有助于明确区分不同的符号。其次,VSAs中的所有计算都可以由一组有限的基本向量代数运算组成,其中主要的运算是绑定(◦)和叠加(+)运算。绑定操作通常表示符号之间的关联,例如一个roll-filler对Kanerva(2009),而叠加操作经常用于表示符号集。这两种操作都不会改变超向量的维度。通过这些操作和符号的组合,VSAs可以有效实现结构化的符号表示。例如,考虑一个字符1位于位置PA,2位于位置PB的给定图像的场景。这幅图像的超向量符号表示可以表示为I = PA ◦ One + PB ◦ T wo,其中PA,PB,One和T wo
表示相应概念的相互正交的随机超向量。
VSAs有多种模型,使用不同类型的随机向量Kleyko等人(2021)。在这项研究中,改进的全息约简表示(HRR)被用作VSA模型,以确保高概念检索效率Ganesan等人(2021)。对于HRR,绑定操作是两个超向量的循环卷积,叠加操作是分量求和。此外,两个HRRs之间的相似性可以通过余弦相似性来衡量。
在这项工作中,从事件帧中提取特征需要基于VSA的2-D空间表示。在这里,我们首先引入分数幂编码(FPE)方法Plate(1992,1994)来表示图像平面中每个坐标轴上的整数,然后是基于VSA的空间表示。
3.1.1 分数幂编码方法
在分数幂编码方法Plate(1994)中,让x ∈ Z是一个整数,X
是一个随机超向量,任何整数x的超向量表示z(x)
可以通过重复地将基向量X与其自身x次绑定来获得,如下所示:
其中最右边的等式表示通过在复数域中表示它的分数绑定操作Komer(2020);Frady等人(2021)。F{·}是傅里叶变换,F{·}x是对应复向量的分量指数。
3.1.2 基于VSA的空间表示
最近的研究表明,使用带有FPE的VSA可以获得2-D空间中点(x,y)的超向量空间表示D(x,y)∈ Rd,如下所示:
这项工作的目标是建立一个新颖的框架,用于基于事件的光流利用VSA,适用于特征匹配方法中的基于模型和自我监督学习方法。光流估计涉及找到在不同时间间隔捕获的图像之间的像素对应关系。有效的活动表示和精确的特征描述符在框架中是必不可少的。
事件摄像头是一种创新的生物启发式传感器,通过连续的事件流E = {e1, e2, · · · }以稀疏和异步的方式响应亮度变化。每个事件ek = (xk, yk, tk, pk)包括具有极性pk ∈ {+, −}的时空坐标。在这项工作中,我们使用一种称为累积时间表面(TS)的事件表示Lagorce等人(2016);周等人(2021)。像素(x,y)和时间t处的累积TS定义如下:
这里,τT S表示指数衰减率,tj表示在时间t之前发生在像素(x,y)的任何事件的时间戳。因此,累积TS模拟了接收事件流后发生的突触活动。
3.2.2 基于VSA的HD内核用于特征提取
利用方程2中描述的空间表示,图像T ∈ RH×W中以像素(x,y)为中心的N × N邻域的HD特征表示F(x,y)∈ R^d可以使用以下公式编码为一个超向量Renner等人(2022b):
原则上,特征描述符需要捕捉事件帧的各种图像模式之间的差异,以及在可比较的图像模式之间展示相似性,随着图像模式的变化显示出一定程度的连续相似性。然而,方程2和4中定义的基本VSA空间表示由于其伪正交性质(图1a)忽略了2-D空间中的重要拓扑相似性关系Frady等人(2022)。考虑到同一对象在不同时间的事件表示中的固有随机性,空间表示D(方程2)不适合作为HD内核,用于涉及特征匹配的任务中从事件帧中提取特征。
最近的研究表明,向量函数架构(VFA)Frady等人(2021)和高维变换Dewulf等人(2023)表现出连续的平移不变相似性核。受到这些发现的启发,为了简单起见,我们在这里使用具有拓扑相似性的高斯平滑HD内核K ∈ R^d×N×N来实现累积TS的HD特征描述符,如下所示:
这里,G表示标准差为σK的二维高斯核,使HD内核K具有平移不变的相似性和类似于VFA的特性(图3,方程12和定理1,Frady等人(2021))。因此,我们认为K是VFA的特定实例。相应的超向量空间表示在2-D空间内表现出拓扑相似性关系(图1b)。与基本VSA(方程2)相比,VFA(方程6)中空间表示的局部相似性特征可以有效帮助特征描述符减少事件随机性对表示准确性的影响。除非明确说明,否则以下部分中使用的VSA是VFA。
3.2.3 基于VSA的HD特征描述符
受经典估计方法的启发,时间t的特征描述符是通过多尺度策略获得的Black和Anandan(1996);Méemin和Pérez(2002)。在这里,基于VSA的HD特征描述符包括三个步骤(图2a):将事件流转换为多个尺度的极性依赖累积TSs;通过合并来自两种极性的TSs为每个尺度生成HD特征描述符;并将来自各种尺度的HD特征描述符合并到原始尺度TSs的最终HD描述符中。在这里,我们利用角色填充绑定Kleyko等人(2021)来实现HD特征的融合,从而实现多尺度和双极性HD特征描述符的结构化表示。
3.2.4 框架描述
光流估计涉及识别在两个不同时间点捕获的图像之间的像素对应关系。特征匹配方法的基础在于这样一个假设:与其他像素相比,准确估计的光流信息与伴随事件帧中相应像素之间的高相似性相对应。这里的基于VSA的特征匹配框架包括两个主要步骤:1)利用基于VSA的HD内核导出连续事件帧的HD特征描述符,以及2)使用搜索和优化(对于基于模型的方法)或具有代理损失的神经网络(对于自我监督学习方法)等算法。这两种方法都旨在通过最大化流匹配点的特征描述符的相似性来估计光流。接下来,我们将这个框架应用于基于模型的方法(VSA-Flow)和自我监督学习方法(VSA-SM)进行基于事件的光流。
3.3 VSA-Flow:使用VSA的基于模型的方法
VSA-Flow的细节如图2b所示,包括三个主要组件:HD特征提取器、成本体积模块和流生成器。HD特征提取器负责从累积TSs中获得相应的基于VSA的HD特征描述符,这对于光流估计至关重要。成本体积模块通过构建一个表示所有TSs对之间相似性的体积来计算局部视觉相似性。最后,光流估计器基于局部视觉相似性生成光流。
3.3.1 (HD)特征提取器
基于事件的光流估计的准确性受到事件的随机性质的阻碍,特别是当仅依赖于两个具有时间差Δt的累积时间戳(TS)时。为了解决这个限制,并将更全面的时间中间运动信息纳入我们的方法中,我们包含了在时间0、Δt/4、Δt/2和Δt捕获的累积TS,每种都有两个极性,如图2b中连续表示为Tp_s,t(s = 0, p ∈ {+, −} 和 t = 0, 1, 2, 4)。通过利用这个扩展的事件帧集,我们可以从时间0到Δt实现更精确的光流估计。值得注意的是,后三个时间点遵循一种渐进的翻倍模式(×2),这将在后续的小节中进一步解释。之后,使用图2a中描述的高密度特征提取器获取与上述事件帧相对应的高密度特征描述符F_t(t = 0, 1, 2, 4)。
3.3.2 成本体模块
这里,d0表示从尺度s到尺度0转换的ds的相应位移。假设光流v在间隔期间是恒定的,方程11揭示了ds独立于尺度,并且在不同尺度上保持不变。这表明成本体积C02s(s = 0, 1, 2)在不同尺度上理论上应该是相同的。因此,通过将不同尺度的所有成本体积上插值到尺度0的相同大小,我们得到最终的成本体积C ∈ RH×W×M×M,作为所有成本体积的总和(图2b)。在这里,从三个事件帧对的成本体积中的相似性积分,时间间隔逐渐翻倍,尺度逐渐下采样,使VSA-Flow能够在有限的M × M邻近区域内实现大光流估计。
3.3.3 光流估计器
在这个模块中,我们采用光流概率体积结合光流位置的先验信息的方案来估计光流(图2b)Cao等人(2023)。光流概率体积基于最终成本体积C预测每个像素在M × M局部区域内的光流概率P ∈ RH×W×M×M。光流位置的先验信息由预定义的2D网格模板Tf low ∈ R2×M×M提供,该模板包含与光流概率体积对齐的所有可能光流方向。
光流概率体积P的计算如下:
3.4 VSA-SM: 一种通过相似性最大化的自监督学习方法
在这里,我们采用一种自监督的方法,通过最大化高清特征描述符的相似性来从累积时间序列中学习光流估计(图3)。我们使用经典的多帧方法进行光流细化,如图3a所示。在时间间隔∆t内,我们从相应的累积时间序列中以∆t/K(K = 5)的间隔提取高清特征描述符,得到一组K + 1个描述符,表示为F_k(k = 0, ..., K)。假设时间间隔∆t内的光流表示为U,则描述符F_0与描述符F_k之间推测的光流等于kU/K。因此,我们利用K对描述符(F_0 → F_k,其中k = 1, ..., K)在自监督学习的背景下促进光流细化。已知每像素的光流u(x) ∈ U,在时间k/K ∆t时的匹配点可以通过以下方式获得:
然而,匹配点x'i可能不对应于实际像素。因此,F0中xi的HD特征描述符与Fk中匹配点x'i的相似性是通过评估其与Fk中匹配点x'i周围4个相邻像素x'i(j = 0, ..., 3)的描述符的相似性来计算的,通过双线性插值进行归一化权重w'i(j = 0, ..., 3)(图3b):
在这项研究中,我们使用特征匹配的相似性最大化代理损失来学习估计基于事件的光流,如方程16所示。基于之前强调对比度最大化的无监督学习方法的原则Shiba等人(2022);Paredes-Vallés等人(2023),我们构建损失函数L如下:
这是两个术语的加权组合:相似性损失Lsimilarity和平滑度Lsmooth。相似性损失的计算涉及N个像素,包括在时间0之前发生的最新事件,以及在图像平面上水平和垂直方向每隔5个间隔采样的像素(图3a和3b)。相似性损失的公式如下:
这里,⟨sim⟩表示涵盖K对描述符内所有相关像素的平均相似性,而α作为一个系数。⟨sim⟩的值越高,对应的光流估计越准确,相似性损失函数越小。此外,平滑度Lsmooth采用Charbonnier平滑度先验Hagenaars等人(2021);朱等人(2019)或一阶边缘感知平滑度Stone等人(2021)。
在这项研究中,我们以自我监督的方式训练E-RAFT Gehrig等人(2021b),利用方程17中描述的损失函数,以证明我们基于HD特征描述符相似性最大化的自我监督学习方法的有效性。原则上,这种方法适用于各种基于事件的光流网络。同时,我们采用全图像扭曲技术Stone等人(2021)来提高图像边界附近的流质量。
4 实验 4.1 数据集、指标和实现细节
按照之前的工作Gehrig等人(2021b);Shiba等人(2022),VSA-Flow和VSA-SM都在成熟的基于事件的数据集DSEC-Flow(640×480像素分辨率)Gehrig等人(2021b)和MVSEC(346 × 260像素分辨率)朱和袁(2018)上进行了评估。
对于基于模型的方法(VSA-Flow),实验在公共DSEC-Flow基准的官方测试集上进行,以及在MVSEC基准上具有时间间隔dt = 1, 4灰度图像的户外day1和三个室内飞行序列上进行。对于自我监督学习方法(VSA-SM),E-RAFT分别在DSEC的官方训练集和MVSEC的户外day2序列上进行训练。为了增加训练过程中光流幅度的变化,MVSEC上的训练序列扩展了时间间隔dt = 0.5, 1, 2, 4, 8灰度图像。经过单独训练后,分别在DSEC和MVSEC上对与VSA-Flow相同的测试集进行评估。两种方法都使用Pytorch库实现。对于VSA-SM训练,我们将批量大小设置为1,优化器设置为Adam Kingma和Ba(2014),学习率设置为1e−2。
我们使用以下指标评估预测的准确性:(i)EPE,端点误差;(ii)%1PE和%3PE,EPE大于1和3像素的点的百分比;(iii)AE,角度误差。对于DSEC-Flow Gehrig等人(2021a,b)和MVSEC朱和袁(2018)数据集,指标是在具有有效地面实况和在评估间隔内至少有一个事件的像素上测量的。
4.2 流匹配点的描述符相似性
在这项研究中,HD特征描述符是从使用基于VSA的HD内核的特征提取器中得出的。我们探讨了不同VSA类型(基本VSA和VFA)对DSEC和MVSEC数据集中流匹配点的描述符相似性的影响(图4)。
在基本VSA HD内核中,所有超向量都是伪正交的,这意味着邻域内的每个像素都独立地对特征描述符做出贡献。从基本VSA HD内核获得的特征描述符反映了最基本的图像模式。因此,图4(蓝色曲线)显示,MVSEC数据集中流匹配点的相似性低于DSEC数据集。这一观察表明,与DSEC数据集相比,MVSEC数据集在事件帧中经历了更大的随机性,导致事件帧质量较低。
图4(红色曲线)显示,与基本VSA相比,VFA产生了更高的流匹配点的描述符相似性。与基本VSA相比,VFA在编码事件帧中流匹配点的相似性方面表现出更好的能力。
4.3 在DSEC上的结果
表1展示了在DSEC-Flow基准Gehrig等人(2021b)上的评估结果。不同行中列出的方法分为三种类型:基于模型的方法(MB)、监督学习方法(SL)和自我监督学习方法(SSL)。我们方法括号中的“VFA”和“基本VSA”表示使用VFA(方程6)和基本VSA(方程2)HD内核用于特征描述符。需要注意的是,生成HD内核的空间基向量的随机性质会影响VSA-Flow方法的评估,VSA-Flow方法的所有评估指标代表从随机生成10组HD内核获得的统计结果。这包括每个指标的平均值和标准差。关于VSA-SM方法,由于其训练时间长,表1展示了基于训练期间使用的单组随机生成的HD内核的评估结果。
VSA-Flow(VFA)方法在DSEC-Flow数据集中的所有基于模型的方法中提供了优越的性能。特别是,EPE和3PE指标略优于其他方法,而1PE和AE指标显示出显著的改进。此外,很明显,在VSA-Flow中使用VFA作为HD内核比使用基本VSA带来了显著的性能提升,这与图4中的观察结果一致。在自我监督训练组中,提出的VSA-SM(VFA)方法在所有自我监督学习方法中展示了最佳结果。其在指标上的改进程度与VSA-Flow(VFA)的评估结果一致。
4.4 在MVSEC上的结果
表2报告了在MVSEC基准朱和袁(2018)上的评估结果。由于当d = 1024时所有指标的偏差较小(表3),为了简单起见,我们的方法在MVSEC上的评估结果来自单组随机生成的HD内核。与朱和袁(2018)以及Shiba等人(2022)一致,表2比较了一些使用相同训练和测试序列的主要方法。许多在其他户外序列或数据集上训练的基于学习的方法没有用于测试。
VSA-Flow方法在室内飞行序列中取得了所有方法中最好的结果,当dt = 4时,以及在dt = 1时的竞争结果。这些结果表明,基于HD特征描述符的基于模型的VSA-Flow方法非常适合大光流估计(dt = 4),并在低光流(dt = 1)时保持竞争力。此外,与室内飞行序列相比,VSA-Flow在户外白天序列中的性能竞争力较低。这种差异可能主要源于这样一个事实,与室内飞行场景相比,户外白天场景的运动较小,导致事件更稀疏朱等人(2019),从而影响HD特征描述符的表示。
如前所述,MVSEC上VSA-SM的训练序列扩展了时间间隔dt = 0.5, 1, 2, 4, 8灰度图像。因为VSA-Flow在大光流(dt = 4,表3)的情况下表现出相对较弱的性能,而在低光流(dt = 1,表3)的情况下,在VSA-SM的训练策略中,时间间隔dt = 0.5, 1, 2的光流预测分别乘以8、4和2的因子。随后,当dt = 0.5, 1, 2时,使用dt = 4的事件帧的高维特征描述符进行自我监督学习。评估结果表明,VSA-SM方法与其他自我监督学习方法相比具有竞争力的性能。此外,它在某些序列上优于一些使用灰度图像进行监督的半监督学习方法。
值得注意的是,许多学习方法,包括VSA-SM,在室内场景中的性能低于基于模型的方法。这种差异产生的原因是MVSEC的训练仅在户外day2序列上进行,但室内和室外序列包含不同的场景信息。
4.5 在DSEC上的定性结果
图5显示了VSA-Flow和VSA-SM方法在DSEC-Flow数据集测试分区多个序列上的定性结果。由于官方测试集没有提供地面实况,因此与最先进的E-RAFT架构Gehrig等人(2021b)进行了比较。我们的基于模型和自我监督学习方法可以从事件中实现高质量的基于事件的光流估计,而不需要额外的感官信息。从这些结果中可以得出几个结论:(1)VSA-Flow和VSA-SM都能准确估计光流,特别是在包含事件的区域。事件掩蔽的稀疏光流估计看起来比密集光流估计更准确。(2)与VSA-Flow相比,VSA-SM的光流估计看起来更平滑;(3)VSA-Flow在图像边界附近的光流估计表现出不准确性,而在自我监督学习中采用全图像扭曲技术Stone等人(2021)的VSA-SM提高了其在图像边界附近的准确性;(4)由于这两种方法都仅依赖于事件帧进行流估计,因此在缺乏事件的大面积区域中准确性会降低,有时会导致零流估计——这一趋势与其他自我监督学习方法Hagenaars等人(2021);Paredes-Vallés等人(2023)一致;(5)作为基于模型和自我监督学习方法,依赖于仅事件的局部特征,我们的方法预测的光流不如监督学习方法平滑;同时,我们的方法在物体边缘的光流估计不够锐利,显示出更平滑的过渡。
4.6 超向量维度和多尺度的影响
表3报告了VSA-Flow方法在不同超向量维度(d)和不同多尺度数量(S)的HD特征描述符上的实验评估结果。当d = 1024时,VSA-Flow在S = 1时表现出更好的EPE和3PE指标,而在S = 2时表现出更好的1PE和AE指标。此外,当S保持不变且d发生变化时,所有指标都随着d的增大而提高,表明较大的超向量维度会带来更好的性能。这一结果与以下理解一致:在VSA中,增加超向量维度有助于提高信息编码能力Kleyko等人(2021,2023)。
4.7 时间表面指数衰减率的影响
HD特征描述符的时间信息主要受到累积时间表面(TS)的指数衰减率τT S的影响。图6显示了VSA-Flow方法在DSEC和MVSEC数据集上单次试验的指标EPE和3PE随τT S的变化。这两个指标都表现出随着τT S的增加先减小后增加的趋势。这些结果表明,当τT S过小或过大时,VSA-Flow的光流估计性能会降低。在τT S的适当范围内观察到最佳性能。这是因为TS的短τT S强调最近的事件,导致其稀疏性和不足。相反,过长的τT S导致TS包含长时间内的事件,导致模糊表示。因此,适当的τT S是必要的。值得注意的是,由于所用事件摄像机的特性不同,VSA-Flow方法中τT S的最佳范围在DSEC和MVSEC之间有所不同。与DSEC相比,MVSEC中的事件更稀疏,需要更大的τT S。这表明有必要在更长的时间内积累事件,以便在TS中实现更准确的信息编码。
5 结论和讨论
总之,我们的工作引入了一种新颖的基于VSA的特征匹配框架,用于基于事件的光流,适用于基于模型(VSA-Flow)和自我监督学习(VSA-SM)方法。我们工作的关键在于有效地利用基于VSA的HD特征描述符进行事件帧。所提出的方法可以在不需要恢复亮度或额外传感器信息的情况下,在特征匹配方法中实现基于事件的光流的准确估计朱和袁(2018);Hagenaars等人(2021);邓等人(2021);丁等人(2022);万等人(2022)。这项工作标志着基于事件的光流在特征匹配方法中的一个重要进步,我们的有力和稳健的结果强调了这一点。所提出的框架可以具有广泛的适用性,扩展到更多基于事件的任务,如深度估计和跟踪。
目前,大多数适用于基于模型和自我监督学习的基于事件的光流估计的主要方法是对比度最大化方法Shiba等人(2022);Ye等人(2020);Paredes-Vallés和de Croon(2021);Hagenaars等人(2021);Paredes-Vallés等人(2023)。对比度最大化(CM)方法在利用事件的时间信息方面表现出色,但在利用事件的局部空间特征方面不太擅长。因此,这些方法在短时间间隔内或小流量幅度内估计光流表现良好。它们需要更复杂的策略才能在更大的时间间隔内达到令人满意的性能,例如通过迭代扭曲在多个参考时间产生尖锐的扭曲事件图像(IWE)Hagenaars等人(2021);Paredes-Vallés等人(2023)。相比之下,我们的方法基于特征相似度最大化,在利用事件的局部空间特征方面表现出色,但在利用时间信息方面相对较弱。因此,我们的方法在较大时间间隔内的光学估计中表现出更好的性能(表2)。我们的方法在没有复杂策略的情况下实现了具有竞争力的性能,并避免了在CM方法中扭曲事件时观察到的遮挡和过拟合问题Shiba等人(2022)。未来的研究将专注于增强HD特征描述符的时间编码能力。
传统上,特征匹配主要由两个特征点邻域内的两个局部图像之间的差异决定,这些差异通常使用绝对差之和和欧几里得距离等指标来量化Lagorce等人(2016);刘和Delbruck(2018);周等人(2021)。这种方法经常应用于事件摄像头硬件平台刘和Delbruck(2022)。然而,由于事件的固有随机性,直接从局部事件帧中衡量特征相似性可能不是最有效的方法。受到Frady等人(2021);Renner等人(2022a)的启发,我们利用基于VSA的HD内核提取局部特征和结构化符号表示,以实现来自两个事件极性和多个空间尺度的特征融合。这些方法增强了流匹配特征描述符的相似性,如我们的评估结果所示。VSA,也被称为超维计算,被认为是一种新兴的超高效边缘AI神经形态计算模型Karunaratne等人(2020);Amrouch等人(2022);邹等人(2022)。目前,我们的方法专注于密集光流估计。通过适当的调整和配置,我们的方法有望在硬件上高效快速地实现稀疏光流估计,促进事件驱动硬件光流传感器的设计Chao等人(2013);Honegger等人(2013);刘和Delbruck(2022)。