前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >拥挤场景中的稳健帧间旋转估计

拥挤场景中的稳健帧间旋转估计

作者头像
点云PCL博主
发布2024-01-23 16:58:07
1090
发布2024-01-23 16:58:07
举报
文章被收录于专栏:点云PCL点云PCL

文章:Robust Frame-to-Frame Camera Rotation Estimation in Crowded Scenes

作者:Fabien Delattre,David Dirnfeld,Phat Nguyen,Stephen Scarano

编辑:点云PCL

摘要

本文提出了一种从手持单目视频中估计拥挤、真实场景中摄像机旋转的方法。虽然摄像机旋转估计是一个经过深入研究的问题,但在这种情境下,以前的方法没有同时展现出高精度和可接受的效率。由于其他数据集未能很好地解决这个场景,我们提供了一个新的数据集和基准,其中包含17个视频序列,具有高精度、经过严格验证的地面真值。针对宽基线立体(例如,5点法)开发的方法在单目视频上表现不佳。另一方面,用于自动驾驶的方法(例如SLAM)利用特定的传感器设置、特定的运动模型或局部优化策略,在手持视频上泛化能力不强。最后对于动态场景,常用的RANSAC等强健技术需要大量迭代,并变得难以承受。我们引入了在SO(3)上的Hough变换的新泛化,以有效且稳健地找到与光流最兼容的摄像机旋转。在相当快的方法中,我们的方法将错误减少了近50%,比下一个最佳方法更精确,而且无论速度如何。这代表了拥挤场景的一个强大的新性能点,对于计算机视觉而言,这是一个重要的设置。代码和数据集在 https://fabiendelattre.com/robustrotation-estimation 。

主要贡献

摄像机运动估计是相对位姿估计的一种受限版本,仅使用两个视图,受到以下约束:(a)空间上接近,(b)时间上接近,(c)来自同一摄像机,这与移动摄像机视频中相邻帧的情况相匹配。许多作者专注于使用点对应进行相对姿态估计。其中大多数方法侧重于估计基本矩阵,在存在大视差(大基线)的情况下效果最佳。因此基于对应关系的方法主要用于离线定位和建图策略,如SfM和3D重建,或具有局部优化的在线建图方案,如SLAM。相反,基于光流的方法更适用于小运动,这正是本文关注的领域。

与最先进的基于对应关系的相对姿态问题一样,帧间摄像机运动估计的最佳基于光流的方法侧重于将转换分解为仅旋转和仅平移估计。虽然有快速而准确的运动估计解决方案,但它们对场景中的移动物体非常敏感,而在场景中有大量移动物体时经常发生故障。类似于基于对应关系的技术,基于光流的方法通常在RANSAC中用于处理局部错误的光流和移动物体,从而提高稳健性。本文专注于旋转估计,因为在给定旋转估计的情况下,基于光流的平移估计可以轻松计算。作者提出了一种基于光流的摄像机旋转估计新方法,该方法可以用于高度动态的场景,假设远处点的光流对场景中的动态物体不太敏感。所提出的技术使用兼容的旋转投票机制,不需要RANSAC。此外,由于公共数据集仅包含静态场景或具有轻微动态物体(大部分帧包含静态环境),我们收集了一个新的具有17个序列的具有挑战性的数据集。总结一下,本文的贡献如下:

  • 一种新颖的基于光流的帧间摄像机旋转估计算法,利用在3D旋转空间中基于Hough变换的投票机制找到兼容的旋转值;
  • 作者展示了算法在高度动态的场景中明显优于离散和持续的基线,在静态场景中表现相当;
  • 提供了一个名为BUsy Street Scenes(BUSS)的高度动态场景的新数据集,带有经过严格验证的真值旋转。

相关工作

摄像机运动估计方法的三类分类:微分方法、离散方法和直接方法。微分方法模型化两帧之间的像素位移为瞬时的3D速度,离散方法则将像素位移建模为3D平移和旋转。直接方法通过亮度一致性约束方程解决摄像机运动,而不明确计算光流。

在微分方法中,使用了Longuet-Higgins和Prazdny提出的运动模型,该方法对于小运动场景非常适用。多个研究探讨了不同的技术,包括迭代方法、子空间方法以及在深度不连续区域的流差异等。文章还提到了一些微分方法的局限性和对偏差的处理方法。

离散方法不对帧间位移进行假设,主要使用视差约束。已校准和未校准的两种情况下,都专注于导出RANSAC的最小解算器。已校准的情况下,基本矩阵可以使用5点对应关系进行估计,而未校准的情况下,提出了不同的解算器。这里列举了一些重要的离散方法,包括已校准和未校准情况下的一些解算器。

直接方法通过解决亮度一致性约束方程来解决摄像机运动,而不是计算光流。但直接法也是有一些问题,例如光照变化引起的挑战以及在处理移动物体时的性能下降。此外,提到了一些处理运动估计中的异常值和噪声的强健方法,包括使用损失函数、梯度下降、Hough Transform等。

总的来说,这里介绍了这三种方法的原理、应用领域以及它们各自的优缺点。提到了作者提出的方法可以在微分或离散范式中使用,并强调了解决移动物体和噪声的挑战所采取的一些强健方法。

内容概述

我们的目标是在给定{ui, vi, xi, yi}的情况下(其中(ui, vi)是光流矢量,(xi, yi)是它们在图像平面上的坐标),估计两帧之间的摄像机旋转。考虑一个仅由摄像机旋转引起的光流场F,没有摄像机平移、运动物体或噪声。对于这样一个旋转场中的每个光流矢量,它提供了对可能的旋转集的两个约束,如图1所示。对于一个纯粹的旋转光流场,这些线相交于一个点,即导致光流的旋转。

图1。左图。来自我们BUSS数据集的拥挤场景的一帧。红色矢量显示与获胜的旋转估计R∗兼容的光流,表示摄像机的旋转。灰色矢量显示不能纯粹由R∗解释的光流。右图。三个轴显示3D旋转空间。每条线显示与单个光流矢量兼容的一维旋转集。红色线(对应上图中红色光流矢量)相交于一个小的区块,表明它们的光流与相同的旋转兼容。灰色线受其他运动效应影响,以无结构的方式分散,对应于上面的灰色光流。我们的算法找到在SO(3)中具有最大一致性的线集,揭示了摄像机的旋转R∗。

然而,在现实世界的视频中,光流还受到平移、运动物体和噪声的影响。通常不存在与所有光流矢量兼容的单一旋转。为了估计旋转,我们利用这样一个事实:远处点的流在很大程度上受到旋转的影响,因此行为几乎类似于“仅旋转”的流矢量。假设是这些远处点将为特定旋转提供一致的证据,而其他流矢量,受平移、场景几何、运动物体和噪声的影响,将不会产生一致的旋转估计。因此,通过累积对最有支持的旋转的证据(或投票),我们可以估计摄像机旋转。

当然,这突显了我们方法的一个重要假设:我们假设帧之间的摄像机平移相对于场景中的远点很小,这确保了远场点的流能够由旋转很好地建模。因此,我们的方法设计用于在室外场景(或宽敞的室内场景,如竞技场),其中相对于最远处的物体,平移摄像机运动较小。

我们的方法可以被看作是著名的Hough变换的一种变体,Hough变换试图找到可能生成尽可能多观察的隐藏变量。每个观察都用于为与其一致的隐藏变量值“投票”。在这种情况下,观察是光流矢量(在图像中的每个点),隐藏变量值是可能的旋转。这种方法可以被看作是一种“强健化”方法,因为它允许我们在存在大量“异常值”(即受其他因素影响的流,如平移、运动物体、光流估计不准确等)的情况下获得良好的估计。

兼容性旋转

这里讨论如何找到能够产生仅受摄像机旋转影响的特定光流矢量的旋转集,考虑到3D旋转空间SO(3)是一个3D流形(围绕3个轴的旋转),而光流矢量具有两个自由度(u和v),存在一个一维旋转集,其中任何光流矢量都是兼容的,作者提出了我们方法的两个版本,一个使用透视投影的离散版本,另一个使用Longuet-Higgins运动模型的连续版本。

透视投影运动模型(Perspective Projection Motion Model):

  • 通过透视投影模型,可以计算能够在摄像机旋转的情况下产生特定光流矢量的旋转集。
  • 对于给定图像位置,这个旋转集合是SO(3)中的一维流形,由围绕某一轴旋转的单一旋转和绕另一轴旋转的任意角度的旋转组成。
  • 该方法的实现可以采用透视投影的离散版本,生成一个曲线集合。

图2. 获取将P映射到Q的旋转集

Longuet-Higgins运动模型:

  • Longuet-Higgins模型用于描述静态场景的视觉运动场,定义了瞬时运动场速度,包括2D旋转速度和2D平移速度。
  • 该模型导致了一个一维解的曲线,由两个平面的交点定义,这一解呈直线状。
  • 这个方法相对透视投影模型产生了略微不同的兼容旋转集。
  • Longuet-Higgins模型的实现效率更高,可以通过预计算线的方向,并在运行时找到截距,实现较大的效率提升。

这两种方法都用于计算光流矢量的兼容旋转,其中透视投影模型适用于离散情况,Longuet-Higgins模型适用于连续情况。

图3. Longuet-Higgins与透视投影对比,每个光流矢量与一个旋转流形(单位为弧度的轴)兼容。在这里展示了使用Longuet-Higgins模型(直红线)和透视投影(蓝曲线)的兼容旋转的(部分)集合,该算法可以与任一运动模型一起使用。

投票方案

我们将根据兼容性旋转值进行一维流形离散化投票,与原始的Hough变换不同,我们不创建累加器,而是制作一个兼容性旋转投票的列表,并找到列表的众数,减轻了内存中需要3维累加器的需求。总而言之,该方法允许在保持快速执行的同时对SO(3)进行稠密采样。我们方法的速度取决于用于投票的光流矢量数(COF)以及每个兼容旋转的一维流形中采样的点数。

实验

我们引入了BUsy Street Scenes(BUSS),这是一个具有挑战性的数据集,包含从手持移动电话(OPPO A5 2020智能手机,后置摄像头)拍摄的视频序列,位于拥挤的城市街道上,并配有同步的惯性测量单元(IMU)数据。该数据集的目标是评估在密集且动态的场景中,具有许多移动对象和复杂相机运动的相机旋转估计算法的稳健性。数据集由17个视频序列组成,每个序列约为10秒,以30fps的全高清分辨率(1920x1080)RGB录制。我们使用Android Open-Camera Sensor应用程序同步记录了来自手机MEMS陀螺仪的视频和角速率数据(在400Hz处记录),为了符合严格的隐私标准,仅在公共场所拍摄视频,并对面部和其他可识别个人信息(PII)进行了模糊处理。除了匿名化的视频帧外,我们还提供了使用RAFT计算的所有序列的光流。所有序列展示了高度动态的场景(见图4)。

图4. BUSS数据集,来自我们BUSS数据集的示例帧,这些序列在不同的场景中录制,并具有多样化的相机运动。

BUSS数据集上的结果:在BUSS数据集上,我们方法的优势清晰可见。表2报告了数值结果,图5显示了旋转误差与运行时间的关系。我们的方法几乎比同等速度的方法更准确了近50%。由于BUSS数据集的高度动态性,RANSAC显著提高了其他方法的准确性(提高了从30%到66%)。然而,即使通过RANSAC获得了改进,我们的方法在比第二好的方法更快400多倍的情况下仍然优于它25%。我们方法的均值标准误小于1.3%,其他方法小于7%。

图5. BUSS上的旋转误差与运行时间关系。使用RANSAC运行的方法呈线状,每个点处具有不同数量的RANSAC迭代。独立的点不使用RANSAC。连续方法的运行时间包括光流计算的运行时间。

IRSTV数据集的结果如表3所示。我们在图6中展示了旋转误差与运行时间的关系图。我们的方法在准确性和速度方面与其他方法相当。我们的方法在每帧0.15秒的速度下旋转误差为0.14°。由于IRSTV主要由静态场景组成,仅在运行时使用RANSAC的连续方法只在一定程度上改善了结果,同时显著增加了运行时间。

图 6. 在IRSTV数据集上的旋转误差与运行时间的关系图。使用RANSAC的方法由线连接。孤立的点表示不使用RANSAC。

图 7. BUSS数据集上为获胜旋转区间投票的光流向量百分比。例如,虚线表示在62%的光流中,获胜区间的光流向量不到25%。

图 8. BUSS数据集上的性能随区间大小变化的情况。我们方法的准确性(实线)和运行时间(虚线),分别使用透视投影和朗格-希金斯方法。这两种方法的准确性相似,但朗格-希金斯方法更快。

图 9. BUSS数据集上的性能随空间步长变化的情况。我们的误差(实线)和运行时间(虚线)随不同空间步长的变化。空间步长值为n表示我们每n个像素采样一次光流向量。

总结

我们引入了一种新颖的在SO(3)上进行Hough变换的方法,以找到与高度动态场景中光流最相容的摄像机旋转。我们的方法具有固有的稳健性,并且不需要RANSAC,这显著提高了速度,超过了现有方法。在存在移动物体的情况下,与同样运行时间下的次优方法相比,我们的方法将误差减少了近50%,而在静态场景中表现相似。此外,我们提出了一个具有挑战性的新数据集BUSS,包含了在拥挤的现实场景中拍摄的17个视频序列。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-01-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 点云PCL 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档