前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >EfficientDeRain: Learning Pixel-wise Dilation Filtering for High-EfficiencySingle-Image Deraining

EfficientDeRain: Learning Pixel-wise Dilation Filtering for High-EfficiencySingle-Image Deraining

作者头像
狼啸风云
发布2023-10-07 15:36:26
1710
发布2023-10-07 15:36:26
举报

摘要

 由于未知的降雨模式,单图像去噪相当具有挑战性。现有的方法通常对降雨模型做出特定的假设,这些假设很难涵盖现实世界中的许多不同情况,这使得它们不得不采用复杂的优化或渐进式重建。然而,这严重影响了这些方法在许多效率关键应用中的效率和有效性。为了填补这一空白,在本文中,我们将单图像去噪视为一个通用的图像增强问题,并最初提出了一种无模型的去噪方法,即Ef finicientDeRain,它能够在10ms内(即平均约6ms)处理降雨图像,比最先进的方法(即RCDNet)快80多倍,同时实现类似的去噪效果。我们首先提出了一种新颖的逐像素膨胀滤波器。 特别是,用从核预测网络估计的逐像素核对雨天图像进行滤波,通过该网络可以有效地预测每个像素的合适的多尺度核。然后,为了消除合成数据和真实数据之间的差距,我们进一步提出了一种有效的数据增强方法(即RainMix),该方法有助于训练网络进行真实的雨天图像处理。我们对合成和真实世界的降雨数据集进行了全面评估,以证明我们的方法的有效性和效率。

1、介绍

 户外视觉系统(例如,静止图像或动态视频序列)捕捉到的降雨模式或条纹通常会导致图像或视频中出现尖锐的强度波动,导致视觉感知系统在不同任务中的性能下降,例如行人检测(Wang et al.2018)、物体跟踪、语义分割等。作为一种常见的现实世界现象,几乎强制性地,全天候视觉系统配备有用于使用的减噪能力。一种去噪方法处理被雨水破坏的图像/视频数据并去除雨水条纹,目的是为下游视觉任务实现良好的图像质量。

在许多对科学敏感和关键的实时应用中(例如,基于视觉的自动驾驶或导航),能够在芯片上有效地执行去噪是非常重要的。在保持低开销的同时,实现高效和高性能(例如,在PSNR、SSIM方面)的去噪算法对于实际应用非常重要。

尽管我们已经见证了最近在去噪方面的进展,但现有的方法主要集中在研究降雨和背景层的物理模型,通过解决优化问题来去除雨带,并利用深度学习和一些先验的力量,例如,在整个图像域中具有相似局部模式的降雨。然而,到目前为止,一个基本问题,即derain方法的效率,在很大程度上被忽视了,这给实时应用带来了很大的限制。

 特别是,现有方法(见第2节)通常严重依赖于各种降雨产生假设和降雨背景模型,其目标是在降额过程中恢复这种增雨步骤,包括大量迭代优化和随后的重建步骤。然而,他们的一些警告不容忽视:❶ 许多算法采用的降雨模型假设可能是有限的,不能很好地代表和反映真实世界的降雨模式。基于这些降雨模型假设的模型在现实世界场景下可能表现得不那么强;❷ 许多现有的方法计算成本很高,要么需要复杂的迭代优化来确定最优解,要么在多个阶段构建降级框架,其中涉及递归或渐进的重建步骤。

 在这项工作中,我们从不同的角度来处理单个图像的去噪问题,旨在提出一种有效而通用的去噪方法。首先,我们提出的方法是无模型的,它不假设降雨是如何产生的。正如我们在实验部分所示,降雨模型假设在一定程度上不是实现高性能减额的强制性假设,有时这种假设甚至会损害减额性能。其次,我们提出的方法遵循单阶段,不需要迭代优化或渐进式重新定义,从而导致高效率下降。总的来说,我们的主要贡献有三方面:

 我们提出了像素扩展滤波,以实现有效的去噪。降雨图像由内核预测网络估计的逐像素内核过滤,该网络可以自动有效地预测每个像素的合适多尺度内核。为了弥补合成数据和真实数据之间的差距,我们进一步提出了RainMix组件,用于简单而有效的数据增强,这使我们能够训练网络来处理真实的降雨图像。我们在合成和真实世界的降雨数据集上展示了我们的方法的优势,实现了高性能和高效率的降低。如图6所示,1,我们的方法(即EfDeRain)比最先进的方法RCDNet(Wang等人,2020a)运行速度快约88倍,在PSNR和SSIM方面具有相似的性能。此外,配备了RainMix,EfDeRain可以在真实的降雨图像上获得比RCDNet更好的可视化效果。

2、相关工作

 根据输入数据类型,现有的去噪算法在很大程度上可以分为两组:基于视频的去噪,例如和单图像去噪。在本节中,我们讨论了几种具有代表性的基于DL的单图像去噪方法,这些方法与我们的方法最相关。

 在(Wang et al.2020a)中,提出了一种用于单图像去噪的雨水卷积字典网络(RCD-Net),其中通过利用固有卷积字典学习机制对雨水形状进行编码,利用近端梯度技术作为优化方法来寻求最优解。RCD-Net被设计为多个阶段来迭代求解降额问题。特别地,该算法在两个子步骤上迭代,1)通过与学习的雨核卷积来更新雨图,以及2)更新背景层,这是由RCD-net的每个阶段的两个子网(M-net和B-net)实现的。在(Du et al.2020)中,提出了一种用于排水的条件变分图像去噪(CVID)网络,该网络使用条件变分自动编码器(CVAE)架构作为主干。 作为一种变分方法,学习解码器可以从输入的雨天图像中生成多个降级图像的预测,并通过对这些预测进行积分来获得最终的单个图像输出。CVID网络的学习阶段主要涉及联合训练变分编码器和解码器,连接空间密度估计(SDE)模块用于估计中间降雨图,然后用于生成输入地面实况(干净)和降雨图像对的潜在空间表示。在(Yang et al.2019)中,提出了一种执行联合雨水检测和去除的多任务网络(JORDER)来解决单图像去噪的逆问题。 多任务网络联合学习三个目标:二元雨带图、雨带层和作为最终降级预测的干净背景。结合上下文扩展网络来提取区域上下文信息,使得所学习的特征可以对雨纹保持不变。为了进一步处理各种方向和形状的雨纹,采用循环工艺分阶段逐步去除雨纹。 在(Li et al.2018b)中,为单图像去噪设计了一个递归挤压和激励上下文聚合网(RESCAN)。类似地,整个过程也分多个阶段执行,使用启用内存的RNN架构来聚合来自早期阶段的有用信息。在每个阶段内,雨纹表现出不同的方向和形状,可以视为多个雨纹层的积累。因此,通过结合挤压和激发块,可以根据强度和透明度级别将不同的阿尔法值正确地分配给每个雨条纹层(即特征图)。在(Fu et al.2017)中,通过修改经典的ResNet架构来更好地处理手头的图像回归任务,进一步尝试解决单个图像的去噪问题。 通过减少从输入到输出的映射范围,去线性学习过程变得更容易实现。为了指导模型关注图像中雨水的结构,使用先验图像域知识将模型的注意力转移到高频细节上,从而消除背景干扰。在(Wang et al.2019)中,提出了一种基于两轮四向RNN架构的空间注意网络(SPANet),其中使用三个标准残差块来提取特征,使用四个空间注意块来分四个阶段逐步识别雨带。接下来,通过学习的负残差去除雨条纹,进一步采用两个残差块来重建干净的背景。 

总的来说,这些现有方法有一些共同点。特别是,他们经常严重依赖假定的降雨模型来开发算法,例如(Yang等人2019;李等人2018b;王等人2020a),或者需要降雨条纹的特定先验领域知识,例如(Wang等人2019;杜等人2020;傅等人2017)。同样,这些方法中的许多都是建立在反复或渐进的框架上的,其中后期去噪可以帮助重新定义早期结果,例如(Yang等人2019;李等人2018b;王等人20192020a)。然而,我们认为,这些强大的先决条件和约束可能会阻碍derain方法及其现实世界部署的普遍性和有效性。在这项工作中,我们最初从不同的角度提出了一种去噪方法,旨在解决这两个问题。

3、方法

3.1、去雨的逐像素滤波

 在这一部分中,我们提出了一种基于图像滤波的无模型去噪方法。一般来说,降雨可以被视为一种退化,可能会导致遮挡、雾、运动模糊等影响。因此,使用图像过滤方法来处理它是合理的,这对各种退化都是有效的。具体地说,我们通过逐像素滤波处理输入的降雨图像

 其中,

是估计的退化图像,并且

表示逐像素滤波操作,其中每个像素由其唯一核处理,并且

包含所有像素的核。具体地说,当对

的第p个像素进行去量化时,我们有它的唯一核,即K的第p位置的向量,它被重新整形并表示为

。我们使用p作为像素的二维坐标。然后,我们可以通过

t
t

的范围为

为了通过简单的像素过滤实现有效的去噪,我们应该考虑以下挑战:❶ 如何有效地估计空间变异、尺度变异和语义感知核。下雨可能会导致条纹遮挡、雾和模糊,出现在不同的位置,出现不同的外观。例如,雨条纹可能在整个图像中表现出不同的尺度、方向和透明度,并与图像内容(例如,场景深度)在语义上相关。因此,逐像素内核应该适应场景信息、雨带的空间和尺度变化。显然,手工设计的内核很难满足这样的要求。 为了应对这一挑战,我们在第3.2节中提出了多维核预测网络,该网络以降雨图像为输入,并通过深度神经网络(DNN)预测每个像素的多尺度核。❷ 如何训练一个强大的降额DNN,用合成数据弥补与实际降雨的差距。大多数现有的去噪DNN都是在合成数据上训练的。然而,实际降雨和合成降雨之间仍然存在差距。弥合这一差距对于现实世界的应用非常重要。我们提出了一种简单而有效的增雨方法,在第3.3节中表示为RainMix,以减少这种差距。

3.2、可以学习的逐像素膨胀滤波

 内核预测网络

受最近图像去噪工作的启发,我们提出通过将下雨图像作为输入来估计用于去噪的逐像素核K,

 其中KPN(·)表示类UNet网络,我们在图2中显示了架构。通过对降雨-清洁图像对的线性训练,核预测网络可以预测空间变化的核,这些核适应不同厚度和强度的降雨条纹,同时保留对象边界。我们在图2中展示了一个递减示例。2,我们在六个代表性区域上验证了我们的方法,并观察到:❶ 我们的方法可以有效地去除雨排,同时恢复被遮挡的边界,如区域一(R1)所示(见图第2(c)段)。 ❷ 预测的谷粒可以适应不同强度的降雨。如图6所示,2(c),从R2到R5,降雨强度逐渐变弱,我们的方法可以有效地去除所有痕迹。此外,根据预测核的可视化,我们的网络可以感知雨带的位置。因此,预测核为非降雨像素分配更高的权重,而为降雨像素分配更低的权重,从而证明了我们方法的有效性。❸ 根据R6的结果,我们的方法不会损害原始边界,并使其更加清晰。

多膨胀图像滤波和融合

为了使我们的方法能够在不影响效率的情况下处理多尺度雨带,我们通过膨胀卷积的思想将每个预测的核扩展到三个尺度。

直观地说,当降雨条纹覆盖图像的大区域时,大尺度内核可以使用远离降雨的相关像素进行有效的去噪。一个简单的解决方案是直接预测多尺度核,从而导致额外的参数和时间成本。或者,我们建议将方程1中的逐像素滤波扩展到卷积层的逐像素膨胀滤波,

 其中,l是控制同一滤波器应用范围的膨胀因子。在实践中,我们考虑四个尺度,即

。利用等式4,我们可以得到四个去重化的图像,即,图1、图2、图3和图4。然后,我们使用尺寸为3×3的卷积层来融合四幅图像,并获得最终输出。

 损失函数

 我们考虑两个用于训练网络的损失函数,即

L_1
L_1

和SSIM损失函数。给定去约束图像,即,

,以及作为基本事实的干净图像i,我们有

 对所有实验,我们固定

\lambda=0.2
\lambda=0.2

3.3、RainMix缩小真实雨的差距

 如何缩小合成降雨图像与真实数据的差距仍然是一个悬而未决的问题。在本节中,我们将探索一种新颖的解决方案RainMix来应对这一挑战。Garg和Nayar对雨带的出现进行了详细的研究,并通过考虑不同的照明和观看条件构建了真实雨带的数据集。即便如此,仍然很难说收集到的真实降雨是详尽无遗的,它涵盖了现实世界中所有可能的情况,因为由于风、光线反射和折射等各种自然因素的影响,降雨具有不同的外观。然而,通过现实世界中可能发生的变换,例如缩放、剪切、平移和旋转,使用这些真实的雨纹来生成更多的雨纹是合理的。RainMix最初就是基于这种直觉设计的。

 我们在算法1中展示了我们基于RainMix的学习算法。在每次训练迭代中,我们通过RainMix生成降雨图,并将其添加到干净或下雨的图像中,以获得新的降雨图像,用于训练核预测网络和融合卷积层。我们的RainMix从真实降雨条纹数据集(Garg和Nayar 2006)中随机采样降雨图(即算法1中的第2行),并通过随机采样和组合操作对降雨图进行三次转换(即算法2中的第5-9行)。最后,通过来自狄利克雷分布的权重来聚合三个变换的降雨图,并通过来自贝塔分布的权重进一步与原始采样的降雨图混合(即,算法1中的第4行和第11行)。直观地说,多重随机过程模拟了现实世界中不同的降雨出现模式。我们在图3中给出了一个RainMix的例子来生成一个下雨的图像。

4、实验

4.1、设置

数据集

为了全面验证和评估我们的方法,我们在4个流行的数据集上进行了比较和分析实验,包括Rain100H、Rain1400合成数据集、最近提出的SPA真实降雨数据集和真实雨滴数据集。

指标

我们使用常用的峰值信噪比(PSNR)和结构相似性(SSIM)作为所有数据集的定量评估指标。一般来说,较大的PSNR和SSIM表示更好的去噪结果。

基线

为了全面起见,我们进行了大规模评估,以与总共14种(=9+5)最先进的去噪方法进行比较,即去噪条纹任务(去除雨条纹)的9个基线,包括雨卷积字典网络(RCDNet)、条件变分图像去噪(CVID),联合雨水检测和去除(Yang et al.2019),空间注意力去噪方法(SPANet),渐进图像去噪网络(PReNet),半监督迁移学习(SIRR),递归挤压和激励上下文聚合网络(RESCAN),深度细节网络,和Clear。此外,对于雨滴数据集(Qian et al.2018)上的deraindrop任务(即去除列车跌落),我们比较了另外5种最先进的方法(Li et al.2019)作为基线,包括GMM(Li et al.2016)、JORDER(Yang et al.2017)、DDN(Fu et al.1917)、CGAN(Zhang,Sindagi,and Patel 2019)、DID-MDN(Zhang and Patel 2018)和deraindrop(Qian等人.2018)。请注意,所有比较方法的时间成本都是在使用Intel Xeon CPU(E5-1650)和NVIDIA Quadro P6000 GPU的同一台PC上逐一评估的。

4.2、在Rain100H&1400数据集上的比较

 我们将我们的方法与图4中的9种基线方法进行了比较。4在Rain100H和Rain1400数据集上。通常,我们的方法,即EfDeRain,实现了最低的时间成本,同时在两个数据集上获得了与顶级方法相当的PSNR或SSIM。更具体地说,在具有挑战性的Rain100H数据集上,其中雨条纹覆盖了图像的大部分,我们观察到EfDeRain使用rank1方法(即RCDNet)实现了几乎相同的PSNR和SSIM,同时速度快了88倍。与其他方法相比,例如JORDERE和CVID,我们的方法在回收质量和效率方面都表现出明显的优势。 例如,EfDeRain达到了11。与CVID相比,PSNR提高了4%,同时运行速度提高了50倍以上。类似地,就Rain1400数据集而言,我们的方法仍然实现了最低的时间成本,同时保持了与最先进的方法(例如,PReNet和RCDNet)一致的具有竞争力的PSNR和SSIM。主要原因可能是Rain1400的雨带比Rain100H的雨带要小,而且许多地区没有被雨水覆盖。同时,如图6所示,2,我们的方法不仅可以去除雨纹,而且可以增强物体边界,导致PSNR和SSIM的负分数用于评估恢复质量,而不是增强能力。

 在图5中,我们进一步将EfDeRain的可视化结果与最先进的基线方法,即RCDNet和PReNet进行了比较,并观察到:❶ 在案例2中,EfDeRain可以比其他两种方法更有效地去除雨纹,因为在去噪图像上有清晰的雨纹,即鼻子附近的白色条纹。❷ 与基线方法相比,EfDeRain去除了雨水条纹,同时很好地恢复了原始细节。在案例1和案例3中,RCDNet和PReNet去除或破坏了原始的条纹状细节,例如案例1中女孩的头发和案例3的细线。相比之下,我们的方法在有效去除雨水的同时保留了这些细节,表明我们的方法可以更好地理解场景并预测不同像素的内核。

4.3、真实世界SPA雨数据集上的比较

我们进一步将我们的方法与SPA数据集上的8种基线方法进行了比较,其中降雨图像是真实的,其地面实况是通过人类标记和多帧融合获得的。如图6所示,7,我们的方法实现了与顶级方法(即RCDNet)几乎相同的PSNR和SSIM,并且优于所有其他基线,同时运行效率是RCDNet的71倍以上。 我们还将我们的方法与图6中的RCDNet和SPANet进行了可视化比较。显然,所有的结果都表明,我们的方法可以处理不同模式的各种降雨痕迹,并取得了比RCDNet和SPANet更好的可视化结果。特别是,在案例2中,RCDNet和SPANet都未能去除较宽的雨带,而我们的方法成功地处理了所有的雨带并且获得的降级图像与地面实况几乎相同。

4.4、真实雨点数据集上的比较

除了雨带图像数据集,我们还在deraindrop任务上比较了我们的方法,以显示我们的方法的泛化能力。我们在雨滴数据集上训练我们的网络,并将其与6种最先进的基线方法进行比较。特别是,DeRaindrop方法是专门为这个问题设计的,其中雨滴的区域由一个专注的递归网络感知。我们的方法在不改变任何架构或超参数的情况下,以与DeRaindrop竞争的SSIM获得了第二好的结果,并且优于所有其他去噪方法,证明了我们方法的有效性和通用性。

4.5、消融研究

 除了雨带图像数据集,我们还在deraindrop任务上比较了我们的方法,以显示我们的方法的泛化能力。我们在雨滴数据集上训练我们的网络,并将其与6种最先进的基线方法进行比较。特别是,DeRaindrop方法是专门为这个问题设计的,其中雨滴的区域由一个专注的递归网络感知。我们的方法在不改变任何架构或超参数的情况下,以与DeRaindrop竞争的SSIM获得了第二好的结果,并且优于所有其他去噪方法,证明了我们方法的有效性和通用性。

 如表2所示,通过RainMix以及L1和SSIM损失函数训练的逐像素膨胀滤波,4个版本的PSNR和SSIM逐渐增加,并在我们的最终版本上达到最高性能。这表明,我们所有的主要贡献都有利于有效的降额。此外,我们还分析了四种变体的时间成本,并观察到:所提出的膨胀滤波仅导致约1.5ms的额外成本。如表2所示,通过RainMix以及L1和SSIM损失函数训练的逐像素膨胀滤波,四个版本的PSNR和SSIM逐渐增加,并在我们的最终版本上达到最高性能,证明我们所有的主要贡献都有利于有效的降额。此外,我们还展示了四种变体的时间成本,并观察到:所提出的膨胀滤波只会导致大约1.5毫秒的额外成本。

  我们通过图8中的Rain100H可视化结果进一步验证了我们的贡献的优势,并观察到:❶ 一般来说,我们的最终版本不仅可以去除暴雨条纹,还可以恢复原始细节,从而获得最高的PSNR和SSIM分数。❷ 当将EfDeRain-v1与v2(即膨胀增强的v1)进行比较时,我们可以得出结论,膨胀结构显然有助于去除更多的雨条纹。例如,在情况1、2和3中,v1中的降雨痕迹在v2中被明显抑制。❸ SSIM丢失功能有助于恢复细节,但增强了降雨条纹。例如,在案例3中,使用SSIM损失函数(即EfDeRain-v3),v3中太阳的边界变得比v2和v1中的边界清晰得多。然而,雨带边界也变得很明显。我们在其他情况下观察到类似的结果。 ❹ 通过结合膨胀结构、SSIM损失函数和RainMix,我们的最终版本,即EfDeRain-v4,能够有效地去除暴雨,同时很好地恢复细节。此外,我们在图9中的SPA数据集上进行了可视化比较,以验证我们的RainMix的有效性。因此,我们的RainMix增强了我们的方法去除真实降雨痕迹的能力,即使降雨模式非常多样化。在所有情况下,如果我们不使用RainMix,我们观察到可能总是存在一些无法解决的大雨痕迹,如图中的红色箭头所示。

5、结论

在这篇论文中,我们提出了一种新的无模型降阶方法,称为Ef finityDeRain。我们的方法不仅可以实现显著的高性能,而且运行效率是最先进方法的80多倍。两大贡献有利于我们的最终业绩: 首先,我们提出并设计了一种新的逐像素膨胀滤波器,其中每个像素都由多尺度核进行滤波,该多尺度核是从线性训练的核预测网络中估计的。其次,我们提出了一种简单而有效的数据增强方法来训练网络,即RainMix,弥合合成数据和真实数据之间的差距。最后,我们在流行且具有挑战性的合成数据集(即Rain100H和Rain1400)以及真实世界的数据集(如SPA和Raindrop)上进行了大规模评估,以全面验证我们的方法,所有这些都证明了我们的方法在效率和降低质量方面的优势。

 未来,我们将研究去线性化对其他计算机视觉任务的影响,例如,对象分割和对象跟踪,以及最先进的DNN测试工作。我们还想从对抗性攻击方法的角度来研究单图像去噪。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 摘要
  • 1、介绍
  • 2、相关工作
  • 3、方法
    • 3.1、去雨的逐像素滤波
      • 3.2、可以学习的逐像素膨胀滤波
        • 多膨胀图像滤波和融合
          •  损失函数
            • 3.3、RainMix缩小真实雨的差距
            • 4、实验
              • 4.1、设置
                • 4.2、在Rain100H&1400数据集上的比较
                  • 4.3、真实世界SPA雨数据集上的比较
                    • 4.4、真实雨点数据集上的比较
                      • 4.5、消融研究
                      • 5、结论
                      领券
                      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档