前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >​Res-U2Net | 一种无需训练的相位检索模型用于三维结构重建!

​Res-U2Net | 一种无需训练的相位检索模型用于三维结构重建!

作者头像
AIGC 先锋科技
发布2024-07-08 13:05:26
1040
发布2024-07-08 13:05:26
举报
文章被收录于专栏:AIGC 先锋科技

传统的基于深度学习的图像重建方法需要大量的训练数据,这在实践中往往难以获得。未经过训练的深度学习方法通过训练一个网络来反转图像形成过程的物理模型,从而克服了这一限制。 在这里,作者提出了一种新颖的未经训练的Res-U2Net模型用于相位检索。 作者使用提取的相位信息来确定物体表面的变化,并生成其三维结构的网格表示。作者使用GDXRAY数据集中的图像,将Res-U2Net相位检索的性能与UNet和U2Net进行了比较。

1 Introduction

近年来,计算成像领域通过深度学习方法已经取得了显著的进展。深度学习已经成为解决计算成像中遇到的逆问题的一种有前景的方法。开创性的研究已经成功证明了深度学习在光学层析,三维图像重建,相位检索,计算鬼成像,数字全息,散射介质成像,低光照条件下的荧光寿命成像,相位展开,以及条纹分析等应用中的有效性。

在计算成像中使用的基于深度学习的人工神经网络通常依赖于大量标记数据,通过训练过程优化其权重和偏置参数[17]。这种训练使得网络能够学习一个通用函数,能够将物体空间的数据映射到图像空间。尽管传统的优化方法很难解决这种高度非凸的重建问题,但基于深度学习的方法由于其非线性特性而表现出色。此外,这些方法可以利用从大数据集中获得统计知识来推理解决方案。尽管在大多数情况下重建过程是快速的[18],但训练过程可能会很耗时,根据网络架构和数据量,可能需要数小时甚至数天。此外,获取大量且多样化的训练数据集,这对于神经网络的效力至关重要,是具有挑战性的。这对于相位检索问题特别相关,因为在成像装置的变异性下,获取用于训练的详尽的 GT 图像集合通常是不可行的。有限的训练数据从而阻碍了网络的效力和泛化能力。

在成像应用方面的最新进展展示了无监督学习技术的巨大潜力,尤其是那些利用未训练网络的。在不需训练数据的情况下利用神经网络的内在结构,已经取得了显著成果。两个著名的未训练网络例子是深度图像先验和深度解码器,它们有效地利用了网络结构作为图像统计的先验,即使没有预先训练。这种方法涉及使用随机初始化权重的深度网络作为图像生成器来产生恢复的图像。然后通过比较生成的图像与输入数据(如噪声图像)的损失函数,反复更新网络的权重。这种方法在模拟图像去噪,去模糊,相位检索和超分辨率任务中已经显示出显著的有效性。

然而,在许多计算成像问题中,获取的测量数据并不直接类似于重建的图像。相反,一个前向模型控制着场景和测量之间的关系,融入了图像形成问题的底层物理。在相位检索的情况下,这个模型使用物体平面和测量平面的已知强度分布对来构建样本的相位。

存在多种基于幅度的相位恢复算法,其复杂度、通用性和分辨率各不相同,包括Fourier-Born和Gerchberg-Saxton方法。前者在假设物体仅微弱散射光的条件下,为相位恢复问题提供了一个封闭形式的解,而后者是一种更通用但迭代的方法。迭代相位恢复算法通常面临收敛问题,因为这是一个不适定问题:可以再现给定幅度测量集的相位轮廓不是唯一的,测量数据中的微小变化可能导致估计解的显著不确定性。

缓解这些挑战的一种方法是用基于梯度下降的方法替换迭代方法。尽管相位恢复问题通常是一个非凸优化问题,有许多次优的局部极小值,但基于UNet或其他卷积神经网络的神经网络参数化解决方案可以训练以获得良好的解。UNet架构由编码器-解码器结构组成,其中编码器从输入强度数据中捕获高级特征,而解码器从这些特征中重构相位。通过网络设计中融入基于物理的约束和先验,一个增强物理的深度神经网络可以学习更准确地对图像形成过程进行建模。这种整合使网络能够利用控制成像问题的已知物理原理,从而相较于Gerchberg-Saxton等迭代相位恢复方法,提高收敛速率,并改善重构图像的质量和保真度。

在本研究中,作者考虑通过结合衍射模型与卷积神经网络以及相位图像的网格估计来重构2D和3D图像的方法。作者考虑三种不同的神经网络来解决逆问题:UNet 和 U2Net,这两种网络之前用于无监督的相位恢复,以及一种称为Res-U2Net的新架构。作者展示了基于Res-U2Net的架构由于其捕捉图像更细微细节的能力,可以实现比UNet和U2Net更好的性能。特别是,Res-U2Net在降采样和升采样块的形式中增加了额外的层,并通过跳过部分层的残差连接来保持细节。为了比较Res-U2Net与UNet和U2Net的性能,作者使用了GDXRAY 的X射线图像数据集,该数据集提供了尺寸信息。对于2D图像相位的评估,作者使用了标准的评价指标,即无参考图像质量评估(NR-IQA),均方误差(MSE)和偏度。这些指标提供了关于重构3D图像的性能、处理时间和质量的见解。

本文的概要如下:第2部分简要回顾了关于相位检索的前期工作,包括基于深度学习技术的融合。第3部分介绍了作者的物理信息Res-U2Net相位检索模型的架构,作者在第4部分通过数值基准进行了测试。最后,作者在第5部分进行总结。

2 Phase retrieval and deep learning

相位检索问题的目标是根据强度测量值

I

和关于成像系统特性的信息,重建物体的近场剖面

\psi

估计。这些信息由表示成像系统的(可能非线性的)算子

A

表示,将物体与测量强度相关联,

I=\left|A\psi\right|^2. \tag{1}

缺乏相位信息使得一般的逆问题难以解决,因为存在无限多可能的解,这些解可以产生相同的测量强度集。

\tilde{\psi}=\operatorname{argmin}_{\psi}||\tilde{I}-\left|A\psi\right|^2|| _{2}, \tag{2}

其中,

\tilde{\psi}

表示作者想要恢复的估计信号或图像,

\psi

表示要检索相位的图像,

\tilde{I}

是测量强度,

\operatorname{argmin}_{\psi}

表明作者正在寻找最小化下面表达式的参数(在本例中是

\tilde{\psi}

)。给定

I

估计信号

\tilde{\psi}

可以被构造成一个非凸优化问题[42]。缺乏相位信息使得一般逆问题难以解决[40],因为存在无限多可能的解,这些解可以产生相同的测量强度集[41]。

在许多成像设置中,

A

仅仅是一个编码二维傅里叶变换的矩阵,这构成了傅里叶-博恩方法和格氏-萨克斯顿方法等的基础。在这种情况下,

I=I_{z}(x,y)

是距离物体

z

处成像平面

(x,y)

上的强度,通过传递函数

H_{z}

与近场

\psi_{0}(x,y)

相关联,

I_{z}(x,y)=\left|\mathcal{F}^{-1}[e^{-ikz\sqrt{1-\lambda^{2}(k_{x}^{2}+k_{y}^{2 })}}\mathcal{F}[\psi_{0}(x,y)]\right|^2=|H_{z}\psi_{0}(x,y)|^2, \tag{3}

其中

k=2\pi/\lambda

\lambda

是成像波长,

\mathcal{F}

是二维傅里叶变换。在纯相位物体均匀照明的情况下,近场可以写成

\psi_{0}(x,y)=I_{0}e^{i\theta(x,y)}

,目标是使用

I_{z}(x,y)

确定相位剖面

\theta(x,y)

在迭代相位检索方法的情况下,如格氏-萨克斯顿算法,人们会在空间和傅里叶域中迭代更新估计图像

\tilde{\psi}\in\mathbb{C}^{N\times N}

[27]。然而,这类迭代程序有几个缺点。它们往往停滞不前且收敛速度慢,通常需要超过1000次迭代才能达到一个解。此外,它们对初始条件非常敏感。

另外,如果已知物体仅微弱地散射 Prob 光(博恩近似),则近场可以写成

\psi_{0}(x,y)\approx I_{0}(1+i\theta(x,y))

,那么可以得出以下结论:

允许从远场强度的傅里叶变换直接重建近场。对于有关傅里叶相位恢复算法的更多信息,作者建议感兴趣的读者参阅文献 [27, 28, 3]。

为了解决传统相位恢复方法的局限性,引入了基于梯度的算法,如Writinger流(WF)相位恢复[43],这些算法使用梯度下降[44]解决相位恢复问题(1):

其中

\nabla f(\tilde{\psi}^{j})

表示损失函数的一阶梯度,

\mu^{j+1}

表示当前迭代

j

的步长。WF提供了收敛到全局最小解的理论保证。从经验上讲,一组4到8次的强度迭代通常足以收敛到全局最优解。不幸的是,当仅提供一个强度测量值时,WF通常无法收敛到满意的结果,除非可以对目标的形式施加先验约束。

近年来,基于深度学习方法的相位恢复已经进行了大量研究。与其它耗时的基于优化的算法相比,这些方法提供了更快的非迭代推理[26]。这些方法中的大多数可以使用单个傅里叶强度测量值来重建相位,而无需任何额外的约束。如果傅里叶强度测量在各个维度上至少过度采样两倍,这个看似病态的问题可以为原始复数信号提供一个唯一解(只有很小的模糊性)[45, 26]。一般来说,基于深度学习的无监督相位恢复方法可以根据它们是否将潜在的物理原理融入网络进行分类[46]。

基于深度学习的方法的第一类是使用前馈网络直接从傅里叶强度测量估计目标图像[47]。例如,文献[48]提出了一种双分支卷积神经网络(CNN),用于从过度采样的傅里叶强度测量重建三维晶体图像的振幅和相位。尽管这种方法对于具有有限细节的简单图像可以展示出相当好的性能,但其对复杂图像的有效性仍然未知。其它基于条件生成对抗网络[49]和针对傅里叶相位恢复任务的多多层感知器[50]的图像重建方法同样可以适当捕捉简单特征,但在捕捉更细微的细节时会产生相对较大的误差[51]。

基于深度学习的相位恢复方法的第二类旨在通过有效地将潜在物理原理融入其模型,从而提高重建图像的质量[52]。一种这样的方法是通过可学习的光谱初始化[53]融入物理信息,然后使用双分支UNet进行重建。然而,这种方法需要额外的 Mask 方案来对测量施加约束,导致即使是简单图像的重建图像也相当噪声化[54]。另一种提出的方法涉及在级联网络中使用不同大小的多层感知器。在这种方法中,强度测量应用于每个多层感知器以辅助训练和推理[55]。尽管这种方法有其优点,但它难以重建图像的细微细节,并且由于使用了多个多层感知器,需要较大的网络规模[56]。

为了提高神经网络模型的性能,将物理信息原理融入深度学习框架是很有益的。这涉及到训练神经网络有效地学习从观测到的强度数据

I_{z}(x,y)

到相应的近场相位轮廓

\theta(x,y)

的逆映射,使用正向衍射模型[57, 58, 59, 31]。然后,利用估计的相位轮廓作为衍射模型的输入,以获得远场强度的估计;这个估计值与测量强度之间的差异作为一个损失函数,用于训练网络并改进相位估计。UNet是图像处理和计算机视觉领域中的一种流行架构,它可以学习衍射算子的逆[60, 57, 19, 61]。

通过在相位检索过程中整合UNet架构,作者可以在保留传统基于梯度下降的相位检索算法的收敛特性同时,利用深度神经网络的强大表示能力。这种基于UNet的方法在捕捉强度和相位数据之间的复杂交互方面表现出色,这些交互基于问题的底层物理。此外,这个过程还包含了一种逐步精化的方面,与数值分析中的迭代方法不同。这种在多个周期中发生的精化过程,允许逐步改进相位估计。这种方法特别有助于缓解强度数据中初始条件和噪声带来的挑战,从而提高相位检索的准确性[62]。

3 Phase retrieval using Res-U2Net

未经训练的相位检索过程(见图1)涉及应用基于傅里叶的前向模型[26],该模型在第17节定义,以评估输入图像并获得图像平面强度

I_{z}(x,y)

。然后,这个衍射模型被用作未经训练的神经网络的输入,该网络估计近场相位

\tilde{\theta}(x,y)

。作者评估了三种不同的神经网络:UNet、U2Net和Res-U2Net。通过比较由衍射模型

A

(由(3)或(4)指定)使用估计的相位

\tilde{\theta}(x,y)

得到的强度剖面

\tilde{I}_{z}(x,y)

与测量的远场强度

I_{z}(x,y)

,训练神经网络。神经网络通过最小化测量强度和估计强度之间的均方误差(MSE),

||I_{z}(x,y)-\tilde{I}_{z}(x,y)||

,遵循文献[6]中介绍的方法进行训练。通过梯度下降最小化成本函数,允许逐渐改进估计的相位,直到获得所需精度,即后续迭代之间的差异。

Res-U2Net Structure

图1:相位恢复过程的示意图。一个强度图像

I_{z}(x,y)

被输入到神经网络中,返回近场相位的估计值

\tilde{\theta}(x,y)

。衍射模型

H_{z}

将估计的近场相位转换为估计的远场强度分布

I_{z}(\tilde{x},y)

I_{z}(x,y)

I_{z}(x,y)^{*}

之间的均方误差(MSE)作为优化神经网络参数的损失函数。

如图2所示的Res-U2Net架构是UNet和Res-UNet模型的复杂演进版本,特别为图像分割任务设计[31]。该架构创新性地在各个阶段融入了残差连接,增强了训练期间的信息交换和梯度流动。在结构上与UNet相似,它包括下采样和上采样过程。下采样路径由带有批量归一化和ReLU激活的卷积层组成,其后是最大池化层。相反,上采样路径使用转置卷积层来扩大特征图。Res-U2Net相较于UNet的一个关键进展是融合了一系列编码器/解码器模块,将Res-Unet模型(参见图2)与一系列堆叠的U-Net相结合。这种配置,具有下采样和上采样的层,促进了更高效的特征传输并减轻了梯度消失的问题[63]。

Res-U2Net在各个图像分割任务中展现了卓越的能力,超越了原始UNet的性能。尽管其设计主要是用于图像分割,但这并不直接意味着它在相位恢复任务中同样有效,因为相位恢复通常涉及复杂的模式,而不是近乎均匀相位的区域,这挑战了分割聚焦方法会自动在此领域表现优秀的假设。然而,U-Net架构已成功应用于相位恢复[6]。但是,作者旨在探索使用熟悉架构的新可能性。

Res-U2Net执行以下标准操作序列。(见图2a):

  1. Res-UNet:架构并行应用一系列Res-UNet块,使网络能够处理和提取不同尺度或抽象 Level 的特征。
  2. 组合:并行的Res-UNet块提取的特征被组合在一起,以产生更丰富的特征集。

在图2b中,展示了Res-UNet如何执行编码器和解码器操作:

图2:Res-U2Net架构:(a)基于序列多尺度的U2Net模型配置,在网络中整合了残差模型,(b)Res-UNet模型,编码器通过具有批量归一化、ReLU激活(ResBlock)的卷积层(Conv2D)提取特征,并通过最大池化(MaxPooling2D)降低空间分辨率。随后解码器通过使用转置卷积(Conv2DTranspose)的上采样将阶段分配给特征,并带有跳跃连接。残差连接将编码器和解码器层连接起来,以提高训练性能。最后,一个

1\times 440\times 440

卷积层生成分割 Mask ,从而得到网络的输出。

  1. 特征提取(编码器层):模型的这一部分使用卷积层、批量归一化和ReLU激活函数来处理输入图像。卷积层被设计用来通过应用捕获图像中空间层次结构的滤波器来提取特征。当输入通过这些层时,它被转换成一组特征图,这些特征图代表了输入的不同方面。批量归一化有助于通过归一化每层的输入来稳定学习过程,而ReLU(修正线性单元)激活函数引入非线性,使模型能够学习复杂的模式。
  2. 空间分辨率降低:在卷积块之后使用最大池化来减少特征图的空间维度。这个操作有助于使表示更小、更易于管理,同时也引入了一定程度的小平移不变性。
  3. 上采样(解码器层):网络的解码器部分使用转置卷积(也称为上卷积或反卷积)来增加特征图的空间维度。这个过程对于像图像分割这样的任务至关重要,其目标是生成与输入图像大小相同的输出图像。
  4. 跳跃连接:这些连接用于将下采样路径中的特征图与上采样路径中的特征图相结合。通过这样做,网络可以利用高级语义信息和低级空间信息,这对于准确重建输出至关重要。
  5. 残差连接:在连接来自不同层的特征图之后,应用额外的卷积,并将其输出以元素方式添加到连接的输入中。这创建了一个残差块(Resblock),有助于缓解梯度消失问题,并通过促进梯度的更有效反向传播来允许更深的网络。
  6. 上采样与拼接:这一步骤重复上采样和组合网络不同层的特征图的过程。它确保在空间维度恢复到与输入大小匹配时,网络逐步细化输出的细节。
  7. 分割 Mask 生成:最后,作者引入了一个带有sigmoid激活函数的卷积层来生成最终的分割 Mask ,作为神经网络的输出。这一步将输入向量转换为一个矩阵,包含估计的相位信息。得到的矩阵与输入图像的尺寸相匹配,具体大小为
1\times 440\times 440

3D phase reconstruction

作者使用了统一形状来自阴影模型(USFSM)来执行通过相位检索获得的估计图像的3D重建。USFSM方法通过分析二维恢复图像中的空间强度变化来构建三维表示[64]。为了从相位检索图像中提取对应于场景表面点的深度信息,作者采用了快速扫描方法。这种方法采用了Lax-Friedrichs哈密顿技术[65]来求解表面,使用基于文献[32]中描述的快速扫描方案的迭代扫描策略。图3展示了一个示例。

4 Results

作者进行了数值计算,以比较使用Res-U2Net进行相位检索与UNet和U2Net网络的性能,考虑到了傅里叶和傅里叶-泊松衍射模型以及来自GDXRAY数据集的四张

440\times 440

像素的图像,如图4所示。在所有情况下,作者将训练迭代的最大次数限制为1000次。作者使用Python中的Keras框架进行训练[66],在算法中定义了一个停止准则,网络误差容限为

10^{-4}

。计算使用NVIDIA GTX 1080图形处理单元(GPU)执行。

图3:3D相位检索:(a)2D Ray-X测试图像,(b)2D相位检索估计,以及(c)生成的3D网格。

作者根据重建的2D图像和3D网格的质量来评估训练后模型的表现。分析了神经网络和衍射模型的配置,以确定在图像处理时间、图像和网格重建质量方面最有效的方法。### 2D相位检索

图5和图6分别展示了使用傅里叶和傅里叶-泊松衍射模型的不同神经网络得到的估计相位剖面。对于不同复杂性的图像,图像处理时间从0.5秒到5秒不等。网络之间的区别在于产生的相位图像在细节和对比度上。

为了量化相位重建的性能,作者使用了NR-IAQ,首先考虑了BRISQUE(盲目/无参考图像空间质量评估器)方法[67]。这种方法评估图像的统计特性以估计其质量,分数越低表示图像质量越好,分数越高表示质量越差。表1中的BRISQUE得分显示,在通用傅里叶成像和弱相位对比度特殊情况(傅里叶-泊松近似)下,Res-U2Net一致优于UNet和U2Net。Res-U2Net始终获得最低的BRISQUE得分,表明其具有产生感知质量最高图像的优越能力。

接下来,作者考虑了NIQE(自然图像质量评估器)[68],它评估了诸如纹理、锐度和熵等因素。NIQE值越高,表示图像的感知质量越低;而值越低,则表明质量越高。表2中呈现的NIQE得分显示出与BRISQUE相似的趋势。同样,Res-U2Net在所有图像类型上获得最低的分数,表明了更高的图像质量和增强了对比度水平,如图5和图6所示。

3D Retrieval Phase

接下来,作者应用了Shape-From-Shading模型(USFSM)从傅里叶和傅里叶-泊松衍射模型得到的2D相位剖面重建3D图像。结果的图像展示在图7和图8中。

为了量化3D图像重建的性能,作者计算了均方误差(MSE)和偏度[36],偏度定义了3D形状的对称性。接近0的偏度值表明网格最佳,接近1的值表示在归一化测试图像(图4)的3D网格与通过相位重建得到的3D网格之间完全退化的网格[69]。结果可以在表3和表4中找到。

观察MSE值,与另外两个神经网络相比,UNet在两种衍射模型中的性能都略差。再来看偏度值,UNet的表现同样最差,表明重建的3D图像空间分辨率较低,限制了其区分测试物体表面细节的能力,这在图7和图8中可以看得很清楚。与此同时,U2Net和Res-U2Net在傅里叶-泊松衍射模型上显示出明显更好的偏度值。作者还注意到,与其他神经网络模型相比,融合了基于物理的前向衍射模型的方法往往会产生更低的偏度值。

5 Conclusions

在本研究中,作者探讨了将物理信息深度学习技术用于相位检索的可行性,特别考虑了从X射线图像中检索相位的例子。作者的主要目标是评估这些方法在2D和3D成像中的有效性。作者对三种神经网络—UNet、U2Net和Res-U2Net—进行了彻底的分析,以确定它们在X射线成像中用于无监督傅立叶相位检索的适用性。作者的研究结果显示,在2D和3D重建方面都有显著改进,处理时间从0.5秒到5秒不等。特别是,作者在从GDXRAY测试图像生成的3D网格中观察到了背景细节的增强和偏度评分的改善。特别是Res-U2Net表现出作为生成高质量2D傅立叶相位检索图像的鲁棒方法的潜力。另一方面,UNet可能需要进一步优化以达到其对应方法的效果。这项调查突显了神经网络模型与基于物理的前向模型之间的协同作用,为3D网格标准化测试图像中的相位检索任务提供了一种有效的处理方法。

未来的研究应关注探索额外的评估指标并改进这些模型,以优化它们在特定成像应用中的性能。例如,可以集成生成对抗网络(GANs)以提高网络对噪声的鲁棒性,并在图像相位估计过程中减少引入的伪迹[70]。Res-U2Net可以适应于其他光谱波段图像的相位检索,并且还可以应用于不同领域,如生物医学成像中发现的其它成像问题。

参考

[1].Res-U2Net: Untrained Deep Learning for Phase Retrieval and Image Reconstruction.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-04-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AIGC 先锋科技 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 Introduction
  • 2 Phase retrieval and deep learning
  • 3 Phase retrieval using Res-U2Net
  • Res-U2Net Structure
  • 3D phase reconstruction
  • 4 Results
  • 3D Retrieval Phase
  • 5 Conclusions
  • 参考
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档