
走向未来
我们的世界充满了逆问题。当我们观察一个结果,并试图推断导致该结果的原因时,我们就在求解一个逆问题。在医学成像领域,计算机断层扫描(CT)设备捕捉X射线穿过身体后的衰减数据,我们需要据此重建内部器官的图像。在图像处理中,我们拿到一张模糊的照片,并试图恢复其清晰的原始样貌。在机器人技术中,传感器提供了关于环境的零碎信息,机器人必须构建一个完整的世界模型来导航。这些都是逆问题,它们构为现代科学和工程的核心挑战。

从数学角度描述,这些问题涉及一个前向过程。一个我们感兴趣的未知对象(如大脑图像),经过一个已知的物理过程或操作(如CT扫描的 Radon 变换),产生了一个可观测的数据(如探测器读数)。我们的任务是,在已知和的情况下,反向求解。然而,这个反向求解的过程极其困难。

困难的核心在于雅克·哈达玛(Hadamard)在一个多世纪前定义的不适定性(ill-posedness)。一个适定的问题需要满足三个条件:解存在、解唯一、解稳定。逆问题几乎总是破坏第三个条件:稳定性。由于测量过程中不可避免地会引入噪声e,我们的观测数据实际上是。不稳定性意味着,数据中一个极其微小的扰动(即噪声),会导致重建出的解发生灾难性的巨大偏差。一个充满噪声、毫无意义的重建图像对于临床诊断或自动驾驶汽车的感知系统来说是致命的。
因此,解决逆问题的历史,就是一部对抗不适定性的斗争史。这是一场关于如何施加“约束”或“先验知识”的智力演进。这场演进从经典的、基于数学模型的正则化方法开始,发展到现代的、基于海量数据的深度学习革命,并最终走向一个将两者优势精妙融合的混合范式。这个融合范式不仅代表了算法的未来,也正在深刻地重塑人工智能模型、架构乃至底层AI芯片的设计理念。本文的PDF版本及所有参考资料都已收录至走向未来知识星球中,有兴趣的读者可以加入星球获取。
面对不适定性带来的混沌,经典数学方法提供了第一个强大的武器:正则化。正则化思想的核心是承认“解空间”中存在太多可能的、符合观测数据的坏答案。我们必须主动引入额外的知识或偏好,来“正则化”这个解空间,从中挑选出那个我们认为“最好”或“最合理”的解。

这种思想在变分正则化,特别是吉洪诺夫(Tikhonov)正则化中得到了清晰的体现。我们不再是去精确求解 ,而是去求解一个优化问题。这个优化问题包含两个部分:数据保真项和正则化项。数据保真项 确保我们的解在应用前向过程后,与观测数据保持一致。正则化项 则惩罚那些我们不希望看到的解的特性。一个正则化参数负责平衡这两者:太小,解会拟合噪声;太大,解会忽略数据。
这个框架与贝叶斯推断中的最大后验概率(MAP)估计紧密相连。数据保真项对应于噪声模型下的似然概率 ,而正则化项 实际上对应于解的先验概率 的负对数。正则化,就是将我们对解的“先验信念”编码为数学形式。 早期的正则化项很简单,例如吉洪诺夫正则化使用的 范数 。这种正则化偏好“平滑”的解,因为它惩罚解的能量。这在很多情况下能有效抑制噪声,但代价是图像的边缘和细节会被模糊处理,因为边缘是高能量的。
一个重大的突破来自稀疏性正则化。研究者意识到,许多自然信号在某个变换域中是稀疏的。例如,一个信号可能本身不稀疏,但它在小波变换下的系数是稀疏的(大部分系数为零)。这一认知催生了基于 范数的正则化,如基追踪(Basis Pursuit)。 范数具有促进稀疏性的独特数学特性。
在图像处理领域,这一思想演变为全变分(Total Variation, TV)正则化。TV正则化假设自然图像是分片常量的,即图像由大片颜色相近的区域和清晰的边缘构成。因此,它惩罚的是图像梯度的 范数,即 。TV正则化在保持图像边缘(梯度稀疏地不为零)的同时,强力地平滑了边缘内部的区域(梯度为零),在很长一段时间内都是图像去噪和重建的黄金标准。
然而,引入这些复杂的正则化项(如 或 TV)使求解变得困难。它们是凸函数,但不是处处可微的,这使得简单的梯度下降法(Gradient Descent)失效了。为了解决这些问题,数学家们开发了更先进的迭代优化算法。近端梯度下降(Proximal Gradient Descent, PGD)算法被提出来处理这类“光滑项 + 非光滑项”的复合优化问题。PGD 将每一步迭代分解为两步:一个标准的数据保真项梯度下降步骤,和一个作用在正则化项上的“近端映射”(proximal operator)步骤。
对于更复杂的问题,其中前向算子本身也很复杂,算法进一步演化为原始-对偶(Primal-Dual)算法,如 Chambolle-Pock 算法或交替方向乘子法(ADMM)。这些算法将原问题分解为多个更简单的子问题,通过迭代交替求解。
这个经典框架的建立是一个巨大的成功。它提供了一个坚实的、可解释的数学基础。我们知道为什么一个解是好的(因为它最小化了一个明确的目标函数),我们通常还能从理论上证明算法会收敛到一个解。但是,这个框架也存在根本性的局限。无论是 、 还是 TV,这些正则化项都是“手工制作”的通用先验。它们是对“一类信号”(如所有自然图像)的宽泛假设。它们无法捕捉特定领域知识,例如,人脑CT图像的精细结构与肺部CT图像的结构是截然不同的。这种通用性限制了经典方法所能达到的重建质量的上限。
机器学习,特别是深度学习,提出了一种截然不同的范式。这种新范式不再依赖人类专家去手工设计一个“先验” ,而是试图从海量数据中 学习 从观测到解的直接映射关系。
这一革命的核心是神经网络,尤其是为处理图像数据而生的卷积神经网络(CNN)。神经网络本质上是一个高维的、非线性的函数 ,其具体的函数形式由其架构(如层与层的连接方式)和一组庞大的参数(如权重和偏置)共同定义。
针对逆问题,特别是图像到图像的转换任务(例如去噪、去模糊、重建),U-Net 架构被证明是一种极其有效的模型。U-Net 采用了一种对称的编码器-解码器结构。编码器(下采样路径)通过一系列卷积和池化层,逐渐压缩图像的空间维度,同时提取更高层次的语义特征。解码器(上采样路径)则反向操作,将这些高级特征逐渐放大,重建出高分辨率的图像。U-Net 的精髓在于其“跳跃连接”(skip connections),它将编码器中浅层的、高分辨率的特征图直接传递给解码器中对应的层。这种设计使得网络能够同时利用深层的语义信息(“这是一个人脸”)和浅层的纹理细节(“这里的边缘很锐利”),这对于重建高保真图像至关重要。 为了让这个网络 工作,我们需要“训练”它。训练过程本身也是一个优化问题,但其目标与经典正则化截然不同。我们收集一个庞大的“监督”数据集,包含成千上万对 样本(即“带噪声的观测”和“理想的解”)。然后,我们定义一个损失函数,例如 。我们的目标是找到一组参数,使得网络输出与真实解之间的误差最小。
这个大规模优化问题是通过随机梯度下降(Stochastic Gradient Descent, SGD)及其变体(如 Adam)来求解的。在每一步,我们从数据集中随机抽取一小批(mini-batch)样本,计算损失函数关于当前参数的梯度,然后沿着梯度的反方向更新参数。而计算这个庞大函数梯度的核心技术,就是反向传播(Backpropagation),它不过是链式法则在庞大计算图上的高效应用。
数据驱动的方法展现了惊人的力量。在许多基准测试中,一个训练良好的U-Net在重建质量上(如信噪比)显著超越了基于TV正则化的经典方法。原因在于,网络从数据中学习到了一个比TV更复杂、更精确的“先验”。它不再假设图像是分片常量的,而是学习到了“大脑灰质”、“血管分叉”或“人脸皮肤纹理”的具体模式。
这种纯粹的数据驱动方法,也催生了两种主要的实践范式。第一种是“端到端”学习(Fully Learned Bayes Estimation),如 AutoMap 这样的模型,它们试图训练一个巨大的网络,直接从最原始的传感器数据(例如CT的弦图)一步重建出最终图像。第二种是“后处理”(Post-Processing)方法。这种方法更为温和,它首先使用一个传统的、计算上简单的方法(例如伪逆 )得到一个充满噪声和伪影的初步重建,然后训练一个U-Net作为“去噪器”,从中恢复出高质量的。
然而,这场革命也带来了新的焦虑。深度学习模型通常被视为“黑箱”。它们为什么有效?它们的稳定性如何?如果输入一个训练集中从未见过的、分布之外(out-of-distribution)的噪声或伪影,网络是否会产生一个看似合理但完全错误的重建?在医疗诊断或自动驾驶等性命攸关的领域,这种不可预测性和缺乏理论保障是难以接受的。此外,端到端学习方法往往需要海量且难以获取的成对训练数据,并且一旦成像的物理过程(例如CT机的扫描角度)发生改变,整个网络模型可能就需要重新训练。
在经典方法的“可解释性”与学习方法的“强大性能”之间,是否存在一条中间道路?答案是肯定的。过去几年的研究浪潮,正是要构建一个融合二者的混合框架。这个框架旨在将深度学习的强大先验学习能力,无缝嵌入到经典正则化与优化的坚实数学体系中。
这种融合的理论桥梁之一是“收敛的数据驱动正则化”。如讲义中所述,我们可以重新审视经典正则化。Tikhonov 正则化可以被看作是在SVD(奇异值分解)的频谱域上应用了一个特定的滤波器 。这个滤波器是“手工设计”的。那么,我们是否可以 学习 一个最优的滤波器 ?答案是可以的。通过在频谱域上最小化均方误差,我们可以推导出数据驱动的最优线性滤波器。这表明,学习过程可以被视为一种发现最优“正则化器”的过程,从而将经典理论与学习联系起来。
在实践中,最成功、最具影响力的融合范式是“即插即用”(Plug-and-Play, PnP)方法。PnP 的洞察极为深刻。让我们回到经典方法中的近端梯度下降(PGD)算法,它的迭代公式为:
这个迭代由两步组成:第一步是数据保真项的梯度步 ,它利用了我们对物理模型的精确了解。第二步是正则化项的近端映射 。这个近端映射的定义是
这在数学上等价于一个去噪问题:寻找一个解u,它既接近带噪图像v,又满足先验G(u)。
PnP 的核心思想是:用一个通过数据训练的、最先进的深度学习去噪器 (例如一个U-Net) 来 替换 传统的手工近端映射 。
这个简单的替换带来了巨大的好处。我们不再局限于TV等简单先验,而是可以“即插即用”一个从海量数据中学到的、极其强大的图像先验(封装在去噪网络中)。同时,我们保留了经典优化算法的迭代框架。这意味着我们仍然在利用精确的物理模型(在梯度步中),而不是强迫网络去学习物理过程。算法的迭代过程(例如 PGD 或 ADMM)提供了稳定性的外壳,而神经网络在每一步迭代中提供强大的先验指引。
这种混合模型在性能上几乎总是优于纯粹的经典方法和纯粹的端到端学习方法。它兼具二者之长:它利用了物理模型,因此对训练数据的依赖性更小,对物理参数(如扫描设置)的变化更具鲁棒性;它利用了学习到的先验,因此重建质量远超TV等通用模型;它的迭代过程是可解释的,并且在特定条件下(例如去噪器满足某些数学约束,如非扩张性),其收敛性可以得到理论保证。
从经典正则化,到端到端学习,再到即插即用(PnP)混合模型,这不仅仅是一部算法的演进史,它也对人工智能的产品形态和底层硬件(AI芯片)提出了新的需求。
纯粹的端到端学习模型(如AutoMap或后处理U-Net),其计算模式是清晰的:在训练阶段,需要庞大的AI训练芯片集群(如GPU或TPU),执行数天的SGD和反向传播计算。在推理阶段,它需要一个高效的AI推理芯片(如NPU或ASIC),来快速执行一次(或几次)大规模的神经网络前向传播。这种模式推动了当前AI芯片设计的浪潮,即极度优化矩阵乘法和卷积运算。
然而,PnP等混合模型的兴起,预示着一个不同的计算未来。PnP的推理过程不是一次性的前向传播,而是一个 迭代循环。在循环的每一步(例如50次迭代),计算系统需要执行两种截然不同的任务:

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。