首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >保形风险训练:保形风险控制的端到端优化

保形风险训练:保形风险控制的端到端优化

作者头像
CreateAMind
发布2026-03-11 18:06:29
发布2026-03-11 18:06:29
1080
举报
文章被收录于专栏:CreateAMindCreateAMind

保形风险训练:保形风险控制的端到端优化

Conformal Risk Training: End-to-End Optimization of Conformal Risk Control

https://arxiv.org/pdf/2510.08748

摘要

尽管深度学习模型通常能达到很高的预测准确率,但其预测结果通常缺乏关于风险或可靠性的可证明保证,而这种保证对于高风险应用场景中的部署至关重要。共形风险控制(Conformal Risk Control, CRC)框架提供了一种无需分布假设、适用于有限样本的方法,用于控制任意有界单调损失函数的期望值,并可方便地作为后处理步骤应用于任何预训练的深度学习模型。然而,许多现实世界的应用对尾部风险(tail risks)非常敏感,而不仅仅是期望损失。在本文中,我们提出了一种方法,用于控制一类广义的“优化确定性等价”(Optimized Certainty Equivalent, OCE)风险——这是一类广泛的风险度量,其特例包括期望损失(从而推广了原始的CRC方法)以及常见的尾部风险,如条件风险价值(Conditional Value-at-Risk, CVaR)。此外,标准的后处理式CRC由于在模型训练中缺乏反馈机制,可能会损害模型在平均情况下的性能。为解决这一问题,我们提出了“共形风险训练”(conformal risk training)——一种端到端的方法,在模型训练或微调过程中对共形OCE风险控制进行可微分优化。我们的方法在提供可证明风险保证的同时,在控制分类器假阴性率和电池储能运行中的金融风险等任务上,显著优于后处理方法的平均性能。

1 引言

我们研究用于潜在高风险下游决策的深度学习模型训练问题。例如,在肿瘤分类等高风险任务中,医生不仅需要模型具备良好的整体分类准确率,还需要其假阴性率(即将恶性肿瘤误判为良性)具有可证明的上界,以确保模型预测充分重视假阴性所带来的健康风险。在此类场景中,设计一种统一的方法(包括训练模型和决策策略)以同时控制所需风险水平并最大化下游决策效用至关重要。

风险控制(risk control)是一种有前景的范式。给定一个(预训练的)模型,其预测结果被一个由参数 λ ∈ Λ 参数化的决策策略所使用,目标是选择 λ 使得 E[L(λ)] ≤ α,其中 L 是某个损失函数,α 是预设的风险水平。许多常见目标均可表述为风险控制问题:例如限制分类器的假阴性率、生成满足目标覆盖率的预测不确定性集合、确保大语言模型输出的事实性等 [6, 29]。

共形风险控制(CRC)方法 [6] 为解决风险控制问题提供了一个充分条件,前提是损失函数 L 是单调的。尽管CRC简洁而优雅,但其原始形式存在若干局限性。首先,CRC仅能控制损失 L 的期望值,而现实世界高风险问题往往需要更通用的风险概念。值得注意的是,原始CRC论文 [6] 明确提出了一个开放问题:如何将方法扩展到期望损失之外的更一般风险度量,例如条件风险价值(CVaR)。其次,由于CRC纯粹作为后处理步骤(即仅作用于预训练模型的输出,而不向模型提供任何反馈),可能会显著降低模型性能。

在本文中,我们提出了一种称为“共形风险训练”的理论与算法框架,将CRC扩展至支持端到端训练,并适用于CVaR等尾部风险形式。我们的主要贡献如下:

  1. 首先,我们开发了一种用于控制广义优化确定性等价(OCE)风险的风险控制方法。OCE是一类广泛的风险度量,其特例包括期望损失(从而推广了原始CRC方法)和条件风险价值(CVaR)[50]。特别是,CVaR形式部分回答了原始CRC论文 [6] 提出的开放问题。关键洞见在于:任何OCE风险均可通过损失函数的单调变换进行上界约束,从而保留CRC类方法所需的单调性。
  2. 其次,我们提出了“共形风险训练”方法,将模型训练与共形风险控制过程端到端联合优化。该方法显著推广了先前针对不确定性集合的共形训练方法 [47, 51],将其扩展至共形风险控制场景。该方法使模型具备“风险感知”能力——即在最大化性能的同时,主动学习生成能最小化下游风险的预测。
  3. 最后,我们通过实验证明,使用共形风险训练对模型进行微调,能在保证满足风险约束的前提下,显著提升性能。我们在肿瘤图像分割任务中展示了在控制假阴性率的同时最大化模型特异性(specificity)的结果,以及在电池储能运行任务中展示了在控制损失尾部风险的同时最大化平均利润的结果。

相关工作。以往探索后处理式共形风险控制的研究,要么对单调损失函数的期望进行上界约束,要么对(可能更一般的)损失提供高概率风险上界。我们使用“后处理”一词指代那些仅作用于预训练预测模型输出、而不进一步微调模型的程序。在期望损失上界的研究中,共形预测(Conformal Prediction, CP)[49, 45, 4] 针对集合值预测控制期望的覆盖不足损失,而共形风险控制(CRC)[6] 将CP推广至任意有界单调损失函数的期望控制。对于高概率风险上界,Risk-Controlling Prediction Sets(RCPS)[9] 控制集合值预测器在单调损失下的期望损失,而Learn Then Test(LTT)[5] 可处理更一般的风险和非单调损失,但通常因需进行族系误差校正(family-wise error correction)而导致上界较宽松。近期,[16] 针对包含CVaR在内的扭曲风险度量(distortion risk measures)族提出了高概率上界。虽然[6]展示了如何将高概率风险上界转化为期望风险上界,但尚不清楚其方法能否直接扩展以控制CVaR等更一般的风险。据我们所知,本文是首个提供确定性(而非高概率)风险上界的共形类方法,且适用于期望损失之外的风险度量(针对单调损失函数)。

共形预测(CP)文献中已有若干工作探索在训练过程中校准模型不确定性。“共形训练”(Conformal Training)[47] 及相关研究 [21, 17, 39] 提出了在模型训练中可微分地融入CP的方法,通过将每个小批量的一部分视为伪校准集来实现。这些工作主要聚焦于缩小校准后的预测集合大小。相比之下,我们的共形风险训练方法是首个在模型训练中可微分地融入共形风险控制的方法,并兼容更广泛的性能目标,例如降低分类器的假阳性率或最小化期望决策损失。我们在附录E中证明,共形训练是本方法的一个特例。

在共形预测文献之外,机器学习领域已有若干工作(如 [33, 20, 35])将风险敏感目标引入学习过程;尽管这些方法可能降低CVaR等风险,但它们不提供风险控制的可证明保证。

最后,我们的工作与“预测后优化”(predict-then-optimize)[22] 和决策聚焦学习(decision-focused learning)[37, 44] 相关,尤其是日益增长的“决策聚焦不确定性量化”(decision-focused UQ)文献。这些方法旨在生成既能优化下游决策目标又能保持校准性的预测集合。其中一些方法作为后处理步骤应用于(可能与决策无关的)模型 [48, 18, 31],另一些则将共形训练与决策聚焦学习结合 [25, 51]。我们的共形风险训练方法建立在这一决策聚焦UQ文献基础上:以往工作主要关注集合值预测及其相关风险,而我们的方法支持更广泛的风险度量。

论文结构。本文结构如下:第2节介绍整体问题设定并回顾标准CRC结果;第3节提出我们对OCE风险共形控制的广义框架(标准CRC为其特例),并展示该框架在CVaR风险情形下可进一步放宽假设;第4节介绍共形风险训练过程,并讨论如何计算风险控制参数的梯度;第5节展示关键实验结果;第6节总结全文。附录A提供额外实验结果,所有证明见附录C。

2 保形风险控制的预备知识与背景

在机器学习(ML)模型的训练与部署中,一个主要目标是既要实现良好的整体性能,又要通过控制某种风险概念来确保可靠的部署。为实现这一双重目标,现有方法通常遵循两阶段的“预训练,然后风险控制”方法。首先,一个参数为 θ ∈ Θ ⊆ ℝᴰ 的机器学习模型被训练以最小化一个标准训练目标,例如分类任务中的交叉熵。然后,在训练完成后,决策者对模型应用一个后处理的风险控制程序,以保证风险具有可证明的上界。形式上,令 L : Θ × Λ → ℝ 表示一个(随机)映射,它将模型参数 θ ∈ Θ 和一个“激进程度”参数 λ ∈ Λ 映射到某个损失值。决策者旨在选择参数 λ,以确保风险——即损失 L 的期望值——被限制在一个选定的水平 α:

𝔼[L(θ, λ)] ≤ α. (1)

例如,在肿瘤图像分割问题中,L 可能表示从随机抽取的图像中假阴性像素所占的比例,而 α 是期望的假阴性率(FNR)的上界。激进程度参数 λ ∈ [0, 1] 可被选作区分阳性预测与阴性预测的阈值。因此,较小的 λ 将产生更多的阳性预测和更低的假阴性率,而较大的 λ 将产生更多的阴性预测和更高的假阴性率。有关此任务的更详细描述,请参见例1。

文献中已提出了多种用于控制预训练机器学习模型风险的后处理方法。其中最著名的是共形风险控制(CRC)[6] 方法,它提供了一种无需分布假设、适用于有限样本的方法,可严格实施风险上界(1)。在本节余下部分,我们将省略模型参数 θ 作为损失函数 L 的输入,因为相关结果不仅适用于控制机器学习模型决策风险的情形。

CRC 假设决策者拥有一个包含先前损失函数

的数据集,并且目标是控制下一个实例的边际损失:

。这可以在若干温和的假设下实现。

3 面向优化确定性等价的共形风险控制

前一节描述了通过控制期望损失来实现风险约束(1)。然而,在现实世界高风险应用中,决策者可能希望控制的风险不仅限于期望损失,特别是当他们对特定量级的损失特别敏感时。一般而言,他们面临的问题是在某个选定的风险度量 R下控制其损失 L,其中 R是从随机变量映射到实数 R的函数:

尽管上一节所述的CRC方法在某些特殊情形下(例如当风险度量 R为分位数时,参见[6, 第4.2节])可推广以实现更一般的风控目标(3),但仍有许多重要的风险概念无法直接通过该方法处理。例如,在[6, 第4.2节]中,作者提出了一个问题:当 R为条件风险价值(Conditional Value-at-Risk, CVaR)——一种在金融和能源系统应用中常见的风险度量 [42, 32, 38, 36] ——时,CRC 或其他方法是否能够被扩展以强制满足风险控制约束(3)。

在本节中,我们对此问题给出了肯定的回答,并证明事实上,CRC 可以被推广至控制一大类被称为“优化确定性等价”(Optimized Certainty Equivalent, OCE)的风险度量,其定义如下:

定义1([10, 11]):一个将实值随机变量 X映射到实数 R的风险度量 R称为优化确定性等价(OCE)风险度量,如果 R[X]可表示为:

尽管我们在本节提出的共形OCE和CVaR风险控制方法能够控制比原始CRC框架广泛得多的风险类型,但这种后处理式风险控制程序在机器学习模型部署时仍可能带来显著的性能代价。例如,将CRC应用于控制肿瘤分割模型的假阴性率,可能会导致假阳性率大幅上升(参见我们实验中的图1)。由于CRC被设计为仅作为后处理步骤应用于预训练模型,目前尚无方法可以缓解由此带来的性能下降。为了在保证风险可控的同时提升模型性能,更优的策略是在训练或微调模型时直接施加一个强制实现风险控制的约束。设计实现这一目标的方法论,正是下一节的重点。

4 一致性风险训练

4.1 在共形风险训练中计算梯度

需要注意的是,在考虑某些OCE风险(例如定理3中的CVaR)时,非递减性假设(假设2)可以像定理2中那样,以类似方式放宽为单调性假设(假设5)。

共形训练(conformal training)[47] 的梯度可视为上述情形 (i) 的一个特例(参见附录E)。我们现在说明,情形 (i) 也直接适用于例1中所考虑的假阴性率(FNR)损失。

5 实验 在本节中,我们在两个问题上展示了共形风险训练方法的实验结果:(1) 肿瘤图像分割中的假阴性率(FNR)控制 [6];(2) 电网级电池储能运行中损失的条件风险价值(CVaR)控制 [19]。用于复现实验结果的代码已在 GitHub 上公开²,更多实验结果与细节见附录 A 和 D。

5.1 肿瘤图像分割中的假阴性率控制 我们采用文献 [6, 第3.1节] 中研究并已在例1中描述的结肠镜肠道息肉图像分割问题设定。我们使用预训练的 PraNet 模型 [23] 作为模型 fθ,并将来自4个公开数据集(CVC-ClinicDB [13]、CVC-ColonDB [12]、ETIS-LaribPolypDB [46]、Kvasir-SEG [28])的图像划分为训练集、校准集和测试集。

在图1中,我们在测试集上比较了三种不同模型的假阴性率(FNR)与假阳性率(FPR):(1) 直接对预训练 PraNet 应用“后处理式 CRC”;(2) “交叉熵”指先使用交叉熵分类损失对 PraNet 进行微调,再应用 CRC;(3) “共形风险训练”指使用第4节所述方法对 PraNet 进行微调。对于每种模型,我们尝试了10种不同的随机种子来划分校准集和测试集,并在三个不同的目标 FNR 值(α = 0.01、0.05、0.1)下进行评估。

如图1所示,所有三种模型的期望 FNR 均被有效控制在目标水平 α。然而,对于“后处理式 CRC”和“交叉熵”这两种基线方法,应用后处理 CRC 会显著增加 FPR——当目标 FNR 为 1% 时,FPR 甚至高达 80%。相比之下,我们的共形风险训练方法在不同 α 水平下平均将 FPR 降低了 23% 至 42%。此外,我们的方法得到的 λ 平均值明显大于基线方法,表明该方法在维持风险保证的同时,降低了决策的保守性。

5.2 控制电池储能运营中的CVaR尾部风险

6 结论 我们提出了共形OCE风险控制方法,这是对原始CRC(共形风险控制)过程的严格推广。特别地,该方法使我们能够直接控制条件风险价值(CVaR)等尾部风险,而以往工作仅能控制期望损失或提供高概率风险上界。我们还提出了共形风险训练方法,将共形预测中的共形训练过程推广至共形OCE风险控制场景。实验表明,与仅使用后处理式CRC相比,我们的方法在模型性能上取得了显著提升。

局限性与未来方向。共形OCE风险控制的主要局限性与标准CRC相同:其风险控制保证仅适用于单调且可交换(exchangeable)的损失函数。对于共形风险训练,尽管我们在一些常见情形下推导出了精确梯度,但尚未对梯度存在的充分条件给出完整刻画。

未来工作可进一步研究共形OCE风险控制上界的紧致性,并探索将CRC推广至其他风险度量族,例如扭曲风险度量(distortion risk measures)[16] 或一致性风险度量(coherent risk measures)[7]。我们相信,共形OCE风险控制将在金融、机器人和大语言模型(LLM)对齐等高风险应用中具有特别重要的价值,因为在这些领域,可证明的尾部风险保证至关重要。

原文链接:https://arxiv.org/pdf/2510.08748

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-11-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CreateAMind 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档