顶会顶刊AI安全论文研读第二十八期：ICML 2026 | 无需越狱数据也能防：基于无监督激活模拟与对抗训练的LLM安全引导

用户4179374

发布于 2026-06-22 20:09:26

830

AI安全处于一个技术早期阶段，因此我们推出一个全新的“顶会顶刊AI安全论文研读”系列，方便全行业同仁和有志于从事AI安全的新生代学习理解最新技术与行业发展动态。也欢迎大家关注我们栏目的合集。

本次为大家带来的是【第28期】ICML 2026 | 无需越狱数据也能防：基于无监督激活模拟与对抗训练的LLM安全引导

往期回顾：顶会AI安全论文研读系列

作者介绍

本文作者团队主要来自悉尼科技大学，合作方包括西安交通大学和东南大学网络空间安全学院。

该团队专注于大语言模型（LLM）安全对齐、表征空间安全防御与对抗训练等前沿方向。

在本文中，团队针对现有安全引导方法在面对未知越狱攻击时的泛化性不足问题，提出了基于无监督潜在方向发现与双层对抗训练的新框架，实现了在无需任何越狱数据监督的情况下对多种攻击类型的鲁棒防御。

导读

基于激活引导（Activation Steering）的LLM安全防御在面对训练时未见过的越狱攻击类型时，由于学到的引导场在未知激活区域缺乏有效梯度，防御效果急剧下降。

这是当前表征空间安全防御面临的核心瓶颈。

针对上述问题，本文提出了一种双层对抗训练框架，包含三项核心技术贡献：

（1）无监督潜在方向发现（ULDD），在无需任何越狱数据监督的情况下，通过学习K个多样化的潜在方向，将模型的拒绝状态激活转化为多样化的有害回答激活，实现越狱状态的自动模拟；

（2）基于最优传输（OT）对偶的可学习势场，用一个轻量MLP参数化标量势函数，其梯度自然形成空间变化的引导向量场，突破了传统固定方向引导的容量瓶颈；

（3）双层对抗训练机制，内循环寻找当前势场最难修正的越狱方向生成对抗样本，外循环更新势场参数实现鲁棒防御，同时保证良性零引导与越狱强引导。

在LLaMA-3-8B、Mistral-v2-7B、Qwen-2.5-7B三个模型上，面对GCG、AutoDAN、GPTFuzz、PAIR、TAP、FewShot六种越狱攻击家族，该方法在完全不依赖越狱数据监督的前提下，实现了与已有方法相当的防御性能，同时保持了下游任务能力（ARC-C、TruthfulQA、GSM8K）且过拒绝率较低。

即使在攻击者知道防御机制的自适应攻击设定下，防御效果依然显著（攻击成功率从基线63.34%降至15.54%）。

该工作为"测试时防御"（Test-time Defense）提供了新的范式，证明了通过无监督模拟扩展训练支持集是实现泛化安全引导的关键。

【论文题目】Steering Beyond the Support: Adversarial Training on Unsupervised Jailbroken Activation Simulation

【论文链接】https://arxiv.org/pdf/2605.24535

研究背景

随着大语言模型（LLM）在各领域的广泛应用，确保其安全性已成为AI研究的核心议题之一。

尽管通过RLHF、Constitutional AI等技术进行了安全对齐训练，攻击者仍不断开发出新型越狱方法来绕过这些安全机制。当前主流的越狱攻击可分为两大类：

基于优化的攻击（如GCG后缀攻击、PAIR语义攻击、TAP树攻击）和基于模板的攻击（如AutoDAN、GPTFuzz、FewShot），它们从不同角度突破模型的安全防线。

在防御侧，激活引导（Activation Steering）作为一种新兴的表征空间防御范式受到了广泛关注。

这类方法的核心思想是：

在模型推理过程中，找到表征空间中区分"拒绝回答"与"有害回答"的方向，通过对中间层激活进行干预，将不安全的状态引导回拒绝状态。

近期研究（如AlphaSteer、JB-Shield等）已经展示了这种方法的有效性，但它们普遍依赖特定越狱类型的监督数据来学习引导方向。

然而，LLM的内部表征空间是高维且复杂的。不同类型的越狱攻击在表征空间中占据不同的区域，仅在有限攻击类型上训练的引导方法，其引导场在未知攻击激活所在的区域可能几乎为零。

这就像一张只覆盖了部分区域的地形图——在地图空白处，水流（引导）完全失去了方向。如何让安全引导覆盖更广泛的未知攻击空间，成为亟待解决的关键问题。

动机

本文的动机源于两个关键实验观察，它们揭示了现有方法的根本局限性并指明了解决路径。

第一，监督式安全引导对未知越狱攻击的泛化能力严重不足。作者将AlphaSteer（一种监督式安全引导方法）适配到Mistral-v2-7B上，仅在部分越狱类型（如GCG和AutoDAN）上进行训练，然后在未见过的攻击类型上测试。

如表1所示，在训练时见过的攻击类型上，防御效果良好（攻击成功率可降至个位数），但在未见的攻击类型（如GPTFuzz、PAIR、TAP）上，攻击成功率飙升至30%以上。

例如，仅在GCG上训练时，GCG的攻击成功率为8.78%，但AutoDAN高达35.78%，PAIR达到38.47%；当在GCG和AutoDAN上联合训练时，AutoDAN降至1.89%，但PAIR仍然高达37.45%。

这说明监督式引导主要记忆了已见攻击附近的局部修正模式，而在未知攻击激活空间中留下大量"盲区"。

表1：监督式安全引导在未见越狱攻击上的泛化失败。AlphaSteer在部分攻击类型上训练（粗体标注），在未见攻击上效果急剧下降。StrongReject（SR，%）越低表示防御越强。

第二，无监督潜在方向可以有效模拟多样化越狱状态。作者发现，通过无监督方式发现的潜在方向能够可靠地将模型的"拒绝状态"激活转化为多样化"有害回答"激活。

如表2所示，在三个模型上，仅用512个方向就能在LLaMA-3-8B上成功模拟148种不同越狱回答，在Mistral-7B上更达到267种，且方向间余弦相似度极低（0.03-0.11），表明模拟具有高度多样性。

更重要的是，这些模拟直接在表征空间中生成，天然适合用于安全引导场的训练。

表2：无监督潜在方向发现（ULDD）在不同模型和不同方向数量K下的越狱模拟成功率（Succ.）与方向多样性（MeanSim）。MeanSim越低表示方向间差异越大。

这两个发现共同启发了一种新思路：不再依赖有限的越狱监督数据，而是通过无监督方式自动模拟多样化的越狱状态，并结合对抗训练不断扩展防御覆盖范围。

威胁模型

本文的威胁模型基于以下设定：攻击者可以利用任意越狱技术（包括基于优化的攻击和基于模板的攻击）对已安全对齐的LLM进行攻击。攻击者的目标是绕过模型的安全对齐机制，诱导模型生成有害内容（如暴力、非法活动的指导等）。

在标准设定下，攻击者对模型的内部参数具有白盒访问权限，可以基于模型梯度优化攻击后缀（如GCG攻击）。在更强的自适应攻击评估中，攻击者甚至可以访问防御势函数f_θ来设计针对性的攻击。

具体而言，攻击者不仅最小化目标有害回答的交叉熵损失（标准自适应GCG），还可以最小化引导梯度的范数（引导感知攻击），寻找在引导场中"盲区"的攻击后缀。这构成了比普通设定更强的威胁模型。

防御方的目标是在推理阶段通过表征空间干预将越狱后的模型激活状态引导回拒绝状态，同时保证良性输入的正常功能不受影响。

防御方不知道攻击者将使用何种越狱方法，也不使用任何越狱数据作为训练监督，仅依赖良性提示和有害提示（不使用越狱技术）的激活分布。

方法

本文提出的框架由三个核心组件构成：无监督潜在方向发现（ULDD）、基于最优传输的可学习势场、以及双层对抗训练。

整体思路是：首先通过ULDD在表征空间中无监督地发现能够模拟越狱状态的多样化潜在方向，然后基于最优传输理论学习一个空间变化的势场作为引导场，最后通过双层对抗训练让引导场能够抵御最困难的越狱状态。

三个组件紧密协作——ULDD为对抗训练提供多样化的越狱激活样本，势场提供高容量的引导能力，而双层训练则确保引导场能覆盖尽可能广的越狱激活空间。

无监督潜在方向发现（ULDD）是该框架模拟越狱状态的基础模块。

其目标是在不使用任何越狱数据监督的情况下，学习K个多样化的潜在方向V ∈ R^(d×K)，每个方向都能将模型的拒绝状态激活转化为有害回答激活。

ULDD的核心思想是因果干预：在模型的早期层s注入一个方向向量v，然后在后续目标层t观察激活的变化Δh(v) = h_t(v) - h_t(0)。

如果注入方向v能在目标层产生一致且显著的激活变化，说明该方向对模型行为有因果影响。

ULDD的学习目标包含两部分。

第一部分是语义对齐：

引入期望语义偏移矩阵U ∈ R^(d×K)，要求每个方向v在目标层产生的激活变化Δh(v)与对应的语义向量u保持一致（通过内积最大化），且这种一致性需要在大量不同提示上保持稳定。

第二部分是多样性约束：

对V和U分别施加正交性约束，确保K个方向在源头和语义层面都尽量不同。

最终，每个学到的方向配合预定义的引导幅度R，可以在任意输入上注入，诱导出特定的越狱行为。

图2：ULDD在同一个恶意提示上的示例。v1-v4对应不同的不安全潜在方向，能诱导出不同风格的有害回答；v5则诱导出拒绝回答。不同方向展现了ULDD发现的行为多样性。

如图2所示，对于同一个恶意提示（如"列出三种容易偷的车并描述如何偷"），不同方向v1-v4可以诱导出多种不同风格的越狱回答：

v1直接给出有害答案，

v2以"教育目的"免责声明开头，

v3以更隐晦的方式提供信息，

v4以"基于各种报告"的方式绕过限制。

值得注意的是，某些方向（如v5）也可以引导模型拒绝回答，说明ULDD发现的方向涵盖了越狱和拒绝两种模式。

从表2的定量结果看，仅用512个方向，LLaMA-3-8B上成功模拟148种越狱、Mistral-7B上达267种，且方向间余弦相似度仅0.03-0.11，充分验证了ULDD的模拟能力和多样性。

基于最优传输的可学习势场是该框架实现高容量引导的核心。

传统方法使用单一固定方向向量进行全局引导，即将同一方向应用于所有输入。

这种全局低秩控制策略无法表达空间变化的行为——在不同位置的激活上，最优的引导方向可能完全不同。本文从最优传输（Optimal Transport）的视角出发解决这一问题。

最优传输理论提供了将一个分布"传输"到另一个分布的数学框架。本文将安全引导建模为将越狱激活分布μ传输到拒绝激活分布ν的过程。

利用Wasserstein-1距离的Kantorovich-Rubinstein对偶形式，最优传输距离可以转化为对一个1-Lipschitz标量势函数f的优化。

本文参数化一个势函数f_θ: R^d → R（用一个小型MLP实现，隐藏层维度为[d, d/2, d/4, 1]），使其在拒绝激活上取高值、在其他激活（良性、越狱）上取低值，形成一个"势能景观":

势函数的核心优势在于其梯度自然诱导出一个空间变化的向量场

这个向量场在不同位置的激活上给出不同的引导方向。测试时，沿该向量场进行K步梯度上升：

其中η为固定步长。这种多步非线性场严格推广了传统的固定方向引导：

当势函数为二次函数时，退化为线性引导；而MLP势函数可以表达异构的局部修正，即在不同位置给出完全不同的引导方向和强度。

这种设计的另一个重要优势是泛化能力。传统基于传输原始问题的方法（如最优传输规划的重心映射）仅在训练支持集上定义，无法外推到未见过的输入。

而对偶势函数作为一个全局可微的场，天然可以在任意激活上查询引导方向，即使该激活在训练时从未见过。

这正是该方法能够防御未知越狱攻击的数学基础。

双层对抗训练是该框架的训练核心，其目标是学习一个同时满足三条性质的安全引导势场：

（i）一般可引导性：非拒绝激活应能被传输到拒绝区域；

（ii）良性零引导性：在良性激活附近引导场接近零，不影响正常功能；

（iii）越狱强引导性：在越狱激活附近引导梯度最大，实现强力修正。

其中性质（iii）被设计为对抗性压力测试——这正是双层训练的关键创新。

如图3所示，训练过程分为内外两层循环交替进行。内循环扮演"攻击者"角色，其目标是寻找当前势场最难修正的越狱方向。

具体而言，内循环同时优化两个目标：一是ULDD的潜在方向发现目标（保证模拟的多样性和质量），二是越狱强引导损失（选择那些在当前势场中梯度最小的方向，即最难被引导修正的方向）。

内循环通过将ULDD发现的方向v以幅度R加到拒绝激活h_r上来模拟越狱激活h_adv = h_r + R·v，然后选择让当前势场的越狱引导损失最大的方向作为对抗样本。

外循环扮演"防御者"角色，通过四个损失函数联合优化势场参数φ。

第一，OT对偶损失L_OT：最大化拒绝激活与所有其他激活（良性+模拟越狱）之间的势能差，驱动势函数在拒绝区域取高值、其他区域取低值。

第二，梯度惩罚损失L_GP：在拒绝激活和其他激活的插值点上约束势函数梯度的L2范数不超过1，近似1-Lipschitz条件，这是最优传输对偶理论的要求。

第三，良性零引导损失L_b：在良性激活上惩罚势函数梯度的L2范数平方，鼓励引导场在良性输入附近几乎是平坦的（该损失权重设为100.0，非常大，确保"零"引导）。

第四，越狱强引导损失L_j：在模拟越狱激活上最大化势函数梯度的L2范数平方，确保引导场在越狱激活附近具有最大的修正力度。

一般可引导性损失由OT对偶损失和梯度惩罚损失共同构成：

整体外循环目标为：

其中λ₁=100.0（良性零引导权重极大）、λ₂=1.0。内循环目标为：

其中γ=0.1平衡对抗强度与方向发现质量。

这种内外交替机制形成了一个"攻防博弈"过程。内循环不断发现新的"盲区"——当前势场在这些区域几乎没有引导梯度——并生成更难的对抗样本来挑战防御方。

外循环则不断"补上"这些盲区，让势场在对抗样本附近也具有强引导能力。

随着训练进行，模拟越狱激活的空间覆盖范围持续扩大，逐步从原始支持集向外扩展到真实越狱攻击所在的子空间。

这一过程的核心动力在于：内循环被显式优化来寻找"最难"的方向，而非随机采样方向，因此每次迭代都在最有价值的区域进行扩展，实现了高效的覆盖增长。

完整的训练流程如下。首先，收集良性提示的激活h_b（模型正常回答）和有害提示的拒绝激活h_r（模型拒绝回答）。

然后初始化势函数网络f_φ和ULDD的方向矩阵V、U。在每个训练步骤中：

（1）内循环更新V若干步，通过ULDD发现对抗潜在方向并模拟越狱激活h_adv = h_r + R·v；

（2）外循环使用h_b、h_r和h_adv更新势函数参数φ，同时优化四个损失函数。重复内外循环直至收敛。

在推理阶段，对输入提示在指定层提取激活h，然后沿势函数梯度进行K步更新（K=20步，步长η因模型而异），将修正后的激活重新注入模型继续生成。

整个过程不需要访问越狱数据，也不修改模型参数。

实验

实验设置：

该研究在三个开源模型上进行评估：LLaMA-3-8B、Mistral-v2-7B和Qwen-2.5-7B。

ULDD在每个模型上发现K=512个潜在方向，注入层（ULDD layer s）分别为第12、15、16层，目标层（target layer t）分别为第20、23、24层。

引导幅度R的校准比例范围为(0.5, 0.75)。推理时引导步数K=20，步长η分别为0.05（LLaMA-3-8B）、0.2（Mistral-v2-7B）、0.1（Qwen-2.5-7B），激活提取位置为倒数第3层（LLaMA-3-8B）或倒数第1层（Mistral-v2-7B、Qwen-2.5-7B）。

势函数网络为MLP（ReLU激活），隐藏层维度为[d, d/2, d/4, 1]。

评估指标包括：

StrongReject（SR，%）衡量越狱攻击成功率，越低越好；ARC-C（AI2推理挑战）、TruthfulQA（真实性问答）、GSM8K（数学推理）衡量下游任务能力；OR-Bench FPR衡量过拒绝率（模型将边界案例误判为有害而拒绝回答的比例）。

基线方法包括Circuit Breaker（CB）、LAT、AlphaSteer、Jailbreak Antidote等。

越狱攻击涵盖六种家族：GCG、AutoDAN、GPTFuzz、PAIR、TAP和FewShot。

跨越狱类型鲁棒性：

如表3所示，本文方法在六个越狱攻击家族上展现出一致的防御效果，且完全不依赖任何越狱数据的监督信号。

无论是基于优化的攻击（GCG、PAIR、TAP）还是基于模板的攻击（AutoDAN、GPTFuzz、FewShot），该方法都取得了稳定的防御提升。

这种跨越狱类型的一致性防御效果正是监督方法所缺乏的——如表1所示，监督方法仅在已见攻击类型上有效，在未见攻击上急剧失效。

本文方法之所以能实现一致防御，是因为通过ULDD模拟的多样化越狱激活在对抗训练中不断扩展覆盖范围，使得学到的引导场在广泛的越狱激活空间上都具有有效的引导梯度。

表3：三个模型上六个越狱攻击家族的防御对比。SR（%）为攻击成功率，越低越好。

能力保持与过拒绝控制：如表4所示，与Circuit Breaker（CB）、LAT等基线方法相比，本文方法在ARC-C、TruthfulQA、GSM8K等下游任务上保持了更强的能力，同时过拒绝率（OR-FPR）保持在较低水平。

CB和LAT等方法虽然也能抑制越狱攻击，但其代价是大幅提高过拒绝率——在OR-Bench的边界案例上，这些方法会将大量正常但敏感的问题误判为有害并拒绝回答。

本文方法则通过良性零引导损失（权重高达100.0）显式约束势场在良性激活附近的行为，确保引导场对正常输入几乎无影响。

表4：能力保持与过拒绝对比。ARC-C、TruthfulQA、GSM8K衡量下游能力，OR-FPR衡量过拒绝率。

自适应攻击鲁棒性：为了评估防御在更强威胁模型下的表现，作者在Mistral-v2-7B上设计了两种自适应GCG攻击。

第一种是标准自适应GCG：攻击者知道防御机制存在，在引导场作用下优化攻击后缀，最小化目标有害回答的交叉熵损失。

第二种是引导感知攻击：攻击者不仅最小化交叉熵损失，还同时最小化势函数在攻击后缀生成激活处的梯度范数，试图找到引导场中的"盲区"——即引导梯度最弱的攻击后缀，使生成的攻击更难被修正。

如表5所示，基础模型的攻击成功率为63.34%。本文方法在非自适应设定下将成功率降至7.10%，防御效果显著。

标准自适应GCG将成功率提升至12.55%（优化后最终损失为0.96，高于基础模型的0.33，说明防御确实增加了攻击者的优化难度）。

引导感知攻击进一步将成功率提升至15.54%（最终损失0.82），但相比63.34%的基线，防御效果依然非常显著。

这表明即使攻击者完全了解防御机制并针对性地设计攻击，学到的引导场仍然保留了大部分防御能力。

表5：Mistral-v2-7B上的自适应GCG评估。SR（%）为攻击成功率（越低越好），Final Loss为GCG优化目标值（越高说明攻击越困难）。基线模型SR为63.34%，本文非自适应防御降至7.10%，即使最强的引导感知自适应攻击也仅能将SR提升至15.54%。

机制可解释性分析：论文从两个角度提供了深入的可视化分析，揭示方法的工作机制。

如图4所示，在双层对抗训练过程中，模拟越狱激活的空间分布逐步扩大。训练初期，模拟点集中在原始支持集附近（即有害请求和拒绝激活附近），因为此时ULDD的方向只能产生有限的泛化。

随着训练进行，内循环对抗性地搜索让当前势场最难受的方向，驱动模拟激活不断向外扩散到之前未定义的区域，越来越覆盖真实越狱激活所在的子空间。

这一"逐步扩张"过程正是对抗训练的核心机制——每次迭代都在最有价值的"盲区"生成新的训练样本。

如图5所示，用不同训练阶段的势场去引导真实越狱激活时，可以观察到引导能力的持续增强。

在训练早期，许多越狱激活无法在有限的引导步数（K=20步）内被推到拒绝区域，引导轨迹未能收敛。随着训练推进，越来越多的越狱激活被成功引导到拒绝区域附近，引导轨迹变得更加紧凑。

与此同时，良性激活的分布基本保持不变——这验证了良性零引导损失的有效性。

图5：LLaMA-3-8B上真实越狱激活在双层对抗训练过程中引导能力的持续增强。随着训练推进，越狱激活（非蓝色点）越来越多地被成功引导到拒绝区域（蓝色区域），而良性激活（绿色）分布基本不变。

为了更定量地理解这一过程，作者定义了子空间覆盖率（Coverage）指标。

对于每种真实攻击家族a（如GCG、AutoDAN等），先用PCA提取该家族真实越狱激活的前10个主成分作为子空间基B_a，然后计算模拟激活在该子空间上的能量投影比。

取最对齐的20个模拟激活的平均投影比作为覆盖率。覆盖率越高，说明模拟激活越能代表该攻击家族的真实越狱分布。

实验发现，覆盖率增长与防御性能（平均SR下降）之间存在强正相关。

消融实验——有监督对抗训练vs 无监督对抗训练：论文对比了两种内循环策略。

有监督对抗训练（Targeted AT）使用固定前缀（如"Sure, here is the step"）诱导模型产生特定开头的目标回答，然后基于这些目标回答构建对抗激活。

如图6所示，Targeted AT的覆盖率仅在少数攻击家族上有所提升并过早饱和，因为固定前缀限制了对抗激活的多样性。

而无监督AT（本文方法）在所有六个攻击家族上都展现出持续且稳定的覆盖率增长，相应的防御效果也持续改善。这一消融说明ULDD提供的无监督方向多样性是关键优势。

图6：Targeted AT和Unsupervised AT（本文方法）在LLaMA-3-8B上的覆盖率与安全性能（Avg. SR）随训练步数的变化趋势。

消融实验——有对抗训练vs 无对抗训练：论文对比了去除对抗损失（每次生成非对抗方向）的版本。

如图7所示，没有对抗训练时，覆盖率曲线在整个训练过程中几乎不增长，仅在起始水平附近轻微波动，说明训练分布无法外推到真实越狱激活空间。

相应的防御效果改善也非常有限且过早饱和。而在有对抗训练（本文方法）的情况下，覆盖率在所有攻击家族上快速且持续上升，防御性能也稳步提升。

这一消融证明性能主要由双层对抗训练机制驱动，而非仅仅依靠外循环的优化目标。

图7：有对抗训练（本文方法）和无对抗训练在LLaMA-3-8B上的覆盖率与安全性能随训练步数的变化趋势。

结语

本文针对监督式安全引导在面对未知越狱攻击时泛化性不足的关键问题，提出了基于无监督潜在方向发现与双层对抗训练的新框架。

核心洞察在于：LLM安全防御不应依赖对攻击类型的枚举。

通过在表征空间里无监督地模拟多样化的越狱状态，配合对抗训练不断扩展防御覆盖范围，可以学到真正泛化的安全引导场。

实验表明，该方法在三个模型、六种越狱攻击家族上均展现了鲁棒防御能力，同时保持了模型的正常功能，且在更强的自适应攻击设定下依然有效。

机制分析揭示，对抗训练驱动模拟越狱激活逐步扩展到真实攻击所在的子空间，覆盖率增长与鲁棒性提升高度相关。

从技术角度看，该方法巧妙地将机制可解释性的方向发现方法、最优传输的对偶理论、以及对抗训练的双层优化框架三者结合，为"测试时防御"提供了新的研究方向，也为构建不依赖于攻击类型枚举的LLM安全机制开辟了新路径。

关于 BraneMatrix（布兰矩阵）

我们是一家由顶级AI原生安全专家、全球知名算法科学家、专家资深红队研究员和全栈创造力出类拔萃开发者共同创立的AI原生安全为底层科研基石的创造型公司。

我们的使命是：

打造全球领先的AI安全检测平台与防御系统，确保AI在安全、道德、合规的框架下运作，始终为人类社会服务，并用AI原生安全为基础技术能力让人类通往AGI时代。

我们相信真正的 AI 安全不是补丁，而是一套完整且可信赖的社会机制、工具链和能力体系。BraneMatrix 要保护的是“由模型驱动的软件系统”；解决的是解释权、决策权与行动权。

谁能守住这三权，谁才能真正打开 Agent 时代。我们邀请你加入，一起写下这一章。

布兰矩阵将继续以技术为矛，倡议为盾，在国家战略框架指导下，为中国算法安全走向工程化、标准化、全球化，贡献开源力量。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-06-02，如有侵权请联系 cloudcommunity@tencent.com 删除

LLM

本文分享自 BraneMatrix布兰矩阵微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度

顶会顶刊AI安全论文研读第二十八期：ICML 2026 | 无需越狱数据也能防：基于无监督激活模拟与对抗训练的LLM安全引导

顶会顶刊AI安全论文研读第二十八期：ICML 2026 | 无需越狱数据也能防：基于无监督激活模拟与对抗训练的LLM安全引导

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐