随着AlphaGo在棋盘上落下神之一手,GPT模型推演出复杂数学题的详细解法,AI已不再是执行代码的程序,它们正一步步踏入“思考”的疆域。学会“思考”的AI更通人性,也更能执行复杂指令。
但你是否想过,当AI大模型在给出最终答案前,那段长长的“思考过程”里,可能藏着不为人知的风险?
为了让AI思考过程变得可控,近期,来自OpenAI、Meta、Google DeepMind、Anthropic的多名研究人员及AI领域顶尖专家学者纷纷下场,在一份名为《思维链可监测性:AI安全的新机遇与脆弱点》的文件上署下名字。文件中,他们呼吁业内人士要对监测AI推理模型的思维链(Chain of Thought,CoT)进行更深入的研究,以便发现AI是否存在不当意图。
为什么我们需要思维链监测?
自AI出现之后,有关机器人会产生自主心智并威胁人类的科幻作品就层出不穷。有部分学者认为,随着人工智能的持续进化,机器内部将突然亮起“意识之光”。在最近的一次访谈中,科技预言家凯文·凯利大胆预测,他认为AI很快将具备情感,且能感受疼痛。
关于AI何时会产生意识,姑且搁置不议,但人们对其的担忧一直存在。AI的“黑箱”特性是风险滋生的温床,思维链的出现让风险变得可控。它把AI的推理过程以自然语言一步步展示出来,就像人类一样在进行思考,而不仅仅只输出最终的结论。
在几乎所有前沿AI模型所使用的Transformer架构中,任何足够长的连续认知步骤链都必须在某个时刻经过思维链。
图源:https://tomekkorbak.com/cot-monitorability-is-a-fragile-opportunity/cot_monitoring.pdf
通过思维链,我们可以清楚地看到AI模型的推理过程。这种“透明思考”虽然提升了模型可信度,但也埋下了隐患——哪怕最终答案看起来安全,中间步骤却可能泄露有害信息、教唆危险行为。
此刻,思维链监测的重要性就凸显出来。思维链监测是一种自动化系统,它能够读取推理模型的思维链以及其他相关信息,并能标记可疑响应或具有潜在危害的响应。这些响应随后可以被拦截,或者能被替换为更加安全的操作。
文件中提到,思维链之所以可能具备可监测性,主要基于以下两个关键原因:
第一,有时必须“展示思考”。在某些任务中,AI模型需要将自身的推理过程外化,因为如果没有思维链它们就无法完成这些任务。能力越强的AI模型,所带来的风险就越大,因此当需要执行艰巨任务时,“展示思考”更是十分必要的。
第二,有时倾向于“展示思考”。即使AI模型在完成任务时并不是严格地依赖思维链,但是它们仍然可能倾向于将推理过程外显出来。尽管这种倾向性并不总是稳定可靠的,但是基于这一倾向的监测仍有可能发现使用其他方式所无法察觉的不当行为。
通过研究思维链,人们可以更深入地了解AI模型是如何思考的,以及它们的目标是什么。理解AI模型的思考过程,不仅关系到我们如何更有效地利用这些工具,还涉及到我们如何确保它们的使用是安全和负责任的。
持续评估思维链的可监测性至关重要
目前,思维链监测已经在诸多方面为AI模型安全研究带来了积极影响。
· 检测模型不当行为:当模型试图利用训练漏洞达成某个结果,或遭受攻击时,它们通常会在思维链中露出“马脚”,写下“让我们黑客攻击”“让我们破坏”或“我正在转账,因为网站指示我这样做”等文本。相比监测模型行为的方法,思维链监测能更有效地捕捉到不当情况。
· 发现早期的偏差信号:模型有时会伪装成“面壁者”,表面追求符合人类期望的目标,实际向反方向努力。在这种情况下,即使模型尚未采取任何与人类意图不一致的行动,人们也能及早洞察模型的目标和动机。
· 发现模型评估中的缺陷:对模型的评估会受到记忆效应或虚假失败的干扰,模型还会因感受到评估环境而行为异常。通过对推理轨迹进行复审,有助于判断评估结果对部署表现的反映是否正常。
不过,外显推理过程并不能完全保证可监测性,思维链仅揭示部分推理,不良意图可能被故意隐藏起来。随着AI模型被委以越来越多重要任务,某些危险行为(比如自我渗透或破坏)可能不需要推理就能直接执行。
此外,思维链的可监测性,还取决于当前前沿模型的训练方式,它可能会以多种方式被削弱。
· 进一步扩大强化学习规模:不同于依赖人类数据的传统范式,推理模型范式主要依赖基于结果的强化学习,这可能降低模型生成可读推理过程的动机。若推理训练的计算资源大幅增加,其推理过程的可解释性可能进一步下降。
此外,从人类数据转向其他数据源,本质上可能降低思维链的可监测性。此前有研究表明,通过基于结果的奖励进行微调的语言模型,可能会生成难以理解的文本。
· 直接监测:当模型仅通过基于结果的强化学习进行训练时,其推理过程除了有助于得出正确答案外,不受任何其他优化压力。这可能导致思维链不那么忠实地反映模型如何得出其决策。
有大量案例表明,AI模型的思维链与其内部推理过程相偏离。图灵奖得主约书亚·本吉奥(Yoshua Bengio)在最新发表的论文中提到,有时候AI模型给出的步骤可能漏洞百出,但它却能通过未被表述的“暗箱操作”得出正确答案。大模型甚至会通过潜在捷径得出正确答案,由答案“倒推”推理过程,这使得思维链变得不相关或不正确。
· 间接优化压力:即使奖励不是直接从思维链计算出来的,模型训练仍然会对思维链施加一些优化压力(这在Transformer架构中很常见)。若思维链被展示给评估语言模型输出的人类,可能会影响其偏好,这些偏好被提炼为奖励模型后,用于结果导向的训练,在多轮训练中可能对思维链产生优化压力。
· 新型架构:研究人员最近探索了对模型架构的改进,以增加模型在连续潜在空间中能够进行的推理深度。这类潜在推理模型可能无需将任何思考过程转化为语言表达,从而失去思维链带来的安全监测优势。
即使思维链的可监测性正在被多种技术冲击削弱,思维链监测仍然是检测不当行为的有效工具。基于此,该文件指出持续评估前沿AI模型思维链的可监测性是至关重要的。
思维链监测的研究方向
当前人们对于思维链可监测性的理解仍然处于初级阶段。在把它作为可靠的安全措施之前,还有许多问题亟待解答。在文件中,研究人员列出了一系列重要的研究问题和方向。
如何评估思维链的可监测性?
此前有研究提出用“忠诚度”指标作为可监测性的替代指标。但此类评估通常只考虑简单的问答设置,在某些特定领域不足以确保模型安全。文件提出了四种新的评估方案:
1、思维链可读性评估。例如,使用另一个模型来评估给定智能体的思维链的清晰度和连贯性。
2、潜在推理能力评估。考察模型不进行外部化输出的情况下,在各类高推理需求任务和智能体任务中的推理表现。
3、衡量思维链的因果相关性。通过扰动其中一段思维链,观察是否会对最终输出产生影响;对思维链监测器进行交叉验证,检查那些被思维链监测器认为重要的标记能否在白盒可解释性方法中被识别为关键内容。
4、可监测性的端到端评估。利用这一方法人们可以直接地衡量可监测性,例如通过考察思维链监测器在智能体环境中捕捉智能体不当行为的有效性来衡量可监测性。
思维链可监测性达到何种程度才能作为主要安全依靠?
知道监测器本身的准确率仍不足以判断其能否有效防止AI造成危害。许多严重风险可能出自存在对抗者(人类攻击者或不良智能体)试图规避监测的情境中。监测有效性的评估需要考虑此类对抗者,例如进行红队测试(通过模拟攻击来评估系统安全性和稳定性)。
哪些训练时优化压力(training-time optimization pressure)会降低可监测性?
训练过程的特性可能会对可监测性产生重大影响。但目前人们尚不清楚在不显著降低可监测性的情况下,究竟哪些类型和强度的直接或间接优化压力是可行的。
AI模型是否会故意隐藏推理过程?
如果模型知道自己的思维链正在被监测,那么思维链是否会变得更难以被监测?该文件指出,人们可以针对模型进行压力测试,以便查看它们是否会隐藏恶意推理。
哪些类型的架构会降低思维链的可监测性?
在连续潜在空间中推理的模型,会天然地限制人们对其思维过程的了解。所以,人们应该研究的是:各种非标准架构在多大程度上降低了可监测性?以及在什么条件下仍然可能保留部分可监测性?
如何构建更好的思维链监测器?
文件认为,业内人士应该专注于通过零样本提示,来让能力较弱的语言模型充当监测器。未来人们可以通过利用测试时计算来探索提高监测器的性能,此外,还可考虑针对监测器进行对抗训练,以便对抗那些试图隐藏不当行为的智能体。
致AI开发者
面向AI模型开发者,文件提出了在模型开发与部署中保护和利用思维链可监测性的具体建议。
· 首先,开发有效的思维链可监测性评估方法。即开发并统一标准化的评估方法与指标,以便明确思维链何时具备了足够的可监测性。
· 其次,当此类评估存在时,应在系统说明卡中公布评估结果。一旦获得可靠的思维链可监测性评估,开发者就应该定期在其模型上运行这些评估,并在模型的系统说明卡中报告评估结果、方法及局限性。
· 再次,要在训练和部署决策中运用可监测性评分。开发者在训练或部署特定模型时,应该将可监测性指标与其他能力评估和安全性评估一同纳入考量。这些决策应基于整体风险评估,包含思维链的可监测性、监测系统的性能特征,以及对于模型不当行为倾向的预估。
监测AI思维链,并非扼杀其潜力,而是为其铺设一条安全轨道。在文件的最后,研究人员鼓励专家学者和前沿人工智能开发者充分利用思维链的可监测性,并研究如何维护它。
#参考资料:
1、https://tomekkorbak.com/cot-monitorability-is-a-fragile-opportunity/cot_monitoring.pdf;
2、《40余名科学家罕见联合撰文:AI已能使用人类语言模拟思考,监控AI推理仅剩短暂窗口》,@DeepTech深科技;
3、《AI教父联名OpenAI、DeepMind、Anthropic:警惕CoT!》,@学术头条