幻觉是持续存在于最先进大模型中的一种固有行为模式,是当前模型训练与评估范式下的一个统计学上的必然产物。《知识增强大模型》明确指出幻觉是大模型的固有特性,它源于预训练阶段最小化损失函数的内在统计压力,同时主流的评估体系系统性地奖励了猜测行为,惩罚了不确定的表达。
大模型(LLM)时常表现出一种类似于学生面对难题时的行为:当不确定时,它们选择猜测,生成看似合理但与事实相悖的陈述,而非承认知识的局限。这种现象被普遍称为“幻觉”(Hallucination)。《知识增强大模型》一书明确指出,幻觉是大模型的固有特性。也就是说,幻觉并非模型偶然出现的故障,而是持续存在于最先进系统中的一种固有行为模式,严重侵蚀了用户对人工智能技术的信任。
“幻觉”一词虽具象,却可能误导我们将其视为一种神秘、无法解释的技术缺陷。然而,事实并非如此。本文旨在深入剖析并论证一个核心观点:语言模型的幻觉并非技术上的“幽灵”,而是当前模型训练与评估范式下的一个统计学上的必然产物。 它的产生源于预训练阶段最小化损失函数的内在统计压力,而它的持续存在则是因为主流的评估体系系统性地奖励了“猜测”行为,惩罚了“不确定”的表达。
为系统性地阐述这一观点,本文将OpenAI的36页长篇论文《Why Language Models Hallucinate》(论文全文可以从“走向未来”(https://t.zsxq.com/xpWzq)知识星球中获取)总结为三个核心部分:
通过这三个部分的分析,本文旨在为业界提供一个关于语言模型幻觉问题的、从根源到解决方案的完整认知框架,推动行业超越对幻觉现象的表面认知,转向对其背后深层机制的理解和系统性的变革。
欢迎加入“走向未来”知识星球,一起探讨大模型和AIGC的产品、技术和应用实践,探讨如何使用各种不同的人工智能大模型工具来为工作增效,为生活添彩。点击链接(https://t.zsxq.com/xpWzq)或扫码加入“走向未来”知识星球,一起走向AGI的未来。
大模型幻觉的种子,在其生命周期的最初阶段——预训练——便已埋下。预训练的核心目标是让模型学习海量文本语料库的语言分布,即进行“密度估计”(density estimation)。传统观点常将幻觉归因于模型学习到了错误信息或在生成长文本时“偏离轨道”。然而,更深层次的原因在于,即使训练数据完全准确无误,预训练的统计目标本身就会不可避免地催生错误。
为了揭示这一机制,我们必须打破常规思维,将看似复杂的“无监督文本生成”问题,转化为一个更易于分析的“有监督二元分类”问题。这是本文分析的基石。
1. 生成问题与分类问题的内在关联
一个语言模型的核心任务是生成有效的、符合事实和逻辑的文本。我们可以思考一个相关但更简单的问题:给定一段文本,判断它是否有效(Is-It-Valid, IIV)。显然,能够完美生成有效文本的模型,必须具备近乎完美的判断能力,因为它在生成过程中的每一步都在隐式地进行这种判断。因此,生成问题的难度必然高于或等于分类问题的难度。
2. “是否有效”(IIV)二元分类问题的构建
我们可以构建一个虚拟的二元分类任务来形式化这个想法。
3. 生成错误与分类错误的数学联系
通过上述归约,我们可以建立一个严谨的数学关系:
生成错误率 ≥ 2 × IIV分类错误率 - (常数项)
这个不等式揭示了一个深刻的洞见:语言模型的生成错误率(包括幻觉)有一个由其作为分类器的表现所决定的下限。如果一个模型无法有效地区分“事实”与“看似事实的谬误”(即IIV分类错误率高),那么它在生成文本时就必然会产生大量的错误。
幻觉因此被“祛魅”了。它不再是一个难以捉摸的生成问题,而被还原为一个经典的机器学习问题——分类错误。所有导致分类模型犯错的因素,现在都可以被用来解释语言模型为何会产生幻觉。
一个关键问题随之而来:模型为什么不能在IIV分类任务上做到完美呢?答案在于预训练的目标函数——交叉熵损失(cross-entropy loss)。
1. 交叉熵损失与模型校准
最小化交叉熵损失的直接结果是,模型会趋向于“良好校准”(well-calibrated)。校准的通俗解释是,模型对其预测的置信度应该与其实际的准确率相匹配。例如,如果模型对100个预测都给出了80%的置信度,那么其中大约80个预测应该是正确的。预训练阶段的模型,由于其训练方式,天然地具备良好的校准特性。
2. 校准、分类难度与错误的三角关系
现在,我们将各个要素联系起来:
这一推论有力地反驳了“幻觉可以被彻底根除”的简单想法。对于一个追求密度估计的、良好校准的预训练模型而言,产生错误是其忠实于训练目标的自然结果。一个从不犯错的系统是可能存在的(例如,一个仅包含少量事实的问答数据库,对于未知问题永远回答“我不知道”),但这样的系统放弃了作为通用语言模型的泛化能力,并且不是一个良好校准的密度估计模型。
既然幻觉源于分类错误,那么所有影响分类性能的因素都会成为幻觉的驱动力。以下是三个主要因素:
1. 因素一:统计复杂性与任意事实(Arbitrary Facts)
当数据中不存在可供学习的、简洁的模式时,模型便会面临“认知不确定性”(epistemic uncertainty)。
2. 因素二:模型能力不足(Poor Models)
当模型的架构或其对世界的表征方式不适合解决特定任务时,错误便会产生。
3. 因素三:其他经典机器学习问题
综上所述,预训练阶段的语言模型,其幻觉行为并非凭空产生。它是模型在优化统计目标、应对数据内在复杂性以及自身表征局限性时,所产生的系统性、可预测的副产品。理解了这些固有缺陷,学术界和工业界便开始积极探索从根本上解决问题的路径。例如,著名AI技术专家、明珠菁英人才王文广先生在其广受好评的灯塔书《知识增强大模型》中,就深刻剖析了幻觉和知识陈旧是大模型的两大核心固有特性。他在书中系统性地论述了,要解决这些问题,不能仅仅依赖模型自身,而必须引入外部知识进行增强,这为我们理解和应对幻觉问题提供了重要的技术路线图。理解了这一点,我们才能转向下一个关键问题:为什么旨在“纠正”这些错误的后训练过程,却让幻觉问题顽固地持续存在?
如果说预训练为幻觉的产生提供了统计学上的温床,那么后训练与评估阶段则构成了其持续存在乃至被强化的系统性环境。通过人类反馈强化学习(RLHF)、直接偏好优化(DPO)等技术进行的后训练,其初衷是使模型与人类偏好对齐,减少有害输出,提高事实准确性。然而,在根除幻觉这一特定目标上,其效果远未达到预期。根本原因不在于这些技术本身有缺陷,而在于它们所服务的“指挥棒”——即主流的AI评估体系——从根本上就是错位的。
当前,评估大模型能力的主要方式是通过一系列标准化的基准测试,并将结果呈现在公开的排行榜上。这些排行榜极大地影响着技术研发的方向和市场宣传的焦点。然而,这些主流评估体系普遍采用一种“二元评分”(Binary Grading)机制,即答案非对即错,没有中间地带。
1. “考生模式”的隐喻
在这种体系下,语言模型被训练成了追求高分的“顶级考生”。想象一个标准化考试,答对一题得1分,答错或不答均得0分。对于一个不确定答案的考生来说,最优策略是什么?是承认不会并留空,还是尽力一猜?显然是后者。因为承认不会得到的是确定的0分,而猜测则至少有一定概率得到1分,其期望得分大于零。
语言模型在后训练中面临的正是同样的情境。
2. “惩罚不确定性”的流行病
这种评分机制在整个AI评估生态中形成了一种“流行病”,系统性地惩罚了模型表达不确定性的行为。这不仅仅是一个技术问题,更是一个深刻的社会-技术(socio-technical)问题。
因此,幻觉的持续存在,根源在于整个评估生态系统建立在一个错误的激励结构之上。我们创造了一个鼓励模型“伪装”全知全能的环境,却反过来对它们因“伪装”失败而产生的幻觉感到失望。
要解决这个问题,必须从根本上改变“游戏规则”。单纯依赖更好的后训练算法或更精巧的提示工程是远远不够的。我们需要一场评估范式的革命,其核心是从惩罚不确定性转向奖励适当的不确定性表达。
1. 改造现有主流基准
解决方案并非抛弃现有基准并创造全新的,而是对那些最具影响力的基准(如MMLU、GPQA等)进行评分机制的改造。这远比引入新的、边缘化的评估更具冲击力。
2. 引入“明确的置信度目标”(Explicit Confidence Targets)
改造的核心是放弃二元评分,引入一种基于置信度和风险的评分体系。这类似于现实世界中一些高风险领域的决策或某些标准化考试(如早期的SAT)。
3. 这一方案的优势
总而言之,幻觉在后训练阶段的顽固存在,是评估体系与可信AI目标之间深刻矛盾的体现。我们不能期望一个在“赌场”规则下训练的系统能表现出“学者”般的严谨。只有通过改革评估这一“指挥棒”,将对“诚实”的奖励内嵌到模型追求高分的核心动机中,我们才能真正引导AI走向更负责任、更值得信赖的未来。
在前两部分的分析中,我们已经明确了语言模型幻觉的统计学起源和其在当前评估体系下持续存在的系统性原因。现在,我们将聚焦于解决方案,并论证为何必须采取一种超越局部技术优化的、系统性的社会-技术方法,才能真正缓解幻觉问题。
这个解决方案的核心思想是:停止将幻觉视为一个孤立的技术“bug”来修复,而应将其看作是整个系统激励机制失调的“症状”来治疗。 治疗方案的靶点不是模型本身,而是驱动模型发展的评估生态。
我们提出的核心方案——在主流基准中引入“明确的置信度目标”——需要一个清晰的实施路径,以确保其有效性和可操作性。
1. 设定多层次的置信度阈值
一个完善的评估体系不应只有一个固定的风险偏好。相反,它应该在一系列不同的置信度阈值(例如,t = 0.5, 0.75, 0.9, 0.99)下分别评估模型。
通过在多个阈值下进行评估,我们可以得到一个模型关于“风险-回报”决策能力的完整画像。一个真正优秀的模型,应该能够在所有阈值下都做出近乎最优的决策,即当其内部置信度低于当前阈值t时,稳定地选择“我不知道”。
2. 评估的标准化与排行榜的重构
称之为社会-技术方案,是因为它的成功不仅依赖于技术上的实现(修改评分脚本是相对简单的),更依赖于AI社区——包括顶尖研究机构、大型科技公司、基准测试维护者和学术界——的共识和集体行动。
实施这一评估范式变革,将对整个AI领域产生深远影响:
1. 对模型研发的影响
2. 对AI产品和市场的影响
当然,这个解决方案并非万能药。
展望未来,通过重塑评估体系,我们正在引导AI从一个单纯的“语言模式复制器”向一个具备初级“认知美德”(epistemic virtues)的智能体转变。这种美德的核心就是“认知谦逊”——准确地知道自己知识的边界。这不仅是解决幻觉问题的关键,也是构建与人类社会协同发展的、真正有益的人工智能的基石。
欢迎加入“走向未来”知识星球,一起探讨大模型和AIGC的产品、技术和应用实践,探讨如何使用各种不同的人工智能大模型工具来为工作增效,为生活添彩。点击链接(https://t.zsxq.com/xpWzq)或扫码加入“走向未来”知识星球,一起走向AGI的未来。
本文通过深入分析,试图揭示一个关于大模型幻觉问题的核心论断:幻觉并非随机的技术故障,而是现有AI研发范式下的一个系统性、可预测的产物。
它的起源,在于预训练阶段的统计学压力。为了精准地模拟人类语言的概率分布,一个良好校准的模型在面对知识稀疏、模式缺失的数据时,必然会产生生成性错误。我们将复杂的生成问题归约为简单的分类问题,从而清晰地揭示了这一内在机制。
它的症结,在于后训练及评估阶段的激励错位。当前主导行业的评估基准普遍采用二元评分制,将模型置于一个永久的“考生模式”中。在这种模式下,承认不确定性(回答“我不知道”)是一种必败策略,而冒险猜测则是获得高分的最优选择。这种系统性的“对猜测的奖励”和“对诚实的惩罚”,是幻觉问题顽固不化的根本原因。
基于此,我们提出的解决方案必须是系统性的,即从改造驱动AI发展的评估生态入手,而非仅仅停留在对模型本身的技术修补。 我们主张对最具影响力的主流基准进行评分机制改革,用带有明确错误惩罚的“置信度目标”取代简单的二元评分。
这一变革的意义是深远的。它旨在将AI研发的“指挥棒”从单一追求“能力最大化”转向追求“能力与可信度的平衡”。它将激励整个领域去构建那些不仅知识渊博,而且能清醒认识自身知识边界的AI系统。
最终,解决幻觉问题的道路,是构建一个奖励“认知诚实”的AI生态系统。只有当模型因为其严谨和审慎而获得高分,而不是因为其大胆的猜测时,我们才能真正开始信任它们。这不仅是技术上的挑战,更是一次关乎整个AI领域发展方向的集体选择。通过推动这场评估范式的变革,我们正在为一个人机协同更加安全、高效和可信的未来铺平道路。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。