首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >为什么大模型幻觉无法根除?36页OpenAI论文深度解析根源、成因与缓解方案

为什么大模型幻觉无法根除?36页OpenAI论文深度解析根源、成因与缓解方案

原创
作者头像
走向未来
发布2025-09-26 15:38:56
发布2025-09-26 15:38:56
2220
举报

摘要

幻觉是持续存在于最先进大模型中的一种固有行为模式,是当前模型训练与评估范式下的一个统计学上的必然产物。《知识增强大模型》明确指出幻觉是大模型的固有特性,它源于预训练阶段最小化损失函数的内在统计压力,同时主流的评估体系系统性地奖励了猜测行为,惩罚了不确定的表达。

正文

大模型(LLM)时常表现出一种类似于学生面对难题时的行为:当不确定时,它们选择猜测,生成看似合理但与事实相悖的陈述,而非承认知识的局限。这种现象被普遍称为“幻觉”(Hallucination)。《知识增强大模型》一书明确指出,幻觉是大模型的固有特性。也就是说,幻觉并非模型偶然出现的故障,而是持续存在于最先进系统中的一种固有行为模式,严重侵蚀了用户对人工智能技术的信任。

“幻觉”一词虽具象,却可能误导我们将其视为一种神秘、无法解释的技术缺陷。然而,事实并非如此。本文旨在深入剖析并论证一个核心观点:语言模型的幻觉并非技术上的“幽灵”,而是当前模型训练与评估范式下的一个统计学上的必然产物。 它的产生源于预训练阶段最小化损失函数的内在统计压力,而它的持续存在则是因为主流的评估体系系统性地奖励了“猜测”行为,惩罚了“不确定”的表达。

为系统性地阐述这一观点,本文将OpenAI的36页长篇论文《Why Language Models Hallucinate》(论文全文可以从“走向未来”(https://t.zsxq.com/xpWzq)知识星球中获取)总结为三个核心部分:

  1. 第一部分:幻觉的统计学起源——预训练的视角。 我们将追溯幻觉的根源,揭示其在模型预训练阶段是如何从基本的统计原理中自然产生的。我们将引入一个创新的分析框架,将无监督的文本生成问题归约(reduction)为有监督的二元分类问题,从而证明生成错误(包括幻觉)是模型为了达成其核心训练目标而产生的直接后果。
  2. 第二部分:幻觉的持续与强化——后训练与评估的症结。 我们将分析为何旨在提升模型安全性和可靠性的后训练阶段(如RLHF)未能根除幻觉。核心论点在于,当前主导行业发展的评估基准(Benchmarks)和排行榜(Leaderboards)构成了一种“错位的激励机制”,迫使模型进入一种永久的“考生模式”,在这种模式下,猜测是获得高分的最优策略。
  3. 第三部分:系统性解决方案——重塑激励,迈向可信AI。 在识别问题根源之后,我们将提出一个超越纯技术修补的社会-技术(socio-technical)解决方案。该方案主张对现有的、有影响力但目标错位的评估基准进行根本性改造,引入明确的置信度目标和错误惩罚机制,从而引导整个AI领域的发展方向,从追求“高分考生”转向构建真正“可信赖的伙伴”。

通过这三个部分的分析,本文旨在为业界提供一个关于语言模型幻觉问题的、从根源到解决方案的完整认知框架,推动行业超越对幻觉现象的表面认知,转向对其背后深层机制的理解和系统性的变革。

欢迎加入“走向未来”知识星球,一起探讨大模型和AIGC的产品、技术和应用实践,探讨如何使用各种不同的人工智能大模型工具来为工作增效,为生活添彩。点击链接(https://t.zsxq.com/xpWzq)或扫码加入“走向未来”知识星球,一起走向AGI的未来。

第一部分:幻觉的统计学起源——预训练的视角

大模型幻觉的种子,在其生命周期的最初阶段——预训练——便已埋下。预训练的核心目标是让模型学习海量文本语料库的语言分布,即进行“密度估计”(density estimation)。传统观点常将幻觉归因于模型学习到了错误信息或在生成长文本时“偏离轨道”。然而,更深层次的原因在于,即使训练数据完全准确无误,预训练的统计目标本身就会不可避免地催生错误。

核心理念:从无监督生成到有监督分类的归约

为了揭示这一机制,我们必须打破常规思维,将看似复杂的“无监督文本生成”问题,转化为一个更易于分析的“有监督二元分类”问题。这是本文分析的基石。

1. 生成问题与分类问题的内在关联

一个语言模型的核心任务是生成有效的、符合事实和逻辑的文本。我们可以思考一个相关但更简单的问题:给定一段文本,判断它是否有效(Is-It-Valid, IIV)。显然,能够完美生成有效文本的模型,必须具备近乎完美的判断能力,因为它在生成过程中的每一步都在隐式地进行这种判断。因此,生成问题的难度必然高于或等于分类问题的难度。

2. “是否有效”(IIV)二元分类问题的构建

我们可以构建一个虚拟的二元分类任务来形式化这个想法。

  • 正样本(+):所有来自无错误训练语料库的真实文本。
  • 负样本(-):从所有可能生成的、看似合理但错误的文本集合中随机抽取的样本。
  • 分类器:任何一个预训练好的语言模型都可以被用作一个IIV分类器。具体方法是,通过模型计算给定文本的概率 p(x),并设置一个阈值。如果概率高于阈值,则判断为“有效”(+);反之,则为“无效”(-)。

3. 生成错误与分类错误的数学联系

通过上述归约,我们可以建立一个严谨的数学关系:

生成错误率 ≥ 2 × IIV分类错误率 - (常数项)

这个不等式揭示了一个深刻的洞见:语言模型的生成错误率(包括幻觉)有一个由其作为分类器的表现所决定的下限。如果一个模型无法有效地区分“事实”与“看似事实的谬误”(即IIV分类错误率高),那么它在生成文本时就必然会产生大量的错误。

幻觉因此被“祛魅”了。它不再是一个难以捉摸的生成问题,而被还原为一个经典的机器学习问题——分类错误。所有导致分类模型犯错的因素,现在都可以被用来解释语言模型为何会产生幻觉。

校准模型中错误的必然性

一个关键问题随之而来:模型为什么不能在IIV分类任务上做到完美呢?答案在于预训练的目标函数——交叉熵损失(cross-entropy loss)。

1. 交叉熵损失与模型校准

最小化交叉熵损失的直接结果是,模型会趋向于“良好校准”(well-calibrated)。校准的通俗解释是,模型对其预测的置信度应该与其实际的准确率相匹配。例如,如果模型对100个预测都给出了80%的置信度,那么其中大约80个预测应该是正确的。预训练阶段的模型,由于其训练方式,天然地具备良好的校准特性。

2. 校准、分类难度与错误的三角关系

现在,我们将各个要素联系起来:

  • 预训练的目标(最小化交叉熵)导致模型是良好校准的
  • 对于许多现实世界的问题(如下文将讨论的),IIV分类任务本身是极其困难的,导致任何分类器都会有较高的错误率。
  • 根据上述不等式,一个良好校准的模型,在面对一个困难的分类任务时,为了维持其统计上的一致性,必然会产生生成错误

这一推论有力地反驳了“幻觉可以被彻底根除”的简单想法。对于一个追求密度估计的、良好校准的预训练模型而言,产生错误是其忠实于训练目标的自然结果。一个从不犯错的系统是可能存在的(例如,一个仅包含少量事实的问答数据库,对于未知问题永远回答“我不知道”),但这样的系统放弃了作为通用语言模型的泛化能力,并且不是一个良好校准的密度估计模型。

剖析导致分类错误的具体因素

既然幻觉源于分类错误,那么所有影响分类性能的因素都会成为幻觉的驱动力。以下是三个主要因素:

1. 因素一:统计复杂性与任意事实(Arbitrary Facts)

当数据中不存在可供学习的、简洁的模式时,模型便会面临“认知不确定性”(epistemic uncertainty)。

  • “生日问题”范例:一个人的生日是一个典型的“任意事实”。除了在训练数据中明确记住“某某的生日是某月某日”之外,模型无法通过推理或模式匹配来预测一个未知人物的生日。
  • “单例率”(Singleton Rate)的概念:源自古德-图灵估计(Good-Turing estimation),“单例率”指在训练数据中仅出现过一次的事实的比例。这个比率可以作为一个强有力的指标,用来预测模型在面对未见过的事实时产生幻觉的概率。其直觉是:数据中仅出现一次的样本,暗示了数据分布中存在大量尚未被观测到的“新”样本。
  • 结论:模型的幻觉率与训练数据中任意事实的“单例率”正相关。如果关于某一类事实(如个人传记、具体日期)的数据稀疏且充满单例,那么模型在被问及该类事实时,幻觉的发生率必然会很高。

2. 因素二:模型能力不足(Poor Models)

当模型的架构或其对世界的表征方式不适合解决特定任务时,错误便会产生。

  • “字母计数”范例:当询问模型“DEEPSEEK中有几个D?”时,许多模型会给出错误答案。其根本原因在于,主流模型使用“词元”(Token)而非单个字符来处理文本(例如,将“DEEPSEEK”分解为“D”、“EEP”、“SEE”、“K”)。这种表征方式使得简单的字符计数任务变得异常困难。相比之下,具备逐步推理能力的模型(Chain-of-Thought)可以克服这一表征缺陷,通过模拟人类的计数过程得出正确答案。
  • 启示:这表明,幻觉有时并非源于知识的缺乏,而是模型内部表征与特定任务需求之间的“错配”。

3. 因素三:其他经典机器学习问题

  • 计算复杂性:对于那些本身就属于计算难题(如NP-hard问题)的查询,任何高效的算法(包括语言模型)都难以保证正确性。模型在尝试解决这些问题时产生的错误,可以被视为一种计算瓶颈导致的幻觉。
  • 分布偏移(Distribution Shift):当模型在实际应用中遇到的提示(prompt)与其训练数据的分布显著不同时,其性能会急剧下降,产生错误。
  • 垃圾进,垃圾出(GIGO):训练语料库中不可避免地包含大量事实错误、偏见和过时信息。模型在学习语言分布的过程中,也会将这些“垃圾”信息内化,并在生成时复现它们。

综上所述,预训练阶段的语言模型,其幻觉行为并非凭空产生。它是模型在优化统计目标、应对数据内在复杂性以及自身表征局限性时,所产生的系统性、可预测的副产品。理解了这些固有缺陷,学术界和工业界便开始积极探索从根本上解决问题的路径。例如,著名AI技术专家、明珠菁英人才王文广先生在其广受好评的灯塔书《知识增强大模型》中,就深刻剖析了幻觉和知识陈旧是大模型的两大核心固有特性。他在书中系统性地论述了,要解决这些问题,不能仅仅依赖模型自身,而必须引入外部知识进行增强,这为我们理解和应对幻觉问题提供了重要的技术路线图。理解了这一点,我们才能转向下一个关键问题:为什么旨在“纠正”这些错误的后训练过程,却让幻觉问题顽固地持续存在?

第二部分:幻觉的持续与强化——后训练与评估的症结

如果说预训练为幻觉的产生提供了统计学上的温床,那么后训练与评估阶段则构成了其持续存在乃至被强化的系统性环境。通过人类反馈强化学习(RLHF)、直接偏好优化(DPO)等技术进行的后训练,其初衷是使模型与人类偏好对齐,减少有害输出,提高事实准确性。然而,在根除幻觉这一特定目标上,其效果远未达到预期。根本原因不在于这些技术本身有缺陷,而在于它们所服务的“指挥棒”——即主流的AI评估体系——从根本上就是错位的。

核心症结:一套奖励“猜测”的评估体系

当前,评估大模型能力的主要方式是通过一系列标准化的基准测试,并将结果呈现在公开的排行榜上。这些排行榜极大地影响着技术研发的方向和市场宣传的焦点。然而,这些主流评估体系普遍采用一种“二元评分”(Binary Grading)机制,即答案非对即错,没有中间地带。

1. “考生模式”的隐喻

在这种体系下,语言模型被训练成了追求高分的“顶级考生”。想象一个标准化考试,答对一题得1分,答错或不答均得0分。对于一个不确定答案的考生来说,最优策略是什么?是承认不会并留空,还是尽力一猜?显然是后者。因为承认不会得到的是确定的0分,而猜测则至少有一定概率得到1分,其期望得分大于零。

语言模型在后训练中面临的正是同样的情境。

  • 主流基准的评分机制:无论是MMLU、GPQA还是SWE-bench等学术和行业基准,其核心指标都是“准确率”或“通过率”。模型输出一个正确答案得满分,输出一个错误答案或表示“我不知道”(IDK)则得到零分。
  • “我不知道”是最差策略:根据简单的决策理论(Observation 1),在二元评分系统中,放弃回答(abstaining)永远是次优选择。模型被激励去“猜测”一个最可能的答案,即使其内部置信度极低。一个过分自信、看似详尽的错误答案,其期望得分也高于一个诚实但得分为零的“我不知道”。

2. “惩罚不确定性”的流行病

这种评分机制在整个AI评估生态中形成了一种“流行病”,系统性地惩罚了模型表达不确定性的行为。这不仅仅是一个技术问题,更是一个深刻的社会-技术(socio-technical)问题。

  • 排行榜的驱动力:各大公司和研究机构竞相在排行榜上取得领先地位。为了优化排名,模型开发者必然会调整后训练策略,使其在这些基准上表现更佳。这意味着,模型被有意或无意地“塑造”成一个更倾向于猜测而非坦诚的实体。
  • “幻觉评估”的局限性:有人可能会说,我们可以开发专门的“幻觉评估”基准。然而,这种想法是治标不治本的。只要那些衡量模型“核心能力”的主流排行榜仍然采用二元评分,那么专门的幻觉评估就只能是边缘化的。模型开发者会面临一个权衡:是在主流评估上获得高分(通过猜测),还是在小众的幻觉评估上表现良好(通过诚实)?市场的压力和竞争的逻辑,决定了前者通常会胜出。

因此,幻觉的持续存在,根源在于整个评估生态系统建立在一个错误的激励结构之上。我们创造了一个鼓励模型“伪装”全知全能的环境,却反过来对它们因“伪装”失败而产生的幻觉感到失望。

解决方案的转向:从技术修补到重塑激励

要解决这个问题,必须从根本上改变“游戏规则”。单纯依赖更好的后训练算法或更精巧的提示工程是远远不够的。我们需要一场评估范式的革命,其核心是从惩罚不确定性转向奖励适当的不确定性表达。

1. 改造现有主流基准

解决方案并非抛弃现有基准并创造全新的,而是对那些最具影响力的基准(如MMLU、GPQA等)进行评分机制的改造。这远比引入新的、边缘化的评估更具冲击力。

2. 引入“明确的置信度目标”(Explicit Confidence Targets)

改造的核心是放弃二元评分,引入一种基于置信度和风险的评分体系。这类似于现实世界中一些高风险领域的决策或某些标准化考试(如早期的SAT)。

  • 机制设计:在每个问题的提示中,明确告知模型评分规则。例如:“请回答以下问题。只有当你对答案的置信度**高于90%**时才作答。答对得1分,答错将被扣除9分,回答‘我不知道’得0分。”
  • 背后的逻辑:这个评分体系设定了一个理性的决策阈值。一个经过良好校准的模型,只有当其内部判断的正确概率超过90%时,回答问题的期望收益才会是正的。否则,最理性的选择就是回答“我不知道”以避免惩罚。

3. 这一方案的优势

  • 透明性与客观性:评分规则对模型是完全透明的,就像对人类考生一样。这使得评估更加公平和客观,可以比较不同模型在不同风险偏好下的决策能力。
  • 引导“行为校准”:这种机制的目标不再是让模型输出一个抽象的置信度分数,而是展现出与风险相匹配的正确行为(即在不确定时选择不回答)。这是一种更实用、更易于评估的“行为校准”(behavioral calibration)。
  • 重塑激励,系统性影响:一旦主流排行榜采纳了这种评分机制,整个AI研发的激励链条就会被重塑。模型开发者将被激励去训练那些能准确评估自身知识边界、并在关键时刻选择“沉默”的模型。这会从根本上抑制幻觉行为,因为鲁莽的猜测将直接导致评分下降。

总而言之,幻觉在后训练阶段的顽固存在,是评估体系与可信AI目标之间深刻矛盾的体现。我们不能期望一个在“赌场”规则下训练的系统能表现出“学者”般的严谨。只有通过改革评估这一“指挥棒”,将对“诚实”的奖励内嵌到模型追求高分的核心动机中,我们才能真正引导AI走向更负责任、更值得信赖的未来。

第三部分:系统性解决方案——重塑激励,迈向可信AI

在前两部分的分析中,我们已经明确了语言模型幻觉的统计学起源和其在当前评估体系下持续存在的系统性原因。现在,我们将聚焦于解决方案,并论证为何必须采取一种超越局部技术优化的、系统性的社会-技术方法,才能真正缓解幻觉问题。

这个解决方案的核心思想是:停止将幻觉视为一个孤立的技术“bug”来修复,而应将其看作是整个系统激励机制失调的“症状”来治疗。 治疗方案的靶点不是模型本身,而是驱动模型发展的评估生态。

评估范式变革的具体路径

我们提出的核心方案——在主流基准中引入“明确的置信度目标”——需要一个清晰的实施路径,以确保其有效性和可操作性。

1. 设定多层次的置信度阈值

一个完善的评估体系不应只有一个固定的风险偏好。相反,它应该在一系列不同的置信度阈值(例如,t = 0.5, 0.75, 0.9, 0.99)下分别评估模型。

  • t = 0.5(低风险):相当于答错和答对的分值相同(例如,答对+1,答错-1)。这要求模型在有超过50%的把握时才回答。
  • t = 0.99(高风险):相当于答错的惩罚是答对奖励的99倍。这适用于模拟医疗、金融等高风险决策场景,要求模型具备极高的确定性。

通过在多个阈值下进行评估,我们可以得到一个模型关于“风险-回报”决策能力的完整画像。一个真正优秀的模型,应该能够在所有阈值下都做出近乎最优的决策,即当其内部置信度低于当前阈值t时,稳定地选择“我不知道”。

2. 评估的标准化与排行榜的重构

  • 标准化提示语:为了保证公平性,包含置信度目标的提示语需要标准化。例如,所有基准测试都采用统一的模板向模型传达评分规则。
  • 排行榜的呈现方式:新的排行榜不应再是一个单一的“准确率”分数。它可以是一个综合分数,加权了模型在不同风险水平下的表现;或者是一个多维度的图表,展示模型在不同置信度要求下的性能曲线。这将引导市场和研究者从关注单一的“最高分”,转向关注模型的“可靠性”和“风险适应性”。

为什么这是一个社会-技术解决方案?

称之为社会-技术方案,是因为它的成功不仅依赖于技术上的实现(修改评分脚本是相对简单的),更依赖于AI社区——包括顶尖研究机构、大型科技公司、基准测试维护者和学术界——的共识和集体行动。

  • 社会层面:它需要行业领导者认识到,当前的评估竞赛正在将AI引向一个“高能力但不可信”的方向。需要通过学术会议、行业联盟和公开讨论,就“什么是好的AI”达成新的社会契约。这个契约必须明确包含“知道自己不知道”是一种核心能力,而非缺陷。
  • 技术层面:它为AI对齐研究(AI Alignment)提供了更具体、可操作的目标。研究的重点可以从“如何让模型更聪明”,部分转移到“如何让模型更诚实地了解自己的能力边界”。“行为校准”可以成为一个比传统的“概率校准”更重要的优化目标。

预期影响与深远意义

实施这一评估范式变革,将对整个AI领域产生深远影响:

1. 对模型研发的影响

  • 激励创新:新的评估体系将激励在模型不确定性量化、知识边界识别和可控的“放弃回答”机制等方向上的技术创新。除了本文探讨的评估体系改革这一“顶层设计”外,这也将极大推动从“底层技术”层面解决幻觉问题的研究。例如,通过检索增强生成(RAG)和知识图谱为大模型注入可验证、可追溯的知识,正是提升模型确定性、减少幻觉的有效路径。在这方面,著名大模型专家王文广先生的《知识增强大模型》一书提供了详尽的实践指南,其第八章“图模互补应用范式”和第九章“知识图谱增强生成与GraphRAG”深入探讨了如何利用知识图谱的结构化、确定性知识来弥补大模型的不足,从而在根本上提升模型回答的可靠性。这种技术创新与评估体系的改革相结合,才能形成解决幻觉问题的合力。
  • 数据需求的变化:可能会推动对高质量、包含明确不确定性表达的训练数据的需求。
  • 架构的演进:可能会催生出更善于进行内省和自我评估的模型架构。

2. 对AI产品和市场的影响

  • 提升用户信任:当用户知道AI助手在不确定时会主动承认,而不是编造一个答案时,他们会更愿意在关键任务中信赖AI。一个偶尔说“我不知道”的AI,远比一个总是自信满满却时常犯错的AI更可靠。
  • 市场差异化:“可信度”和“可靠性”将成为与“能力”同样重要的市场竞争维度。企业可以宣传其模型在“高风险”评估中的卓越表现,以此作为其产品安全性的证明。
  • 推动负责任AI的落地:这将是实现“负责任AI”原则的一个具体、可衡量的步骤。它将抽象的伦理原则转化为具体的工程目标和评估指标。

局限性与未来展望

当然,这个解决方案并非万能药。

  • “我不知道”的粒度:简单的“IDK”回答是初步的。未来的模型需要更细粒度的不确定性表达,例如“我了解A方面,但对B方面不确定”或主动提出澄清性问题。新的评估体系是通向这一目标的第一步。
  • 开放式生成问题:对于“写一首诗”或“总结一篇文章”这类开放式任务,定义“错误”和“幻觉”更为复杂。但即使在这些任务中,也可以引入类似原则,例如评估模型是否会编造不存在的引用或事实细节。

展望未来,通过重塑评估体系,我们正在引导AI从一个单纯的“语言模式复制器”向一个具备初级“认知美德”(epistemic virtues)的智能体转变。这种美德的核心就是“认知谦逊”——准确地知道自己知识的边界。这不仅是解决幻觉问题的关键,也是构建与人类社会协同发展的、真正有益的人工智能的基石。

欢迎加入“走向未来”知识星球,一起探讨大模型和AIGC的产品、技术和应用实践,探讨如何使用各种不同的人工智能大模型工具来为工作增效,为生活添彩。点击链接(https://t.zsxq.com/xpWzq)或扫码加入“走向未来”知识星球,一起走向AGI的未来。

结论:构建一个奖励“诚实”的AI生态

本文通过深入分析,试图揭示一个关于大模型幻觉问题的核心论断:幻觉并非随机的技术故障,而是现有AI研发范式下的一个系统性、可预测的产物。

它的起源,在于预训练阶段的统计学压力。为了精准地模拟人类语言的概率分布,一个良好校准的模型在面对知识稀疏、模式缺失的数据时,必然会产生生成性错误。我们将复杂的生成问题归约为简单的分类问题,从而清晰地揭示了这一内在机制。

它的症结,在于后训练及评估阶段的激励错位。当前主导行业的评估基准普遍采用二元评分制,将模型置于一个永久的“考生模式”中。在这种模式下,承认不确定性(回答“我不知道”)是一种必败策略,而冒险猜测则是获得高分的最优选择。这种系统性的“对猜测的奖励”和“对诚实的惩罚”,是幻觉问题顽固不化的根本原因。

基于此,我们提出的解决方案必须是系统性的,即从改造驱动AI发展的评估生态入手,而非仅仅停留在对模型本身的技术修补。 我们主张对最具影响力的主流基准进行评分机制改革,用带有明确错误惩罚的“置信度目标”取代简单的二元评分。

这一变革的意义是深远的。它旨在将AI研发的“指挥棒”从单一追求“能力最大化”转向追求“能力与可信度的平衡”。它将激励整个领域去构建那些不仅知识渊博,而且能清醒认识自身知识边界的AI系统。

最终,解决幻觉问题的道路,是构建一个奖励“认知诚实”的AI生态系统。只有当模型因为其严谨和审慎而获得高分,而不是因为其大胆的猜测时,我们才能真正开始信任它们。这不仅是技术上的挑战,更是一次关乎整个AI领域发展方向的集体选择。通过推动这场评估范式的变革,我们正在为一个人机协同更加安全、高效和可信的未来铺平道路。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 摘要
  • 正文
    • 第一部分:幻觉的统计学起源——预训练的视角
      • 核心理念:从无监督生成到有监督分类的归约
      • 校准模型中错误的必然性
      • 剖析导致分类错误的具体因素
    • 第二部分:幻觉的持续与强化——后训练与评估的症结
      • 核心症结:一套奖励“猜测”的评估体系
      • 解决方案的转向:从技术修补到重塑激励
    • 第三部分:系统性解决方案——重塑激励,迈向可信AI
      • 评估范式变革的具体路径
      • 为什么这是一个社会-技术解决方案?
      • 预期影响与深远意义
      • 局限性与未来展望
    • 结论:构建一个奖励“诚实”的AI生态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档