快速阅读:一项针对五大顶尖 AI 模型的实测显示,在面对 1,000 条真实世界的核查请求时,67% 的案例中模型无法达成共识。研究发现,模型之间的分歧不仅存在于细微的程度差异,更有高达 34% 的案例出现了本质性的判别冲突。
当人们谈论 AI 是“真理的仲裁者”时,可能产生了一种认知错觉。
最近 Lenz Research 的一项研究把这层幻觉捅破了。他们找来 GPT-5.4、Claude Opus 4.7、Gemini 3 Pro 等五款顶级模型,扔给它们 1,000 条来自真实用户的核查请求。注意,这些不是那种有标准答案的考试题,而是充满了政治、科学、法律等复杂语境的现实问题。
结果很有意思:67% 的请求让模型们吵了起来。
这种“吵架”不是简单的语气不同。研究者通过对判别标签进行分层,发现有 34% 的案例出现了“实质性分歧”。这意味着两个模型给出的结论可能隔了两个甚至三个量级。比如,一个模型认为某事是“真”,另一个模型可能直接判定为“假”。
有网友指出,这种分歧很大程度上源于测试条件的“陷阱”。研究者要求模型进行“强制选择”,即必须从“真、基本真、误导、假”这四个桶里选一个,且严禁提供任何解释。这就像是强迫一个博学的教授在面对模糊问题时,不能说“视情况而定”,只能在“是”或“否”之间硬选。
这种做法实际上是在测试模型的“解释空间”是否被压缩到了极限。当模型被剥夺了说“我不知道”或“这取决于上下文”的权利时,它们只能在概率的边缘反复横跳。
更有趣的观察是,模型表现出了某种“性格差异”。Gemini 倾向于给出确定的判断,而 Claude 则表现得更加谨慎,更喜欢躲在中间的模糊地带。
这种分歧是否意味着 AI 无法胜任事实核查?或许没那么严重。如果把 AI 看作是一个高效的初筛工具,而不是最终的法官,它们的价值依然存在。但如果有人试图用这种“概率上的共识”来定义客观真理,那可能才是最危险的误导。
lenz.io/research/llm-disagreement