面对复杂现实问题，AI也会各执一词

文章来源：企鹅号 - AI可可AI生活

快速阅读：一项针对五大顶尖 AI 模型的实测显示，在面对 1,000 条真实世界的核查请求时，67% 的案例中模型无法达成共识。研究发现，模型之间的分歧不仅存在于细微的程度差异，更有高达 34% 的案例出现了本质性的判别冲突。

当人们谈论 AI 是“真理的仲裁者”时，可能产生了一种认知错觉。

最近 Lenz Research 的一项研究把这层幻觉捅破了。他们找来 GPT-5.4、Claude Opus 4.7、Gemini 3 Pro 等五款顶级模型，扔给它们 1,000 条来自真实用户的核查请求。注意，这些不是那种有标准答案的考试题，而是充满了政治、科学、法律等复杂语境的现实问题。

结果很有意思：67% 的请求让模型们吵了起来。

这种“吵架”不是简单的语气不同。研究者通过对判别标签进行分层，发现有 34% 的案例出现了“实质性分歧”。这意味着两个模型给出的结论可能隔了两个甚至三个量级。比如，一个模型认为某事是“真”，另一个模型可能直接判定为“假”。

有网友指出，这种分歧很大程度上源于测试条件的“陷阱”。研究者要求模型进行“强制选择”，即必须从“真、基本真、误导、假”这四个桶里选一个，且严禁提供任何解释。这就像是强迫一个博学的教授在面对模糊问题时，不能说“视情况而定”，只能在“是”或“否”之间硬选。

这种做法实际上是在测试模型的“解释空间”是否被压缩到了极限。当模型被剥夺了说“我不知道”或“这取决于上下文”的权利时，它们只能在概率的边缘反复横跳。

更有趣的观察是，模型表现出了某种“性格差异”。Gemini 倾向于给出确定的判断，而 Claude 则表现得更加谨慎，更喜欢躲在中间的模糊地带。

这种分歧是否意味着 AI 无法胜任事实核查？或许没那么严重。如果把 AI 看作是一个高效的初筛工具，而不是最终的法官，它们的价值依然存在。但如果有人试图用这种“概率上的共识”来定义客观真理，那可能才是最危险的误导。

lenz.io/research/llm-disagreement

相关快讯