在人工智能领域,“幻觉” 现象一直是困扰从业者和用户的一大难题。
简单来说,AI “幻觉” 指的是模型在输出内容时,产生与事实不符、毫无根据的虚构信息,就像人类产生幻觉一样,给出错误且不合理的答案。
而近期,OpenAI 推出的 o3/o4-mini 模型,在这一问题上更是引发了广泛关注。
性能提升背后的隐患:o3/o4-mini “幻觉” 加剧
据 The Crunch 报道,OpenAI 近期推出的 o3/o4-mini 模型一经问世,便在诸多领域展现出强大的实力。
在编程领域,它能够快速生成复杂的代码,大大提升了开发效率;面对数学难题时,其求解速度和准确率也较前代模型有了质的飞跃。
这些显著的突破,让人们对 OpenAI 的技术发展充满期待。
然而,硬币总有两面。这两款新模型在 “幻觉” 内容的产生上,也创下了新高。OpenAI 内部测试数据显示,相较于此前的推理模型 o1、o1-mini、o3-mini,以及传统的 “非推理” 模型,o3 和 o4-mini 更容易生成虚构内容。
这种情况不仅影响了模型输出结果的可信度,也为实际应用带来了潜在风险。例如,在教育、医疗等对信息准确性要求极高的领域,“幻觉” 产生的错误内容可能会误导用户,造成严重后果。
未解之谜:连开发者都困惑的 “幻觉” 根源
令人惊讶的是,连 ChatGPT 的开发人员都对 o3/o4-mini 的 “幻觉” 问题感到束手无策。
在 OpenAI 发布的 o3/o4-mini 技术报告中,明确表示尽管推理模型在不断发展,但 “幻觉” 情况却愈发严重,而背后的原因仍需更多研究去探索。
这一矛盾现象打破了人们对模型迭代优化的常规认知。通常情况下,随着技术的进步和模型的升级,性能和准确性应该同步提升。
但 o3/o4-mini 的出现,让人们意识到 AI 发展之路并非一帆风顺。这也为整个 AI 技术的发展蒙上了一层阴影,促使科研人员重新审视模型的训练和优化方式。
数据揭示真相:高 “幻觉” 率令人咋舌
为了更直观地了解 o3/o4-mini 的 “幻觉” 问题,我们来看一组数据。
在 OpenAI 内部用于衡量知识准确性的 PersonQA 基准测试中,o3 和 o4-mini 的 “幻觉” 问题暴露无遗。
o3 的 “幻觉” 比例达到了 33%,几乎是前代推理模型 o1(16%)和 o3-mini(14.8%)的两倍之多。而 o4-mini 的表现更令人担忧,其 “幻觉” 率高达 48%。
如此高的虚构内容产出比例,严重影响了模型输出结果的可信度。想象一下,当用户向模型寻求答案时,每问两个问题,就可能得到一个错误或虚构的回答,这无疑会降低用户对模型的信任度。
与行业内其他表现较好的 AI 模型相比,o3/o4-mini 的 “幻觉” 率也明显偏高,这使得它们在市场竞争中面临巨大挑战。
实际测试翻车现场:o3 的虚构 “表演”
第三方机构 Transluce 和斯坦福大学的测试,进一步坐实了 o3/o4-mini 的 “幻觉” 问题。
Transluce 在测试中发现,o3 在回答问题时常常编造 “过程操作”。例如,在一次测试中,o3 声称在 2021 款 MacBook Pro 上,通过 “ChatGPT 之外” 的方式运行了生成的代码,并将结果复制到答案中。
但实际上,o3 只是拥有一部分工具的访问权,并不具备执行此类操作的能力,一切都只是它的 “虚构表演”。
斯坦福大学兼职教授 Kian Katanforoosh 团队在测试 o3 编程能力时也发现,o3 经常援引不存在的网站链接,误导用户获取错误信息。
这些实际案例让我们看到,“幻觉” 问题并非只是数据上的体现,而是实实在在影响着模型的使用体验和信息准确性。
破局之路:联网搜索能否成为解药?
面对 “幻觉” 难题,行业也在积极探索破局之法。报道指出,“联网搜索” 或许是提高模型准确性的关键。OpenAI 的 GPT-4o 就凭借联网搜索能力,在 SimpleQA 测试中斩获了 90% 的准确率。
通过实时获取网络上的最新信息,模型能够避免因知识储备不足而产生 “幻觉”。
目前,OpenAI 发言人 Niko Felix 表示,解决 “幻觉” 问题是团队重点研究方向,他们正全力以赴提升模型的准确性与可靠性。
未来,o3/o4-mini 能否通过技术升级,引入类似联网搜索等功能,摆脱 “幻觉” 困扰,值得我们持续关注。
或许在不久的将来,随着技术的不断突破,AI “幻觉” 问题将得到有效解决,为人工智能的发展开辟新的道路。
领取专属 10元无门槛券
私享最新 技术干货