近日,在人工智能快速发展进程中,OpenAI的新推理模型o3因较高的幻觉率引发广泛讨论。
在最近的PersonQA评测中,o3模型在三分之一的问题上产生误解,幻觉率达到33%,几乎是前任模型o1和o3mini的两倍,而o4mini表现更差,幻觉率高达48%。
第三方机构Transluce的测试也印证了这一问题。该非营利AI研究实验室发现,o3回答问题时常虚构“过程操作”。比如,o3曾称在一台2021款MacBook Pro上“在ChatGPT之外”运行代码并将结果复制进答案,但实际上o3并无此能力。
AI研究员Neil Chowdhury指出,这可能与o系列模型采用的强化学习方法有关。
幻觉问题一直是生成式AI发展中最难解决的挑战之一,即便目前性能最优的模型也难以完全避免。过去,每一代新模型通常在降低幻觉频率方面会有小幅进步,但o3和o4 - mini却打破了这一趋势。
领取专属 10元无门槛券
私享最新 技术干货