
有人发了张照片,说用 Qwen3.5 4B 这个小模型就能准确识别出图片里的建筑。帖子很快拿到 300 多个赞,评论区一片"太强了""小模型也能这么准"。
然后版主出来泼了盆冷水:这栋建筑压根不存在。
模型编了个名字,编了个地址,编得像模像样。300 多个人看到"AI 说是"就信了,没有一个人去查。
这件事让我想了挺久。AI 幻觉这个词大家都听过了,但真正危险的不是 AI 会编,而是我们太容易信。
心理学里有个概念叫自动化偏差(automation bias):当机器给出一个答案,人会本能地倾向于接受,哪怕自己有能力判断对错。
飞行员过度依赖自动驾驶、医生过度信任 AI 诊断,都是这个机制在作怪。换到 ChatGPT 场景也一样——它说得那么流利、那么自信,你很难不信。
还有一层:确认偏差。
那个 Reddit 帖子里,发帖人本来就想证明"小模型也很强",AI 给了一个看起来对的答案,完美印证了他的预期。他不会去验证,因为答案已经是他想听的了。
这两个偏差叠加,就是 AI 幻觉真正的杀伤力。模型胡说八道只是导火索,人的认知偏差才是炸药。
说完问题说方法。我自己用 AI 这一年多,慢慢摸出几个习惯:
1. 开搜索,别裸聊
ChatGPT 和 元宝、豆包 都支持联网搜索。涉及事实性问题(人名、数据、事件),一定要开。裸聊模式下模型只能靠训练数据猜,搜索模式至少能拉到真实来源。
2. 交叉验证,别单押
重要信息至少过两个来源。我一般是 AI 给初步答案,然后去 Google 或维基百科验一下关键细节。听起来麻烦,但比用错信息返工省时间多了。
3. 别问"是不是",问"你怎么知道的"
很多人用 AI 的方式是:"这是不是 XX 建筑?"模型很难回答"我不知道",它会编一个答案来满足你。
换个问法:"你根据什么判断这是 XX 建筑?列出具体依据。"这时候如果它开始含糊其辞,你就知道它在猜了。

不是所有场景都要这么谨慎。一个简单的判断标准:
出错成本低的,放心用。帮你起个标题、改改措辞、写个正则表达式——错了改就是,AI 省的时间远大于纠错成本。
出错成本高的,必须验。 医疗建议、法律条款、财务数据、学术引用——这些领域 AI 幻觉的代价可能很大。用 AI 做初步检索没问题,但最终决策不能只靠它。

"AI 就像一个极度自信的实习生。它可能是对的,但你不能因为它说得自信就不审稿了。"
AI 幻觉短期内不会消失。模型在变强,但"编的时候特别自信"这个特性可能是架构层面的。
我们能做的就是调整自己的使用方式:信任,但验证。
把 AI 当助手别当答案,你能省掉 80% 的重复劳动。但剩下 20% 的判断,还是得靠自己。