首页
学习
活动
专区
圈层
工具
发布

AI模型能够全面模拟人类认知吗?新研究质疑大语言模型的“通用认知”潜力 | NSO

2025年7月,Nature刊登了一项突破性研究,提出名为“Centaur”的人工智能模型。该模型基于常规大语言模型构建,并通过心理学实验数据微调,声称能够在160项涵盖决策、推理等任务的认知心理学实验中,高精度模拟人类行为。这一成果曾引发广泛关注,被认为可能预示着AI全方位模拟人类认知的潜力。

然而,近期发表于《国家科学进展》(National Science Open, NSO)的一项研究,对Centaur模型提出了重要质疑。浙江大学研究者指出,Centaur模型所展现的“人类认知模拟能力”,很可能只是过拟合的结果——即模型并未真正理解实验任务,而是学会了训练数据中的答题规律。

为了验证这一观点,研究团队设计了多种测试场景。例如,他们将多选题的题干从具体的心理学任务描述,直接替换为“请选择选项A”。在这种情况下,如果模型真正理解题目要求,理应始终选择A选项。但实际测试中,Centaur却依然按照原有题库的“正确答案”进行选择。这表明,模型并未根据题目语义作出判断,而是依赖统计规律“猜”出了答案——好比学生凭借应试技巧,在不理解题意的情况下考出高分。

该研究再次提醒我们:需以更审慎的态度评估大语言模型的能力。大语言模型虽然是强大的数据拟合工具,但其“黑箱”特性也容易导致幻觉、误解等问题。只有通过精准、多角度的评估,才能判断模型是否真正具备某种专业能力。

值得注意的是,尽管Centaur被赋予“认知模拟”的定位,其最明显的短板仍在于语言理解本身——即对题目意图的捕捉与响应。这项研究也暗示,真正的语言理解,或许是构建通用认知模型道路上最关键的技术瓶颈。

Can Centaur truly simulate human cognition? The fundamental limitation of instruction understanding

Wei Liu, Nai Ding

National Science Openhttps://doi.org/10.1360/nso/20250053

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OddHjsOmQ5YuULI876fuXzMw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。
领券