首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

OpenAI模型突现中文推理:是“偷师”还是AI的语言偏好?

AI世界的“中国心”?OpenAI模型意外偏爱中文

近日,国外网友发现,OpenAI的明星模型o3-mini-high在推理过程中,开始大量使用中文。这一现象迅速引发关注,并引发了关于OpenAI是否在学习,甚至“偷师”中国DeepSeek模型的讨论。

令人惊讶的是,即使以俄语提问,o3-mini-high依然选择用中文进行思考,这让网友们纷纷向OpenAI CEO奥特曼发问:“o3-mini为何如此钟爱中文?”

更有甚者,网友戏称中文为LLM的“灵魂语言”,一张关于DeepSeek与OpenAI的“罗生门”梗图迅速走红网络。

“语言混杂”:AI模型的常见问题

事实上,这并非OpenAI模型首次出现“语言混杂”现象。早在去年,就有开发者报告了类似问题,只不过当时混合的是其他语言。OpenAI的o1模型也存在类似情况。其他AI模型,如谷歌的Gemini,也曾出现混杂德语的情况。

AI为何“口吐中文”?

阿尔伯塔大学的AI研究员Matthew Guzdial指出,模型并不理解语言本身,只是将它们视为文本。模型处理的是tokens,而非我们理解的单词。这种处理方式可能导致误解,例如,中文没有空格分词的习惯。

Hugging Face的工程师Tiezhen Wang认为,模型语言不一致性可能源于训练期间建立的特殊关联。他将此比作人类双语思维模式,大脑会根据场景选择最合适的语言。例如,中文在数学运算方面可能更高效。

网友Someone Kong则推测,中文可能更短,因此在强化学习中获得更多奖励。DeepSeek的论文也分析了类似现象,发现强化学习提示词涉及多种语言时,容易出现语言混杂。DeepSeek通过引入“语言一致性奖励”来减轻这一问题。

目前,“语言混杂”问题仍待解决。DeepSeek-R1仅针对中英文进行了优化,处理其他语言时仍可能出现问题。正如维特根斯坦所言:“语言的界限就是世界的界限。”

对不熟悉外语的用户来说,这种推理过程可能并不友好。网友Gabe甚至担心,o3-mini的中文推理可能导致错误答案。

有趣的是,在事件发酵后不久,奥特曼表示OpenAI“没有计划”起诉DeepSeek,并自信地表示OpenAI将继续引领技术前沿。值得注意的是,OpenAI本身也面临着多项知识产权侵权指控。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OmXt_9oZ9Ymcr67Xqi52SkBQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券