首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

月之暗面回应9.11和9.9比较错误

9.11和9.9哪个更大?近日不少媒体就此问题,测试了多个大模型,但是多家大模型如字节豆包、GPT4o、月之暗面Kimi、阶跃星辰跃问、百川智能百小应等,都回答错误。

除此之外,之前有用户向大模型提问草莓(strawberry)这个单词有几个r时,多家也出现错误说是两个。

针对这些问题的出现,月之暗面回应称:其实我们人类对大模型的能力探索——无论是大模型能做到什么,还是大模型做不到什么——都还处于非常早期的阶段。

“我们非常期待用户在使用中能够发现和报告更多的边界案例(Corner Case),不管是最近的“9.9和9.11哪个大、13.8和13.11哪个大”,还是之前的’strawberry‘有几个’r‘,这些边界案例的发现,有助于我们增加对大模型能力边界的了解。但要彻底解决问题,又不能仅仅依赖于逐一修复每个案例,原因在于这些情况就像自动驾驶会遇到的场景一样是很难穷尽的,我们更加要做的是不断增强底层基础模型的智能水平,让大模型变得更加强大和全面,能够在各种复杂和极端情况下依然表现出色。”

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O-W8arFY9r13v94KlmoOcYwg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券