首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【五号雷达-数据快讯】CHARM - 面向大语言模型的中文常识推理测评基准数据集

CHARM由武汉大学,同济大学和上海人工智能实验室联合推出,是首个全面深入评估大型语言模型(LLMs)在中文常识推理能力的基准测试。该数据集不仅覆盖国际普遍认知的常识,还包括具有中国特色的常识领域,如历史、传统文化与艺术、日常生活和习俗、娱乐、公众人物、地理和汉语语言等方面。CHARM数据集的特点在于它包含紧密相连的推理和记忆任务,设计了1800个推理任务和759个记忆任务,这样的设计允许同时评估LLMs在这两个领域的能力,并深入理解它们之间的相关性。该基准测试为非英语环境下的LLMs性能评估提供了新的视角和工具,对于推动人工智能在中文领域的理解和应用具有重要意义。

详情请参见五号雷达:https://www.5radar.com/dataset?id=eb6fdf121fafc1e4ff83fd1e718be3bd

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OnYJyMUvfCwkd7-YCdYxcQfQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券