超越GPT-4 Turbo，国产大模型首次排名榜首！商汤“日日新5.0”文科能力领跑

文章来源：企鹅号 - 文汇

5月21日，国内权威大模型测评机构SuperCLUE正式发布商汤“日日新5.0”(SenseChat V5)中文基准测评结果，以总分80.03分的优异成绩刷新国内最好成绩，并且在中文综合成绩上超越GPT-4-Turbo-0125。

值得注意的是，这是国内大模型首次在SuperCLUE中文基准测试中超越GPT-4 Turbo实现登顶。

SuperCLUE综合性测评基准4月评测集，2194道多轮简答题，覆盖理科与文科两大能力，包括计算、逻辑推理、代码、长文本在内的基础十大任务。

在本次测评中，“日日新5.0”在各项能力上表现较为均衡，尤其在长文本、生成创作、角色扮演、安全能力、工具使用上处于全球领先位置。

在文科任务上，“日日新5.0”以82.20分取得国内外最高分，较GPT-4-Turbo-0125高4.40分，其中，知识百科（82.4）、长文本（79.2）、角色扮演（80.4）、语义理解（81.6）、生成创作（79.4）、传统安全（90.2）均刷新国内最好成绩；理科任务上以76.78分取得国内最好成绩，其中，计算（80.6）、逻辑推理（73.8）、工具使用（80.8）均刷新国内最好成绩。

“日日新5.0”采用混合专家架构（MoE），参数量高达6000亿，支持200K的上下文窗口。此次模型能力显著提升，其背后是训练数据的全面升级与训练方法的有效提升，以及商汤AI大装置SenseCore算力设施与算法设计的联合调优。

具体来看，在数据方面，“日日新5.0”采用了新一代数据生产管线，生产了10T tokens的高质量训练数据。同时，“日日新5.0”还大规模采用了思维型的合成数据（数千亿tokens量级），这对于模型在逻辑推理、数学和编程等方面的能力提升起到了关键作用。另外，“日日新5.0”采用了自研的多阶段训练链路，包括三阶段预训练、双阶段SFT和在线RLHF。通过在每个阶段设定更加清晰聚焦的目标，实现更敏捷的调优，也避免了不同目标之间的相互干扰。

作者：沈湫莎

文：沈湫莎图：受访者提供编辑：沈湫莎责任编辑：任荃

转载此文请注明出处。

发表于: 2024-05-222024-05-22 21:35:17
原文链接：https://page.om.qq.com/page/Oxf1cEhoDL9lr738vvzY7wMQ0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

超越GPT-4 Turbo，国产大模型首次排名榜首！商汤“日日新5.0”文科能力领跑

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐