权威大模型评测：商汤日日新登顶大语言与多模态双榜单

文章来源：企鹅号 - CQ智播汇

近日，权威研究机构弗若斯特沙利文（Frost & Sullivan, 简称“沙利文”）联合头豹研究院发布的《2025年中国大模型年度评测》结果揭晓。

在大语言和多模态能力两大核心领域评测中，商汤日日新融合大模型SenseNova都斩获国内第一梯队成绩。

其中，在核心的通用基础能力和多模态图像理解能力上，商汤日日新双双登顶，在16家国产主流大模型中排名第一，充分彰显了其深厚的技术积淀与卓越的创新实力。

通用基础能力：

三大维度全面领先

此次评测的“通用基础能力”涵盖数理科学、语言能力和道德风险控制这三大核心维度。商汤日日新在这三个方面都表现得非常出色，位列第一，得分远超国际平均水平，充分展现了其在多维度上的综合优势。

在数理科学能力方面，商汤日日新以88分的高分位列第二，在数学推理、代码编写、科学常识等细分领域，展现出了卓越的逻辑推理和计算能力。报告特别强调，逻辑推理和数学能力已成为评判大模型实力的重要标杆，而商汤在这方面展现出了尤为显著的优势。

在语言能力方面，商汤在意图理解、角色扮演、开放式推理等方面均表现优秀，尤其在语境适应性、指令遵循和输出稳定性上更是出类拔萃，确保了生成内容的准确性和一致性。

在道德责任能力方面，商汤以75.88分的佳绩荣登榜首，其在风险信息识别、偏见控制等方面表现卓越，充分彰显了商汤在伦理安全与风险控制方面的严苛标准和高度责任感。

多模态能力：

图像理解与生成双突破

在多模态能力评测中，商汤日日新表现仍然十分亮眼。在多模态图像理解能力评测环节，商汤日日新以84.05的高分荣登榜首，并且在文字识别、物体定位、图像风格识别、图片逻辑理解等九个具体评测维度中斩获了三项第一，充分展现了其强大的图像理解能力。

其中，商汤日日新的文字识别能力在复杂背景和低质量图像环境中的表现远远超出了中国及国际行业的平均水平；其物体定位能力的精准度在国内处于领先地位；而图像风格识别的准确率则显著高于中国大模型的平均水平线。

在多模态生成能力评测中，商汤秒画在商业图像和艺术图像生成方面均表现出色，尤其在商业图像生成领域，其图像质量、对指令的遵循程度以及风格的多样性均得分领先，充分展现了其卓越的技术实力和广阔的应用潜力，能够完美契合广告、电商等各类商业场景的需求。

专业应用能力：

多行业场景表现优异

在专业应用能力评测中，商汤日日新同样处于第一梯队，位居前二。其综合能力广泛覆盖了AI智能体、专业文本处理以及超长文本处理等多个方面，充分展现了在复杂决策制定、专业知识深入理解以及长文本逻辑推理方面的卓越能力。

而在行业应用能力上，商汤日日新在金融、医疗、政务、教育等14个关键行业场景中均表现出色，这不仅体现了其对不同领域知识的深刻理解和熟练应用，还彰显了其强大的行业适应性和实战落地能力。

自2023年4月首次发布以来，日日新SenseNova大模型体系已经历了多次重大版本的升级迭代。今年1月，商汤推出的日日新融合大模型更是在行业内开创了原生融合模态训练的先河，成功打破了传统大语言模型与多模态模型相互独立的局限，实现了对文本、图像、视频、语音等多种异构信息源的综合处理能力。这一突破为多场景应用提供了坚实的基础，有力推动了AI大模型的工业化进程。

随着AI大模型技术的快速发展，多模态技术已成为行业发展的重要趋势。商汤在多模态领域的深厚积累与显著优势，不仅为技术的持续发展和应用的广泛拓展提供了有力支持，更为整个行业树立了新的标杆。

发表于: 2025-03-142025-03-14 21:31:34
原文链接：https://page.om.qq.com/page/OUMAT4sPNY5zQ35-tLYh4Q9w0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

权威大模型评测：商汤日日新登顶大语言与多模态双榜单

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐