首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

国产大模型阶跃星辰:在全球最难LLM基准测试中夺冠!

【ITBEAR】在近期公布的LLM基准测试项目LiveBench的官方榜单上,中国大模型“六小虎”成员之一——阶跃星辰的大语言模型step-2-16k-202411,以卓越表现夺得全球第五、国产第一的佳绩。这一成就不仅标志着中国AI技术的飞速进步,也彰显了阶跃星辰在AI领域的深厚底蕴。

▲LiveBench榜单总评分前15名

LiveBench项目,由Abacus.AI主导,并吸引了图灵奖得主、meta首席AI科学家杨立昆的参与,因其严格的评测标准和每月更新的题库,被誉为“最难糊弄的LLMs基准测试”。这一项目不仅要求大模型具备全面的能力,还强调测试的公正性和真实性,有效避免了测试集污染等问题。

阶跃星辰的step-2-16k-202411,在LiveBench的六类别任务中,尤其在指令跟随(IF Average)方面,以86.57的高分力压群雄,甚至超过了OpenAI的o1-preview-2024-09-12。这一成绩不仅体现了step-2-16k-202411在语言生成上的精准控制力,更展示了其强大的理解和遵循人类指令的能力。

▲LiveBench官网博客

阶跃星辰的step-2-16k-202411,是该公司自研的万亿参数MoE大语言模型。在设计过程中,阶跃星辰放弃了upcycle(向上复用)路径,选择了从头开始训练的艰难道路。通过部分专家共享参数、异构化专家设计等创新手段,阶跃星辰成功构建了Step-2 MoE架构,不仅提升了模型的性能,还确保了每个“专家模型”都能得到充分训练。

今年3月,Step-2预览版发布,成为国内首个由创业公司发布的万亿参数MoE大语言模型。随后,在7月的世界人工智能大会上,Step-2正式发布,其出色的数理逻辑、编程、世界知识、指令跟随等能力,全面逼近GPT-4,引发了业界的广泛关注。

阶跃星辰的Step系列模型,除了万亿MoE大语言模型Step-2外,还包括多模态理解大模型Step-1.5V、图像生成模型Step-1X等,形成了全面的模型矩阵。同时,阶跃星辰还推出了C端应用“跃问”和“冒泡鸭”,将AI技术应用于实际生活中,为用户提供了更加便捷、智能的服务。

阶跃星辰的成立时间虽短,但其在AI领域的深耕细作,使其在短时间内取得了显著的成果。此次在LiveBench榜单上的优异表现,不仅是对阶跃星辰技术实力的肯定,更是对中国AI产业发展的鼓舞。在全球AI赛场上,国产大模型正逐渐崭露头角,展现出强大的竞争力和发展潜力。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OFJ4TSgv2shPyy5hAG9r6C5A0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券