首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

宣称“文理兼修”,阶跃星辰推理模型 Step R-mini 上线

IT之家 1 月 17 日消息,阶跃星辰昨日(1 月 16 日)宣布,自研推理模型 Step Reasoner mini(简称 Step R-mini )上线。

官方表示,在 AIME 和 Math 等数学基准测试上,Step Reasoner mini 的成绩超过了 o1-preview,比肩 OpenAI o1-mini。在 LiveCodeBench 代码任务上,也比 o1-preview 效果更佳。

Step Reasoner mini 通过大规模的强化学习训练,并使用 On-Policy(同策略)强化学习算法,实现了“文理兼修”。Step Reasoner mini 除了能准确解答数学、代码、逻辑推理问题,还能富有创意地完成文学内容创作和日常聊天的任务。

IT之家附体验链接:https://yuewen.cn

  • 发表于:
  • 原文链接https://page.om.qq.com/page/ONLW-dTEuNJrlLG1Z9eTRrYA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券