编辑:编辑部 HNY
业界唯一全国产算力训出的深度推理模型,再次迎来全面升级!
时隔一个半月,星火X1在数学能力上大幅跃升,仅以70B参数规模,便追平了o1和DeepSeek-R1。
尤其是,在竞赛级难题上再攀高峰。就中小学实用任务,新模型更是全面领先DeepSeek-R1。
针对小初高中文测试集(来自2023/2024各学段考试真题/模拟题/竞赛题),星火X1拿下SOTA
令人振奋的是,这一切全是在全国产算力平台上实现的。
不用依赖昂贵的英伟达卡,星火X1用更小的规模、更少的算力,就能对标671B满血版R1和o1,充分证明了算法创新在国产算力上的巨大潜力。
在自主可控的前提下,科大讯飞再下一城,这是中国AI的硬核自信。
从医疗到教育,从政务到司法,70B的星火X1正以更低成本、更高效率,加速释放出行业的无限潜力。
星火X1再升级,数学登顶对标DeepSeek-R1
1月15日,星火X1首次亮相,便在多项指标媲美国际领先水平。此次,升级后的星火X1不仅「会算」,而且「会想」。
网页端展示的解题过程,更加直观完整,每一步的思考细节、反思逻辑、结论整合都一览无余。
同时,星火X1在中小学数学作业的批改、辅导以及题目推荐等任务上,已经展现出明显的优势。
还有新增的「识图答题」功能让体验再升级,只需截图上传题目,即可快速获取解答。
而现在,打开讯飞星火网页端/APP,进入深度推理X1即可体验。
先上手一道简单的——2024北京中考第4题,根据所给的一元二次方程,求解实数C。
通过左下角「识图解题」入口,选择题目4图片,AI直接开启学霸做题模式。
星火X1先是精准分析、理解了题目的条件、要求,然后用时50秒,给出了详细的思路历程。
首先,先从概念上拿出一元二次方程的一般形式,以及判别式Δ=b²-4ac,而且只有Δ=0,方程才有2个相等的实数跟。
它通过对照后发现,原题目中给出的就是一个标准的方程式,由此得出了a=1,b=-4,需要求解c值。
接下来,它通过将已知的数值代入方程Δ=(−4)²−4⋅1⋅c=16−4c,最后得出了c=4,也就是选项C。
注意看,其实思维链截止到这里,已经得出了正确答案。
那么,下面的思考过程又是怎么回事呢?
就像考场中的学生一样,作为深度推理模型,星火X1也有自己的反思、验证、自我纠正的过程。
更惊喜的是,它给出了另一种验证方法:根据方程有两个相等的实数根的条件,可以写成完全平方形式,即(x - r)²=0(r是重根),展开方程式得到x² -2rx +r²=0。
然后再和题目中原方程比较,便可以得到r=2,常数c=r²=4。
最终,通过两种方法得出了一致的结果,让答案更加可靠。
上下滑动查看
在给出解答中,星火X1用了中学知识点中更为常见的方法,即思维链第一种,给出了翔实、让人易懂的求解过程。
再拿一道高中的概率统计题考考它:
已知随机变量X服从指数分布,其参数λ=0.3,求P(X>2)
收到题目后,星火X1很快就看出「这个题目看起来应该是概率论里的关于指数分布的问题。」然后,它开始使用概率论的知识进行推导。
首先,列出指数分布的概率密度函数,并注意到了λ=0.3这个已知条件。
接着,意识到了求P(X>2)实际上就是这个概率密度函数从2到∞的积分。更聪明的是,它想到这里面可能有现成的公式,从而不用从头推导!
然后,它将λ=0.3代入到公式中去,很快就得出了正确结果e^-0.6。
值得一提的是,为了算出e^-0.6大概等于多少,星火X1非常聪明的先算了e^0.6的值,然后再求倒数就得到了近似值0.5488。
而在检查过程中,星火X1则使用了多种不同的方法。比如为了验证e^-0.6的值,它选择了泰勒级数展开来算,直到达到一定的精度后才罢手!相当认真。
上下滑动查看
最后的答案完美的渲染出了思考及解答过程。
接着我们给它上难度,找一道关于二元一次不等式的多选题给它试试。
看完题目后,星火X1开始了详细的思考过程,并在177秒后,给出了正确的选项。
接下来,是一道常见,但略有难度的极限题。
经过302秒的长推理后,星火X1给出了正确答案。这么长的CoT竟然没被截断,属实厉害。
甚至,就连2024年AIME2竞赛级难题,也可完美拿捏。
上传第4题,星火X1用时2分多,通过拆解问题、详细求解、反复验证,最终得出了33。
没错,最终的正确答案就是33。
这份亮眼成绩单背后,离不开科大讯飞的两大技术创新。
首先,通过高效领域数据自动化挖掘,以及多类型数据合成算法,构建出了海量数学领域的预训练数据。
其次,基于评语模型与RL算法,激发了大模型长思维链的能力,以及在推理过程中的反思验证,进一步提升了推理结果的准确性。
在讯飞星火X1具备了强大的能力之后,接下来的落地阶段,便要考验模型的行业适配性了。
600B的超大模型效果确实很好,但部署成本高昂,让许多机构望而却步。相比之下,星火X1的70B模型,则有着颠覆性的优势。
它不仅能够单机运行,训练更高效,最重要的是定制门槛低。更小的模型规模,可以让科研单位、央国企、医院等基于国产算力用上高性能AI。
具体来看,70B模型拥有700亿参数,若每个参数以8位浮点数(1字节)存储,则参数内存需求为70GB。而671B模型(如DeepSeek-R1)拥有6710亿参数,其参数内存需求为671GB。
单机若配备8张H800 GPU(每张80GB,总640GB),一台不仅能容纳70B模型,还能实现出色的并发性能。而671B的模型则需要至少2台机器才能跑。
正如我们所见,70B含金量,不仅在于性能,更在于用更低的成本撬动更大的行业价值。
医疗、教育加速兑现,五大场景全面开花
现在,全新升级后星火X1,正为各行各业的应用,注入新动能。
在医疗领域,科大讯飞首发深度推理星火医疗大模型X1,并将其正式落地旗下AI健康助手应用「讯飞晓医」。
这一次升级,不仅让晓医从「知识查询」工具进化成「决策辅助」专家,更标志着AI医疗迈入了「深度思考」的新时代。
凭借个性化、专业化、实用化,星火医疗大模型X1以医学专家级的推理能力取得了重大突破。
如下所示,在诊断推荐、健康咨询、检查检验报告解读等推理任务汇中,星火医疗大模型X1一举超越了GPT-4o和DeepSeek。
数据来源:晓医、智医助理、安贞心内科等真实场景测试集
过去,AI健康咨询往往千篇一律,难以满足患者的个性化需求。而升级后的讯飞晓医,首次实现了健康档案与AI模型的深度融合。
不论是既往病史、检查报告,还是用药记录,星火医疗大模型X1都能逐一分析,深入洞察患者的健康状况和潜在风险。
这种从千人一面,到量身定制的体验,才能让AI医疗真正进入每个人的生活。
比如,针对「沙库巴曲缬沙坦能否降压」问题,讯飞晓医不仅明确给出回答,还会详细说明适用人群、禁忌症和剂量的调整建议,堪称教科书级解答。
而像DeepSeek这样的通用大模型,回答却可能遗漏关键信息。
此外,星火医疗大模型X1还解决了「建议答案宽泛不实用」的痛点,能够给出更加个性化、实用的建议。
随着星火医疗大模型X1在医疗场景的持续落地,无论是患者,还是医生,都将得到AI助手更高效、更精准的智能支持。
那么,教育又该如何拥抱AI?
科大讯飞再次给出了创新性答案,让AI不仅会教,还能会想。
基于星火X1的星火教师助手,也迎来了升级,通过教学思维可视化,为老师打造从备课到课堂的全流程智能助手。
在备课时,在教学设计过程中,星火教师助手能够结合教师意图,明确教学重难点、要达成的目标。并且,它还做出了分步说明,帮助老师理解前后逻辑,激发灵感创新。
在授课过程中,它还能够将「思维可视化」,不论是学生对基础问题提问,还是对复杂问题进阶研究,都可以做到有迹可循。
比如,在合肥望湖中学的一堂历史课上,老师抛出了一个经典问题——如何评价武则天?
正是星火教师助手,让这堂课变得与众不同。
系统迅速调用了多模态知识图谱,呈现出武周革命、《资治通鉴》等多元史料,通过语义理解和因果推理,拆解出评价的多个维度,最终生成清晰的三段论引导框架。
对此,在座的学生们惊叹道,「原来评价历史人物需要多维坐标系」!
智慧黑板上,AI生成的思维导图动态展示了「统治功绩与道德争议的平衡考量」,ML算法构建的认知模型让抽象概念变得直观可感。
这种教学方式,不仅让历史课从传统的「背书」转向「思辨」,更让学生在研究中培养了批判性思维。
通过人机协同教学,教育生态正被悄然重塑。
课堂之外,家庭学习场景也迎来了革新。
科大讯飞还推出了首款「讯飞星火+DeepSeek」双引擎学习机——T30系列。
两个聪明大脑强强联合,打造出一位诊断超快、推荐超准、辅导超细的「AI老师」。
基于星火的教育CoT和DeepSeek可视化CoT优势,这款学习机能根据孩子个性化学情数据,深入剖析学习弱项,并给出清晰的推理过程。
假设孩子在一个数学题上卡壳,AI老师会用「苏格拉底启发式」辅导,通过语音、图像、文字互动,引导孩子一步步找到答案,培养期自主思考能力。
相比原生DeepSeek,它能够弥补教研理解不足、知识幻觉等问题,真正做到1+1>2。
在家长端,「讯飞AI学」亲子助手中补充接入了DeepSeek,帮助家长与孩子有效沟通出谋划策。
而且,讯飞AI学习机还实现了三大功能升级——AI 1对1精准学、AI 1对1英语口语陪练、家长端「讯飞AI学」,不仅让孩子学习更高效。让家长辅导更省心。
值得一提的是,科大讯飞还与华为强强联手,发布了全新升级的「星火一体机」——4U训推一体机和2U推理一体机。
从算力、模型、训练、推理到应用,一体机通过全国产化架构,为政企提供安全高效的AI底座。
此次升级,还深度融合了讯飞星火与DeepSeek的双引擎能力,让行业知识能力提升30%,模型幻觉率下降10%。
具体来说,星火一体机具备了多项核心优势:
面向医疗、高教、政务、警务、法律等垂类场景,讯飞还专门定制了行业一体机。
自主可控,中国AI再下一城!
星火X1超进化的意义,远不止一场技术竞赛的胜利。
70B对标o1、R1的技术高度,证明了中国AI在业界唯一全国产化底层算力和算法创新上的硬实力。
顶天立地,勇攀高峰,是科大讯飞成立以来一直坚守的初心,不仅要在源头技术上创新,更要在应用落地中开花结果。
不难看出,星火X1已经跑通了许多垂类应用,从医疗、教育,到法律、政务等,实现了深度赋能。
这种「底座进步+场景兑现」的双轮驱动,成为科大讯飞走向国民级市场的有力注脚。
回看DeepSeek-R1,它是国产大模型的一次高光亮相;而星火X1,则是中国AI的一次全面进阶。
它不止于与R1比拼数学能力,更在应用广度和深度上,树立了全新标杆。
从一台国产机就能服务千行百业,再到医疗教育的智能化跃迁,星火X1让大模型的红利真正惠及科研机构、企业,甚至是普通用户。
这种普惠性和实用性的结合,正是中国AI「再下一城」的核心价值。
未来,随着大模型迭代和应用场景不断扩展,星火X1的潜力还将进一步释放。
从70B惊艳亮相,到自主可控的产业落地,科大讯飞用实际行动告诉世界:中国AI不仅能站得更高,还能走得更远。