首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

继Qwen3、DeepSeek之后微软重磅开源Phi4推理大模型:新一轮百模大战开始了

我们打造了一个全新的开源权重推理模型:Phi-4,参数量为14B,基于约 140 万条精心策划的推理示例进行了监督微调(SFT),并进行了少量强化学习(RL)训练。这个模型表现惊人,简直是“小钢炮”。

就在我们还在热议Qwen3和DeepSeek V2等旗舰模型的表现时,微软悄然发布了一个轻量级但极具潜力的新模型:Phi-4 推理模型。

微软研究团队一直在 LLM 推理能力的研究上不遗余力。此次发布的 Phi-4 模型,仅有14B 参数,但在诸如 AIME(美国数学邀请赛)、HMMT(哈佛-麻省理工数学竞赛)、OmniMath 等数学推理测试中,表现甚至超越了体量更大的 Qwen3-32B、DeepSeek R1-70B,以及一些闭源模型如 o1-mini 和 sonnet 3.7。

小模型,大表现

尽管参数体积较小,Phi-4 在 AIME、GPQA 等推理测试中,表现优于刚发布不久的 Qwen3-32B。虽然尚未完全对比完毕,但初步结果令人震撼。

Phi-4 不仅可以在配置较强的笔记本上运行,还能解决许多大型非推理模型无法解答的谜题——甚至通过了 DimitrisEval 测试。

🤯推理能力竟可迁移!

Reasoning seems to be a real, transferable, meta-skill, learnable even via SFT alone!!

令人惊讶的是,Phi-4 的推理能力似乎是一种可以迁移的元技能,甚至只通过监督微调(SFT)就能习得!

例证一:

即使没有显式训练非推理任务,Phi-4 在 IFEval、FlenQA 和内部的 PhiBench 上也实现了超过10分的提升。

此外,SFT 阶段的代码数据比例非常低(RL 阶段甚至完全没有代码数据),但模型在 LCB 和 Codeforces 上仍能达到与 o1-mini 相当的水平。值得期待的是,未来版本将重点优化编程能力。

例证二:

即便在 SFT 和 RL 阶段完全未训练的问题类型,如旅行商问题、迷宫求解、k-SAT 和受约束规划等,Phi-4 也展现出惊人的能力,远胜 GPT-4 与旧版 Phi 模型。

6k 条 RL 样本 = 性能飞跃

Phi-4 仅用 6k 个示例(vs 140 万 SFT 示例)进行了简短的 RL 训练,结果令人震撼:

AIME/HMMT 准确率提升约 10%

在更难问题上的回答长度平均增长 50%

推理机制“锁定”后,回答分布更加集中,准确率更高

这也呼应了微软研究团队在《Self-Improvement in Language Models: The Sharpening Mechanism》中的发现:RL 可以精细化模型能力!

https://arxiv.org/abs/2412.01951

“超越老师”的自我进化

Phi-4 多次在“pass@1”指标下超越了它的老师模型 o3-mini。

例如在 OmniMath 和 Calendar Planning 中。

这种“优于教师”的现象,可能得益于良好的 prompt 设计与 RL 训练策略,使模型在学习的过程中产生“自我改进”。

其他

回答越长 ≠ 越准:前 25% 长度的回答更容易出错,但整体而言,平均回答越长,准确率越高。

模型卡壳时会“唠叨”:测试时观察到模型在难题上会生成大量冗长内容(感谢 @AlexGDimakis 的观察)。

当前限制

尚未拓展/测试 32k token 以上输入能力

简单问题上容易“过度思考”

多轮对话能力尚未深入测试

模型信息与试玩地址

Phi-4 推理模型基于 MIT 许可,体积小、性能强,适合在普通 GPU 上进行微调或 RL,是生成高质量推理样本的绝佳工具。

https://huggingface.co/microsoft/Phi-4-reasoning

https://huggingface.co/microsoft/Phi-4-reasoning-plus

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OrM7l2rEFwNE-p93NCf7PnpA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券