继Qwen3、DeepSeek之后微软重磅开源Phi4推理大模型：新一轮百模大战开始了

文章来源：企鹅号 - PyTorch研习社

我们打造了一个全新的开源权重推理模型：Phi-4，参数量为14B，基于约 140 万条精心策划的推理示例进行了监督微调（SFT），并进行了少量强化学习（RL）训练。这个模型表现惊人，简直是“小钢炮”。

就在我们还在热议Qwen3和DeepSeek V2等旗舰模型的表现时，微软悄然发布了一个轻量级但极具潜力的新模型：Phi-4 推理模型。

微软研究团队一直在 LLM 推理能力的研究上不遗余力。此次发布的 Phi-4 模型，仅有14B 参数，但在诸如 AIME（美国数学邀请赛）、HMMT（哈佛-麻省理工数学竞赛）、OmniMath 等数学推理测试中，表现甚至超越了体量更大的 Qwen3-32B、DeepSeek R1-70B，以及一些闭源模型如 o1-mini 和 sonnet 3.7。

小模型，大表现

尽管参数体积较小，Phi-4 在 AIME、GPQA 等推理测试中，表现优于刚发布不久的 Qwen3-32B。虽然尚未完全对比完毕，但初步结果令人震撼。

Phi-4 不仅可以在配置较强的笔记本上运行，还能解决许多大型非推理模型无法解答的谜题——甚至通过了 DimitrisEval 测试。

🤯推理能力竟可迁移！

Reasoning seems to be a real, transferable, meta-skill, learnable even via SFT alone!!

令人惊讶的是，Phi-4 的推理能力似乎是一种可以迁移的元技能，甚至只通过监督微调（SFT）就能习得！

例证一：

即使没有显式训练非推理任务，Phi-4 在 IFEval、FlenQA 和内部的 PhiBench 上也实现了超过10分的提升。

此外，SFT 阶段的代码数据比例非常低（RL 阶段甚至完全没有代码数据），但模型在 LCB 和 Codeforces 上仍能达到与 o1-mini 相当的水平。值得期待的是，未来版本将重点优化编程能力。

例证二：

即便在 SFT 和 RL 阶段完全未训练的问题类型，如旅行商问题、迷宫求解、k-SAT 和受约束规划等，Phi-4 也展现出惊人的能力，远胜 GPT-4 与旧版 Phi 模型。

6k 条 RL 样本 = 性能飞跃

Phi-4 仅用 6k 个示例（vs 140 万 SFT 示例）进行了简短的 RL 训练，结果令人震撼：

AIME/HMMT 准确率提升约 10%

在更难问题上的回答长度平均增长 50%

推理机制“锁定”后，回答分布更加集中，准确率更高

这也呼应了微软研究团队在《Self-Improvement in Language Models: The Sharpening Mechanism》中的发现：RL 可以精细化模型能力！

https://arxiv.org/abs/2412.01951

“超越老师”的自我进化

Phi-4 多次在“pass@1”指标下超越了它的老师模型 o3-mini。

例如在 OmniMath 和 Calendar Planning 中。

这种“优于教师”的现象，可能得益于良好的 prompt 设计与 RL 训练策略，使模型在学习的过程中产生“自我改进”。

其他

回答越长 ≠ 越准：前 25% 长度的回答更容易出错，但整体而言，平均回答越长，准确率越高。

模型卡壳时会“唠叨”：测试时观察到模型在难题上会生成大量冗长内容（感谢 @AlexGDimakis 的观察）。

当前限制

尚未拓展/测试 32k token 以上输入能力

简单问题上容易“过度思考”

多轮对话能力尚未深入测试

模型信息与试玩地址

Phi-4 推理模型基于 MIT 许可，体积小、性能强，适合在普通 GPU 上进行微调或 RL，是生成高质量推理样本的绝佳工具。

https://huggingface.co/microsoft/Phi-4-reasoning

https://huggingface.co/microsoft/Phi-4-reasoning-plus

发表于: 2025-05-022025-05-02 20:21:14
原文链接：https://page.om.qq.com/page/OrM7l2rEFwNE-p93NCf7PnpA0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

继Qwen3、DeepSeek之后微软重磅开源Phi4推理大模型：新一轮百模大战开始了

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐