昨晚,整个 AI 圈(和我们)都在熬夜等 Qwen3 的理由只有一个:开源大模型能将智能和性价比推向新的高度吗?
年初,DeepSeek-R1 发布之后,全世界的推理模型如雨后春笋,但:智能本身没太大攀升。扎克伯格发布 Llama 4 「宣战」 DeepSeek ——却一不小心拉胯了,甚至被网友群嘲。
眼下,AI coding、MCP、Agent,都需要“主模型坐镇”。因此,当我们在等待 Qwen3 的时候我们在等待什么呢?——一个更强的、更便宜的、更平等地给予所有人”智能红利“的开源大模型。
昨晚,Qwen3 直接开源 8 个模型:2 款 MoE 模型,6 款 Dense 模型。参数量从 0.6B 到 235B 全覆盖尺寸。
旗舰版235B-A22B 总参数量 235B,激活参数仅 22B,部署成本仅为 DeepSeek-R1 的 35%,但在性能上却能跟一众顶流模型:DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 对打。
Qwen3-4B 模型甚至能跟 GPT-4o 开干,很多基准大幅度超越了 4o……
这回开源的 Qwen3 家族最大的看点有两个:混合思考模式、改进的语言支持、Agent 调用功能。
外网网友对此次 Qwen3 的开源几乎是一边倒的支持。
比如,有的网友盛赞 Qwen3 这回最大的目标就是让所有人都能享受到 AI 的力量,无论是买不起 GPU 的小型实验室,还是亟需嵌入开源模型的初创企业。
不过,也有 X 网友点出 Qwen3 有时候也会展现出过度的(耗掉了过多 tokens 的)推理思考能力,出现一定的幻觉。
不管怎么说:世界很大方地等待了 Qwen3 一夜,而 Qwen3 也给出了一个不错的回馈。未来可期。
领取专属 10元无门槛券
私享最新 技术干货