Qwen3家族又新增了6个模型,并且在昨晚就已经提前预告了~一直就很期待Qwen3这个系列能不能再刷新一下开源模型的天花板。毕竟现在Qwen已经算是开源大模型的领头羊了
那么,这6个新模型主要的是针对不同的功能,这里我做了具体的总结:
这里面最让人惊艳的,要属于开源模型Qwen3-VL。那么这个模型效果怎么样,实际体验如何呢?我这里做了具体的一些测试
这一次的升级,Qwen3-VL实现了在多个维度的全面升级:
在纯文本的理解与生成、视觉内容的感知与推理等多个维度,以及在上下文长度支持能力、对空间关系和动态视频的理解深度等关键指标方面,乃至在与智能体(Agent)交互过程中的综合表现上,Qwen3 - VL均呈现出显著的提升与进步。
从Qwen3-VL模型架构来看,它提供了Dense和MOE两种Decoder架构。具体来说,新的多模态模型主要有三个方面的创新
在开源网站Huggingface中,Qwen3-VL提供了两种版本,一个是Instruct版本,另一个是推理增强版本Thinking版本。目前整体参数量级在235B之后,应该之后会再开源一些蒸馏小版本提供给更多用户进行部署。
模型性能方面确实很强,在多个基准测试集上都达到了SOTA的水平。
比如在多模态基准测试集上,Qwen3-VL-235B-A22B-Instruct ,显著超越了 Gemini 2.5 Pro 和 GPT-5 等闭源模型,同时刷新了开源多模态模型的最佳成绩,展现了其在复杂视觉任务中的强大泛化能力与综合性能。
Qwen3-VL特别在两个领域有明显的提升效果,一个是视频理解领先。比如在MLVU达84.3分,在所有模型里表现顶尖。另一个是多模态通用 VQA 表现稳定,RealWorldQA、MMStar、MMBench_EN 均保持 78–90 左右的分数,整体水平接近甚至略优于 Gemini2.5-Pro。
而在推理方面,Qwen3-VL-235B-A22B-Thinking 同样在多数指标上创下开源多模态模型的新高,与 Gemini 2.5 Pro 和 GPT-5 等闭源顶尖模型相比各有胜负。尤其在 Mathvision 这类复杂的多模态数学题目上,其表现甚至优于 Gemini 2.5 Pro。虽然在多学科问题、视觉推理和视频理解方面与闭源 SOTA 模型仍存在一定差距,但在 Agent 能力、文档理解、2D/3D Grounding等任务上展现出明显优势。
此外,Qwen3-VL-235B-A22B-Instruct 模型具备图像推理功能支持能力。从实验数据表明,该模型在全部四项基准测试中均呈现显著且稳定的性能提升,这一结果有力证实了"图像分析协同工具调用"技术路径对于提升视觉感知能力的核心价值。
Q1:动漫人物识别
让Qwen3-VL模型针对一幅图的所有动漫人物进行识别
最后可以让它生成python脚本,把图片中的每个人物标注出来。看标准的信息大部分都正确~
Q2:预测未来动作
预测机器人的动作,需要首先理解桌面上有什么样的东西,同时要让模型具有一定的推理能力。
因此我给了一张图:桌上有一个可乐,让它预测接下来机器人的动作,可以发现它其实很容易就推理出来了。
Q3:OCR识别
OCR识别算是一个多模态模型的基准测试了,来让我测一下Qwen3-VL的效果。
对于图片上的文字提取比较准确
Q4:图片推理
最近恰好广东这边遇上了台风天气,那么是否可以用它进行预测呢?
从它的回答上看,模型认为:图中红色路径线最终指向广东省中西部沿海,具体位于阳江市至茂名市之间的区域(如阳西县、电白区附近)
这个结论也基本没有问题。
Q5:股价分析
再来看看Qwen3-VL对于股价分析是否有识别
从分析来看,给出了具体的买入卖出价格参考,还有短期的趋势:
整体来看,这一波阿里 Qwen3 家族的更新,不仅在模型层面扩展了多模态和安全方向,还在 API 产品化上进一步加快了落地节奏。
特别是Qwen3-VL的表现,已经能和闭源顶尖模型正面对标,甚至在部分任务上实现超越。对于国内开源生态来说,这无疑是一次“里程碑式”的突破。
从我的体验来说,这个多模态大模型在几个方面都不小不错:
未来如果能进一步推出更小的蒸馏版本,让企业和个人开发者都能低成本部署,那 Qwen3 系列的影响力会再上一个台阶。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。