
过去一年,只要谈到"原生多模态",大家的第一反应几乎是 Gemini。
一个模型同时吞掉文本、图像、音频、视频,再自然地说出一段有情绪的回答——这听上去像理所当然的未来,但真正做出来的团队屈指可数。
2026 年 4 月,阿里 Qwen 团队把 Qwen3.5-Omni 的技术报告挂上了 arXiv。它的野心很直接:在 215 项音频与音视频任务上拿下 SOTA,在关键音频任务上超越 Gemini-3.1 Pro,在综合音视频理解上与之打平。
这是开源阵营第一次,在"全模态"这个最难的赛道上,把牌桌掀到同一张桌上。

在此之前,大部分号称"多模态"的模型,其实是多个专用模块的拼接:
问题是,这种架构只能堆叠能力,很难让模型真正"听懂声音里的情绪"、"看见画面中的节奏"。尤其在流式语音合成、长时长音视频理解、跨模态涌现这三件事上,拼接式方案会暴露出结构性的短板。
Qwen3.5-Omni 想解决的,正是这件事。

这些数字单独看都不算轰动,但把它们摆在一起——尤其是"1 亿小时训练数据 + 256k 上下文 + 10 小时音频"——你就知道这是一个认真为长时多模态场景重新设计的模型,而不是把已有模型再套一层皮。
Omni 系列一直沿用 Thinker + Talker 的双组件思路:

这次的关键升级,是给这两个组件同时换上了 Hybrid Attention MoE(混合注意力专家混合) 框架。

通俗地讲,它在长序列推理中做了两件事:
这也是 Qwen3.5-Omni 敢开 256k 上下文、敢吞 10 小时音频 的底座——没有这层架构重写,长序列的显存与计算都会崩掉。
如果说架构是骨架,那么 ARIA 就是让这具骨架开口说话时最关键的那块肌肉。
流式语音合成长期有两个顽疾:

ARIA 的做法是在文本 token 与语音 token 之间做动态对齐,让 Talker 在生成每一段语音单元时,都能精确锚定到对应的语义片段。结果是:

对公众号读者更有画面感的一句话是:以前的 AI 语音助手像念稿,Qwen3.5-Omni 的 Talker 像在和你聊天。
多模态模型拼到最后,比的是"它能消化多少原始信号"。

对用户而言,这意味着无需切片、无需人工摘要,模型直接读完再回答。

Qwen3.5-Omni 支持 10 种语言的双向多模态处理——既能听懂,也能说。
更关键的是,它被训练为"带情感表达"的语音生成,而不是单纯的 TTS。从技术报告的描述看,情感承载的能力来自 Talker + ARIA 的联合训练,而不是事后调音。
这对跨境播客、多语种语音客服、本地化内容分发等场景,是一次可用性层面的跃迁。
这是整篇报告里最"未来感"的一段——团队明确把它列为涌现能力。

所谓 Audio-Visual Vibe Coding(音视频氛围编程),指的是:
你给模型一段视频或音频,它能直接生成对应的代码。
注意,这不是"根据字幕生成代码",而是直接从画面节奏、声音情绪中推导出编程意图。
配合报告里提到的脚本级结构化字幕 + 自动场景分割 + 精确时间戳同步,一条全新的工作流已经浮出水面:视频 → 结构化语义 → 可执行代码 / 动效。
这可能比任何基准分数都更值得关注。

215 这个数字听起来有点虚,但拆开看就能明白它的分量:
换句话说,开源模型第一次在全模态赛道上,和闭源最强阵营踩到了同一条水平线。

结合上述能力,几个最直接的落地方向:
再强的模型也不是万能药。从报告本身与公开信息可以推导出几个需要保留的疑问:

这不是否定,而是给读者一个"保持理性"的锚点。
Qwen3.5-Omni 的价值,不在于又刷新了一次榜单,而在于它用一份扎实的技术报告,把下面这四件事一次性做到了接近闭源最强水平:
对开源社区而言,这可能是"全模态路线"的一次关键拐点;对产品团队而言,这也许就是你重新审视自己技术栈的时间点。
至少从这一篇报告看,"看、听、说"不再是三个模型的事。