8亿+
每日处理分钟数超8亿
90%+
国内头部视频平台接入率超90%
20年+
超20年技术与数据积累
No.1
IDC 报告连续多年份额第一;获 NAB Show 年度产品奖

AI 编解码 WAND-Codec+

WAND-Codec+ 是把 AI 长进编码器内核的核心引擎——

传统转码依赖固定的规则引擎,无法感知现实业务的复杂场景。WAND-Codec+ 引入 VLM 大模型驱动底层编码决策,让大模型真正“看懂”每一帧画面的语义内容,并在编码内核引入去噪、修复的 AI 预处理能力,结合语义进行修复、码率分配和视频压缩。除此之外, WAND-Codec+ 还针对 AV1、H.266 等复杂编码引入 AI 划分决策加速,大幅提升编码速度。WAND-Codec+ 相对开源编码器可节省 50%+ 的码率,提升处理速度 2 倍+,覆盖 10+ 种主流协议,头部平台的接入率达 90%。

AI 画质增强 WAND-Enhance+

WAND-Enhance+ 是基于 DiT 大模型的实时画质增强模型——

传统增强方案基于 CNN 网络,只能做有限的锐化和降噪,细节生成能力弱,处理复杂场景容易出现伪影。WAND-Enhance+ 用 DiT(Diffusion Transformer)架构做画质重建,利用全局上下文建模能力,生成更真实自然的纹理细节,画面清晰度和通透感实现跨代提升。同时,WAND-Enhance+引入了 MoE 架构,针对不同的场景进行优化,并针对电商、游戏、秀场、AI 短剧等业务进行深入 Co-Design 优化基模能力。能力覆盖 4K 超分、智能插帧(最高 120 FPS)、去压缩伪影、SDR2HDR、人脸增强等,为业务带来显著 QoE 提升收益。

AI 无痕擦除 WAND-EraseVibe+

WAND-EraseVibe+ 是基于隐空间 Transformer 的生成式无痕擦除模型——

传统擦除方案基于图像修复(inpaint)算法,本质是用周围像素做插值填充,处理后画面模糊、边缘不自然,视频场景下还会逐帧闪烁。WAND-EraseVibe+ 采用"编码器-Transformer-解码器"的端到端架构,先将画面压缩到隐空间提取深层语义特征,Transformer 在特征层精准剥离字幕/水印信号并推断被遮挡区域的内容分布,再由解码器重建回像素空间。配合大规模构建的“原画-字幕”成对数据训练,实现零伪影的高保真画面还原,帧间高度一致、连续播放无闪烁。支持多目标同时擦除,日处理量超 10 万分钟,头部短剧客户 80% 以上在用。

AI 垂直场景内容生成 WAND-Create

WAND-Create 是面向垂直行业场景训练的内容生成模型——

通用生成模型追求创意多样性,但在电商、短漫剧等实际业务工作流中结果不可控、可用率低。WAND-Create 针对每个场景做专项训练,把品类适配、角色一致性、画风连贯等业务关键能力内化到模型里,做到成功率高、风格可控、端到端直接出结果。模型能力涵盖图片生成(换装、商品套图、抠图等)和视频生成(视频复刻、文生漫剧、AI 转绘等)两大方向。

更多 WAND 媒体专用模型

AI 理解 WAND-Sense

WAND-Sense 是面向音视频内容的感知与理解模型,具备视觉理解、语音识别、文字识别等能力,能对视频内容进行深度理解。在赛事场景中,可用于追踪球、球员、比分牌等关键要素,驱动赛事报告生成和智能横转竖处理;在内容制作中驱动精彩集锦、拆条、多语种字幕生成等能力。

AI 音频 WAND-Sonic

WAND-Sonic 是面向全场景的音频 AI 模型, 提供语音合成、音色克隆、人声分离、音频降噪等原子模型能力,覆盖音频生成、分离、增强、修复等完整能力。面向业务场景提供一站式方案,如 AIGC 音色修复(自动完成角色识别、人声分离、克隆音色与音轨替换,解决分片生成中的音色一致性问题)、多语种配音译制、AI 直播流实时解说等。

WAND 全景架构

WAND 由三层构成——

底层是模型引擎层,包含六大自研媒体专用模型(WAND-Codec+、Enhance+、EraseVibe+、Create、Sense、Sonic)以及 AIGC 创作中心,为上层应用提供 AI 底座。
中间是产品能力层,六大模型驱动 60+ 项 AI 应用能力,按生成、理解、处理、编码四大环节组织,通过 媒体处理 MPS、云点播 VOD、云直播 CSS、云桌面 Agent、云手机 Agent 等腾讯云音视频全系产品对外开放,支持 API、Workflow、Skills 三种接入方式。
上层是场景方案层,面向电商、短漫剧、赛事直播、短视频、内容出海、在线教育等行业提供定制化解决方案。

三层联动,构成行业覆盖最全、链路最完整的一站式媒体 AI 能力平台。

WAND 热门 AI 应用

  • AI 横转竖
  • AI 实时解说
  • AI 配音译制
  • AI 精彩集锦
  • 智能字幕
  • 大模型视频摘要

AI 横转竖 — 不是简单的画面裁切,而是 WAND 多模型协同完成的智能适配。WAND-Sense 识别画面中的感兴趣区域(ROI),智能追踪球、球员等运动主体,确保裁切始终跟随关键内容;同时检测比分牌、信息牌等固定元素,再由 WAND-EraseVibe+ 将其从原画面无痕提取,重新放置到竖屏画面的合适位置,避免关键信息丢失。支持批量将横屏视频资源转换为适合移动端播放的竖屏短视频。

技术优势

多模型协同:WAND-Sense 负责 ROI 识别与目标追踪,WAND-EraseVibe+ 负责信息牌无痕提取与重放;
支持多人物场景:针对双人访谈类视频,支持自动分割并在竖屏中分别显示;
支持直播流:支持直播过程中实时处理;
高可定制性:支持针对具体业务场景对模型参数进行定制化调优;

WAND 热门行业方案

  • 体育赛事直播
  • 短漫剧 AIGC 制作
  • 电商图片处理
  • 视频转译出海
  • 在线教育

基于 WAND 多模型协同,为体育赛事提供从内容理解、生产到分发的 AI 辅助制播方案,大幅减少后期人工

AI 实时解说:WAND-Sense 理解赛事画面生成解说文本,WAND-Sonic 实时合成解说语音,支持多语种
AI 高光集锦:自动识别进球、扑救等精彩时刻,剪辑生成集锦短视频
智能横转竖:WAND-Sense 追踪球和球员智能裁切,WAND-EraseVibe+ 无痕提取比分牌重新放置到竖屏画面,关键信息不丢失
多语种字幕:实时语音转文字 + 多语言翻译
直播画质增强:WAND-Enhance+ 实时提升直播流画质
实时转码分发:WAND-Codec+ 高清低码率压缩,节省带宽成本,同时嵌入不可见数字水印,版权溯源保护

方案价值: 六大模型各司其职,一场比赛进来,AI 辅助完成从理解到生产到分发的全流程。头部体育平台已规模化使用。

WAND 底层 AI 能力,已融入媒体处理 MPS、云点播 VOD等产品。前往对应控制台,即可调用画质增强、无痕擦除、内容生成等全部能力。