DeepSeek-R1 的发布引发了全网热议,持续霸榜热搜,各大社交媒体、技术论坛以及新闻平台纷纷讨论其突破性的技术创新和超强的推理能力。其卓越的逻辑推理和任务泛化能力,使其迅速成为开源社区的焦点,并在业内引起广泛关注。
然而,DeepSeek-R1 主要聚焦于思维链和推理任务,在多模态能力方面仍存在一定局限。目前,它无法进行多模态任务的识别,因为其本质上仍是一个文本大模型(LLM),核心优势集中在文本生成、逻辑推理和长上下文建模,而非跨模态融合。
如果用户希望体验 DeepSeek 级别的模型,同时拥有多模态能力,可以尝试阶跃最新发布的 Step-Video 和 Step-Audio。Step-Video 在视频生成和视频理解领域取得了突破,而 Step-Audio 则在语音识别与合成任务上展现了领先的技术实力。
Step-Video-T2V 是当前开源领域最强的视频生成模型之一,支持文本到视频(T2V)转换,并已上线官网免费使用。其主要特点包括:
论文中将视频生成模型划分为两类:
Step-Video-T2V 仍处于 Level-1,但在可控性、物理一致性和长时序建模能力上有所突破。
Step-Video-T2V 采用 高压缩 Video-VAE、双语文本编码器、3D 全注意力扩散 Transformer 和基于人类反馈的视频优化(Video-DPO) 组合策略,实现端到端的视频生成。
DPO 训练包括三个核心环节:数据收集、偏好优化和训练优化。在数据收集阶段,使用 Step-Video-T2V 生成多种文本提示对应的视频,并由人工标注,筛选出清晰、流畅、无伪影且符合文本描述的优选样本,同时标记质量较低的视频作为反例(non-preferred sample)。
Step-Video-T2V 在开源视频生成领域实现了重大进步,特别是在可控性、物理一致性和长时序建模方面。但目前仍处于 Level-1 阶段,未来的发展方向可能包括增强因果推理能力,迈向 Level-2 模型。
数据质量的高低和好坏,往往是一个模型成功的重要因素。如果像传统的方式那样,直接利用真人语音数据进行训练,难度较大。一方面难以获取大规模的数据集,另一方面也很难筛选出高质量的数据出来。
因此阶跃团队采用生成式语音数据引擎,无需依赖大量人工标注数据即可生成高质量语音。
从整体架构来看,Step-Audio 采用了 130B 规模的多模态大模型,并在 Tokenization 和数据增强方面做出了创新突破,使得模型在语音理解、情绪表达、自然对话等方面有较强的竞争力。如果在方言支持、低资源语言建模方面继续优化,或许能进一步提升实际体验。
随着 DeepSeek-R1 在文本推理方面的突破,Step-Video 和 Step-Audio 进一步扩展了多模态大模型的能力,使视频生成和语音交互进入了一个全新的阶段。Step-Video-T2V 在物理一致性和可控性方面的创新,使其成为当前最强的开源视频生成模型,而 Step-Audio 在多语言支持和情绪感知上取得了显著进展。未来,随着技术的不断发展,我们有望看到更加智能、可预测的 Level-2 级别模型,为多模态人工智能的发展打开更广阔的前景。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。