豆包大模型VideoWorld开源：视频生成新突破，无需语言模型认知世界

文章来源：企鹅号 - ITBear科技资讯

近日，豆包大模型团队携手北京交通大学与中国科学技术大学，共同研发的视频生成实验模型“VideoWorld”正式宣布开源。这一创新成果在业界树立了新的里程碑，它首次实现了无需语言模型辅助，即可实现对世界的认知。

传统的多模态模型，如Sora、DALL-E和Midjourney等，大多依赖于语言或标签数据来获取知识。然而，语言作为一种表达工具，其局限性在于无法全面捕捉真实世界中的所有复杂信息。例如，折纸艺术或打领结等细致入微的技巧，往往难以通过语言进行精确描述。而VideoWorld则打破了这一限制，它摒弃了语言模型，通过纯视觉信号进行统一的理解、执行和推理。

VideoWorld的核心优势在于其独特的潜在动态模型。这一模型能够高效地压缩视频帧间的变化信息，从而显著提升知识学习的效率和效果。这一突破性的技术使得VideoWorld在无需依赖强化学习搜索或奖励函数机制的情况下，依然能够达到专业级的围棋水平——在5段9x9围棋比赛中表现出色。它还能在多种复杂环境中执行机器人任务，展现出强大的应用潜力。

这一成果的发布，标志着视频生成技术迈向了一个新的发展阶段。VideoWorld不仅为学术界提供了新的研究方向和思路，同时也为工业界带来了广阔的应用前景。随着技术的不断成熟和完善，相信VideoWorld将在更多领域发挥重要作用，推动人工智能技术的进一步发展。

发表于: 2025-02-102025-02-10 18:26:13
原文链接：https://page.om.qq.com/page/OVLnGfBgSoepLazdasrl_8JQ0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

豆包大模型VideoWorld开源：视频生成新突破，无需语言模型认知世界

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐