首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

豆包大模型VideoWorld开源:视频生成新突破,无需语言模型认知世界

近日,豆包大模型团队携手北京交通大学与中国科学技术大学,共同研发的视频生成实验模型“VideoWorld”正式宣布开源。这一创新成果在业界树立了新的里程碑,它首次实现了无需语言模型辅助,即可实现对世界的认知。

传统的多模态模型,如Sora、DALL-E和Midjourney等,大多依赖于语言或标签数据来获取知识。然而,语言作为一种表达工具,其局限性在于无法全面捕捉真实世界中的所有复杂信息。例如,折纸艺术或打领结等细致入微的技巧,往往难以通过语言进行精确描述。而VideoWorld则打破了这一限制,它摒弃了语言模型,通过纯视觉信号进行统一的理解、执行和推理。

VideoWorld的核心优势在于其独特的潜在动态模型。这一模型能够高效地压缩视频帧间的变化信息,从而显著提升知识学习的效率和效果。这一突破性的技术使得VideoWorld在无需依赖强化学习搜索或奖励函数机制的情况下,依然能够达到专业级的围棋水平——在5段9x9围棋比赛中表现出色。它还能在多种复杂环境中执行机器人任务,展现出强大的应用潜力。

这一成果的发布,标志着视频生成技术迈向了一个新的发展阶段。VideoWorld不仅为学术界提供了新的研究方向和思路,同时也为工业界带来了广阔的应用前景。随着技术的不断成熟和完善,相信VideoWorld将在更多领域发挥重要作用,推动人工智能技术的进一步发展。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OVLnGfBgSoepLazdasrl_8JQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券