首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

世界模型:能理解1小时的视频、超长1百万上下文!伯克利出品

如果有一个 AI 模型,能够同时理解视频和语言,那么它会有多么强大?

如果有一个 AI 模型,能够处理超过一百万个字的上下文,甚至能够回答关于一个小时的视频的问题,那么它会有多么智能?

今天我要给大家介绍一个非常有趣的项目,它叫做 Large World Model (LWM),中文可以翻译为大世界模型。

它是一个能够理解和生成语言、图像和视频的多模态自回归模型,它可以在超长的视频和语言序列上进行学习和推理,展现出令人惊叹的能力。目前在github上已收到3.2k星

LLM是什么?

LWM 是一个由 UC Berkeley 的 Hao Liu、Wilson Yan、Matei Zaharia 和 Pieter Abbeel 等人开发的项目,它的目标是训练一个能够同时理解人类的文本知识和物理世界的AI模型,从而为人类提供更广泛的 AI 助手。

LWM是一个通用的大上下文多模态自回归模型,核心思想是利用视频序列作为一种丰富的信息源,结合语言文本,构建一个能够跨越多种媒体形式的统一表示,从而实现语言、图像和视频的理解和生成。

LLM效果展示!

官方给出一个例子,当输入视频,同时让GPT-4V、Gemini Pro Vision、Video-LlaVA和LWM来回答问题:“穿霸王龙衣服的人骑什么车?”。除了LWM回答摩托车,其他的都回答错误了。

LWM还可以理解图片,并且可以回答关于图片的问题。下图左边是提问:“如果你是一个摄影师,想要捕捉这个地点的精髓,你会选择一天中的什么时间和天气条件?描述你选择的原因。”然后下面是LWM的回答。

右侧是提问:“描述这个照片”,AI回答了人脸扭曲为狗脸,说明理解了图片原本的意思。

LLM有哪些特点?

最大的上下文:LWM 在超长的视频和语言序列上进行训练,达到了 100 万个 token 的上下文窗口,创造了新的记录,同时在困难的检索任务和长视频理解任务上取得了优异的表现。

能够理解视频:LWM 提出了一些有效的方法来克服视觉-语言训练的难点,包括使用掩码序列打包来混合不同长度的序列,使用损失加权来平衡语言和视觉的贡献,以及使用模型生成的 QA 数据集来进行长序列聊天。

高度优化的实现:LWM 使用了 RingAttention 技术来可扩展地训练长序列,使用了掩码序列打包和其他关键特性来训练百万级别的多模态序列。

完全开源的模型家族:LWM 开源了一系列的 70 亿参数的模型,能够处理超过 100 万个 token 的长文本文档(LWM-Text, LWM-Text-Chat)和视频(LWM, LWM-Chat)。

官方开源地址:

https://github.com/LargeWorldModel/LWM?tab=readme-ov-file

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O0LG8i0NVhZ-SN43T--EdN3Q0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券