首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

支持100万token「大世界模型」火了,一次能分析1小时视频内容

这项研究为语言模型更好地理解物理世界铺平了道路。

最近,谷歌发布的Gemini 1.5多模态模型和OpenAI的视频生成技术Sora引发了科技界的广泛讨论。Gemini 1.5以其处理百万级别上下文的能力受到赞誉,而Sora模型因能够理解物理运动中的世界而被誉为“世界模型”。尽管它们的技术成就令人瞩目,但仍有局限性,例如Sora模型在复现一些复杂场景,比如逆向跑步机上跑步的人时,就显得有些力不足。

随着大模型技术的迅猛发展,我们也逐渐意识到了它们的局限性。例如,对于那些难以用语言描述的现实世界内容,模型的理解能力还远远不够。此外,处理复杂长程任务对它们来说也是一个挑战。好在视频模型的出现为这些问题提供了一线希望,通过补充语言和静态图像所缺失的时间维度信息,极大地丰富了大型语言模型(LLM)的理解能力。尽管如此,面对数百万个视频和语言序列token的学习,模型仍面临内存限制、计算复杂性和数据集有限等挑战。UC伯克利的研究者们不甘后人,整合了一个庞大的视频和书籍数据集,并提出了Large World Model(LWM),借助RingAttention技术,这一模型能够对长序列进行扩展性训练,将上下文大小从4K token增加至1M token,为模型的进步开辟了新的道路。

论文地址:https://arxiv.org/pdf/2402.08268.pdf

项目主页:https://github.com/LargeWorldModel/LWM?tab=readme-ov-file

论文标题:WORLD MODEL ON MILLION-LENGTH VIDEO AND LANGUAGE WITH RINGATTENTION

项目 5 天揽获 3.2K 星标。

本文的贡献可总结为如下几个方面:

(a)该研究在长视频和语言序列上训练了一个拥有极大上下文尺寸的 transformers 模型,从而设立了新的检索任务和长视频理解方面的标杆。

(b) 为了克服视觉 - 语言训练带来的挑战,该研究采取了以下措施,包括使用掩码序列以混合不同长度的序列、损失加权以平衡语言和视觉、以及使用模型生成的问答数据来处理长序列对话。

(c) 通过 RingAttention、掩码序列打包等方法,可以训练数百万长度的多模态序列。

(d) 完全开源 7B 参数系列模型,其能够处理超过 100 万 token 的长文本文档(LWM-Text、LWM-Text-Chat)和视频(LWM、LWM-Chat)。

LWM 可以基于文本提示自动生成图像,例如黑色的小狗:

LWM 还可以基于文本提示生成视频,例如在夜空中绽放的烟花在天空中绽放:

接下来,LWM 还能深入理解图片、回答关于图片的问题,例如 LWM 能对经典艺术作品的二次创作进行解读:

值得一提的是,LWM模型在处理长时视频内容方面展示了其独特的优势,能够精准回答长达1小时的YouTube视频内容。例如,在一个测试案例中,当用户提出“那个穿着霸王龙服装的人骑的是什么车?”这样的问题时,尽管GPT-4V无法提供正确答案,Gemini Pro Vision则给出了错误的回答。令人印象深刻的是,只有LWM成功给出了“那个穿着霸王龙服装的人骑的是摩托车”这一准确答案,这充分证明了LWM在理解长视频内容方面的卓越能力。

更多的测试案例结果揭示了一个有趣的现象:尽管GPT-4V和Gemini Pro代表了当前商业模型的技术前沿,但它们在回答视频相关问题时仍然遇到了困难,显示出在视频内容理解方面的局限性。相比之下,LWM的表现却格外出色,能够应对长达1小时的YouTube视频提问,这些结果不仅凸显了LWM在处理视频内容方面的卓越能力,也突出了其在当前AI领域的独特地位。

本研究由四位杰出的作者共同完成,其中包括深度强化学习领域的权威人物、UC伯克利教授Pieter Abbeel。Abbeel教授不仅在学术界有着卓越的贡献,在业余时间,他还致力于普及AI教育,其在edX平台开设的“Intro to AI”课程吸引了超过10万名学生参与学习。他的教材,特别是关于深度强化学习和深度无监督学习的课程,如CS294-158(深度无监督学习)、CS188(人工智能导论)、CS287(高级机器人学),已成为AI研究者学习的经典资料,体现了他在AI领域的深厚影响力和广泛的学术贡献。

方法介绍

在这项研究中,研究团队在Llama2 7B模型的基础上进一步开发,成功训练了一个具有长达100万个token的超大上下文窗口的大型自回归Transformer模型。为了达到这个目标,团队采纳了多项策略:首先,通过使用书籍资料大幅扩展模型的上下文至100万个token;随后,进行了文本-图像、文本-视频数据以及书籍资料的长多模态序列联合训练。这种方法不仅增强了模型处理大规模数据的能力,也为深入理解多模态内容提供了新的可能性。

为克服长文档训练中由于计算注意力权重的二次复杂度引起的内存限制问题,研究团队采纳了RingAttention技术。这种技术通过块式并行计算,理论上可使上下文窗口长度无限扩展,仅受到所使用设备数量的约束。进一步地,研究团队通过整合Pallas,结合了RingAttention与FlashAttention,以此来优化模型的性能,使其在处理大量数据时更为高效和精确。

如下表 1 所示,为了扩展上下文窗口的长度,该研究采用渐进式训练的方法。直观地讲,这使得模型可以通过首先学习较短范围的依赖关系,然后再转移到较长的序列上来节省计算量。

LWM模型的核心结构在图4中得到了详细的展示,展现了一个能处理数百万token序列的自回归transformer架构。在视频处理方面,模型将每一帧通过VQGAN技术转换为256个token,随后这些图像token将与文本token结合,并一同送入transformer模型中。在自回归的方式下,模型预测序列中的下一个token。该架构的输入和输出顺序巧妙地体现了多种训练数据格式的融合,包括图像-文本、文本-图像、视频、文本-视频以及纯文本等格式,显示了LWM模型在处理复杂多模态数据时的灵活性和强大能力。

实验结果

该研究将 LWM 与谷歌的 Gemini Pro 和 OpenAI 的 GPT-4 进行了实验比较,实验结果表明 LWM 模型在检索方面能够媲美 GPT-4,如下表 3 所示。

该研究还在 MT-Bench 上评估了模型的对话能力。表 5 显示了模型获得的 MT-Bench 分数。表 6 说明了模型的对话能力与事实检索能力的关系。

在准确性方面,LWM 在上下文窗口为 1M 时优于 GPT-4V 和 Gemini Pro。

总之,LWM模型的开发标志着在长序列多模态数据处理领域的一个重大突破。该模型利用先进的自回归Transformer架构和RingAttention以及Pallas的结合,成功地扩展了处理能力至数百万token,为视频、图像与文本等复杂数据的深入理解和生成提供了新的可能性。LWM模型的推出不仅为AI领域带来了新的技术视角,也预示着未来在自然语言处理、计算机视觉和机器学习等多个领域的融合与进步。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/ONvRRHE581KbNKL1hGKnrAHg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券