首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

不止于看懂,AI如何重塑视频解读?

自从Sora引爆视频生成领域之后,视频等多模态领域的研究和应用已经取得了显著的进展,并且俨然成为AI大模型的未来发展趋势。

AI视频的生成,在另一方面也要求AI能够读懂视频中的内容,才能够有效地针对不同内容生成结果。因此,AI视频理解成为另一个至关重要的领域,如同一位聪明的大脑,解析着视觉世界的奥秘。

本文主要介绍两个比较重要的视频理解模型,分别为GPT4Video和MiniGPT4-Video。

GPT4Video

第一个模型叫GPT4Video模型,是腾讯AI LAB基于大模型训练出来的,有两个主要优势:

1)它在视频理解和生成场景方面都展现出令人印象深刻的能力。例如,GPT4Video在视频问答任务上比Valley高出11.8%,在文本到视频生成任务上比NExt-GPT高出2.3%。

2)赋予LLM/MLLM视频生成能力,无需额外训练参数,可灵活对接多种模型进行视频生成。

1

效果展示

上传一个钢铁侠的视频,然后让它描述视频里面的内容:

AI:视频中,钢铁侠穿着带有机械臂的套装,走过未来工业环境。机械臂由他控制,赋予他增强的能力和独特的外观。环境似乎是工厂和实验室的结合体,展示了套装的先进技术和设计。

去旅游的时候,想要一些旅游计划,可以直接让它生成对应的视频:

新奥尔良真是个好地方!您绝对应该去法国区看看。这是一个充满活力、历史悠久且富有特色的街区。这是我在那里拍摄的视频:

2

技术细节

模型主要有三个不同的模块构成:

视频编码阶段:视频编码模块使用冻结的ViT-L/14模型来捕捉原始视频特征

大模型LLM推理:GPT4Video的核心由一个冻结的LLaMA模型提供动力,并通过LoRA进行有效的微调。LLM使用自定义的以视频为中心和安全对齐的数据进行训练,使其能够理解视频并生成适当的视频提示

视频生成:LLM生成的提示随后被用作文本输入到模型Text-to-Video Model Gallery中,同时不需要微调就可直接生成。

MiniGPT4-Video模型

第二个模型则能够实现自己上手部署,免费白嫖。同时它在AI视频理解上达到了最新的效果。

1

本地部署

在github仓库上,minigpt4-video有详细的部署步骤:

https://github.com/Vision-CAIR/MiniGPT4-video

1. 克隆仓库代码

git clone https://github.com/Vision-CAIR/MiniGPT4-video.git cd MiniGPT4-video

2. 安装和激活环境

conda env create -f environment.yml

3. 下载模型

4. 运行代码

```plaintext# Llama2python minigpt4_video_demo.py --ckpt path_to_video_checkpoint --cfg-path test_configs/llama2_test_config.yaml# Mistralpython minigpt4_video_demo.py --ckpt path_to_video_checkpoint --cfg-path test_configs/mistral_test_config.yaml```

2

效果展示

官方已经部署了对应的代码demo,大家有兴趣的可以尝试一下:

https://942892a798bdcbe35c.gradio.live/

从官方演示来看,可以直接输入youtube的任意一个视频,然后让它描述一下视频,它能够基于视频描述出画面内容:

这里上传了之前sora生成的视频让它解析:

视频显示,一名身穿红黑相间衣服、戴着帽子的男子独自走在沙漠中央。他似乎在寻找某物或某人,但没有明确的迹象表明他在寻找什么。

还可以上传一个宝格丽的视频,让AI帮我们配上一个标题或者宣传语,看起来确实有那么一点唬人的味道。

体验世界的奇迹,一次一个奇迹。

甚至于,连视频中用到的一些技术也能够识别出来:

基于视频内容,它似乎是图形和特殊效果的集合

在广告创意介绍上,对比于VideoChatGPT,MiniGPT4-Video生成的广告语更加精细,且内容生动得多:

标题:阳光照在你的脸上

场景:一个美丽的海滩,有一个人皮肤较浅。一瓶molstunier出现了,这个人把它涂在皮肤上的皮肤上,感觉凉爽清爽,突出了产品的名称和关键成分........

3

技术细节

模型的一些方法总结:

MiniGPT4-Video建立在MiniGPT-v2的基础上,后者在将视觉特征翻译到LLM空间中表现出色,用于单一图像,并在各种图像-文本基准测试中取得了较好的结果。

该模型将每四个相邻的视觉令牌合并为一个令牌,以减少信息损失,并且还结合了字幕,从而提高了模型对视频内容的理解能力。

训练方式:

利用大规模图像-文本对预训练和视频-文本对预训练,这些都是用来使模型适应视频内容的。

该模型在预训练阶段使用了线性层将视觉特征映射到LLM的文本空间,使用了EVA-CLIP视觉编码器和LoRA技术进行细致调整。

具体包含三个步骤进行训练:

图文对齐的预训练:第一个步骤利用EVA-Clip模型进行预训练,让模型理解图片和其对应的描述

视频文本对齐的预训练:由于视频是多个图片帧拼接,那么可以构造成一帧一帧的图片加上文字输入到后续的模型层中。

视频问答的微调:利用一些高质量的问答数据集在大模型(LLM)上进行微调

MiniGPT4-Video在多个视频基准测试中表现优异,包括MSVD、MSRVTT、TGIF和TVQA,在这些基准测试中取得了显著的性能提升。

总的来说,这个模型已经展示出能够初步捕捉视频内容的潜力,但是要想达到ChatGPT那种令人惊艳的水平,还需要跨越一段不小的距离。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OD2v2C_ZghvYDNFRln3SkTWQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券