自从Sora引爆视频生成领域之后,视频等多模态领域的研究和应用已经取得了显著的进展,并且俨然成为AI大模型的未来发展趋势。
AI视频的生成,在另一方面也要求AI能够读懂视频中的内容,才能够有效地针对不同内容生成结果。因此,AI视频理解成为另一个至关重要的领域,如同一位聪明的大脑,解析着视觉世界的奥秘。
本文主要介绍两个比较重要的视频理解模型,分别为GPT4Video和MiniGPT4-Video。
GPT4Video
第一个模型叫GPT4Video模型,是腾讯AI LAB基于大模型训练出来的,有两个主要优势:
1)它在视频理解和生成场景方面都展现出令人印象深刻的能力。例如,GPT4Video在视频问答任务上比Valley高出11.8%,在文本到视频生成任务上比NExt-GPT高出2.3%。
2)赋予LLM/MLLM视频生成能力,无需额外训练参数,可灵活对接多种模型进行视频生成。
1
效果展示
上传一个钢铁侠的视频,然后让它描述视频里面的内容:
AI:视频中,钢铁侠穿着带有机械臂的套装,走过未来工业环境。机械臂由他控制,赋予他增强的能力和独特的外观。环境似乎是工厂和实验室的结合体,展示了套装的先进技术和设计。
去旅游的时候,想要一些旅游计划,可以直接让它生成对应的视频:
新奥尔良真是个好地方!您绝对应该去法国区看看。这是一个充满活力、历史悠久且富有特色的街区。这是我在那里拍摄的视频:
2
技术细节
模型主要有三个不同的模块构成:
视频编码阶段:视频编码模块使用冻结的ViT-L/14模型来捕捉原始视频特征
大模型LLM推理:GPT4Video的核心由一个冻结的LLaMA模型提供动力,并通过LoRA进行有效的微调。LLM使用自定义的以视频为中心和安全对齐的数据进行训练,使其能够理解视频并生成适当的视频提示
视频生成:LLM生成的提示随后被用作文本输入到模型Text-to-Video Model Gallery中,同时不需要微调就可直接生成。
MiniGPT4-Video模型
第二个模型则能够实现自己上手部署,免费白嫖。同时它在AI视频理解上达到了最新的效果。
1
本地部署
在github仓库上,minigpt4-video有详细的部署步骤:
https://github.com/Vision-CAIR/MiniGPT4-video
1. 克隆仓库代码
git clone https://github.com/Vision-CAIR/MiniGPT4-video.git cd MiniGPT4-video
2. 安装和激活环境
conda env create -f environment.yml
3. 下载模型
4. 运行代码
```plaintext# Llama2python minigpt4_video_demo.py --ckpt path_to_video_checkpoint --cfg-path test_configs/llama2_test_config.yaml# Mistralpython minigpt4_video_demo.py --ckpt path_to_video_checkpoint --cfg-path test_configs/mistral_test_config.yaml```
2
效果展示
官方已经部署了对应的代码demo,大家有兴趣的可以尝试一下:
https://942892a798bdcbe35c.gradio.live/
从官方演示来看,可以直接输入youtube的任意一个视频,然后让它描述一下视频,它能够基于视频描述出画面内容:
这里上传了之前sora生成的视频让它解析:
视频显示,一名身穿红黑相间衣服、戴着帽子的男子独自走在沙漠中央。他似乎在寻找某物或某人,但没有明确的迹象表明他在寻找什么。
还可以上传一个宝格丽的视频,让AI帮我们配上一个标题或者宣传语,看起来确实有那么一点唬人的味道。
体验世界的奇迹,一次一个奇迹。
甚至于,连视频中用到的一些技术也能够识别出来:
基于视频内容,它似乎是图形和特殊效果的集合
在广告创意介绍上,对比于VideoChatGPT,MiniGPT4-Video生成的广告语更加精细,且内容生动得多:
标题:阳光照在你的脸上
场景:一个美丽的海滩,有一个人皮肤较浅。一瓶molstunier出现了,这个人把它涂在皮肤上的皮肤上,感觉凉爽清爽,突出了产品的名称和关键成分........
3
技术细节
模型的一些方法总结:
MiniGPT4-Video建立在MiniGPT-v2的基础上,后者在将视觉特征翻译到LLM空间中表现出色,用于单一图像,并在各种图像-文本基准测试中取得了较好的结果。
该模型将每四个相邻的视觉令牌合并为一个令牌,以减少信息损失,并且还结合了字幕,从而提高了模型对视频内容的理解能力。
训练方式:
利用大规模图像-文本对预训练和视频-文本对预训练,这些都是用来使模型适应视频内容的。
该模型在预训练阶段使用了线性层将视觉特征映射到LLM的文本空间,使用了EVA-CLIP视觉编码器和LoRA技术进行细致调整。
具体包含三个步骤进行训练:
图文对齐的预训练:第一个步骤利用EVA-Clip模型进行预训练,让模型理解图片和其对应的描述
视频文本对齐的预训练:由于视频是多个图片帧拼接,那么可以构造成一帧一帧的图片加上文字输入到后续的模型层中。
视频问答的微调:利用一些高质量的问答数据集在大模型(LLM)上进行微调
MiniGPT4-Video在多个视频基准测试中表现优异,包括MSVD、MSRVTT、TGIF和TVQA,在这些基准测试中取得了显著的性能提升。
总的来说,这个模型已经展示出能够初步捕捉视频内容的潜力,但是要想达到ChatGPT那种令人惊艳的水平,还需要跨越一段不小的距离。
领取专属 10元无门槛券
私享最新 技术干货