不止于看懂，AI如何重塑视频解读？

文章来源：企鹅号 - 算法一只狗

自从Sora引爆视频生成领域之后，视频等多模态领域的研究和应用已经取得了显著的进展，并且俨然成为AI大模型的未来发展趋势。

AI视频的生成，在另一方面也要求AI能够读懂视频中的内容，才能够有效地针对不同内容生成结果。因此，AI视频理解成为另一个至关重要的领域，如同一位聪明的大脑，解析着视觉世界的奥秘。

本文主要介绍两个比较重要的视频理解模型，分别为GPT4Video和MiniGPT4-Video。

GPT4Video

第一个模型叫GPT4Video模型，是腾讯AI LAB基于大模型训练出来的，有两个主要优势：

1）它在视频理解和生成场景方面都展现出令人印象深刻的能力。例如，GPT4Video在视频问答任务上比Valley高出11.8%，在文本到视频生成任务上比NExt-GPT高出2.3%。

2）赋予LLM/MLLM视频生成能力，无需额外训练参数，可灵活对接多种模型进行视频生成。

效果展示

上传一个钢铁侠的视频，然后让它描述视频里面的内容：

AI：视频中，钢铁侠穿着带有机械臂的套装，走过未来工业环境。机械臂由他控制，赋予他增强的能力和独特的外观。环境似乎是工厂和实验室的结合体，展示了套装的先进技术和设计。

去旅游的时候，想要一些旅游计划，可以直接让它生成对应的视频：

新奥尔良真是个好地方！您绝对应该去法国区看看。这是一个充满活力、历史悠久且富有特色的街区。这是我在那里拍摄的视频：

技术细节

模型主要有三个不同的模块构成：

视频编码阶段：视频编码模块使用冻结的ViT-L/14模型来捕捉原始视频特征

大模型LLM推理：GPT4Video的核心由一个冻结的LLaMA模型提供动力，并通过LoRA进行有效的微调。LLM使用自定义的以视频为中心和安全对齐的数据进行训练，使其能够理解视频并生成适当的视频提示

视频生成：LLM生成的提示随后被用作文本输入到模型Text-to-Video Model Gallery中，同时不需要微调就可直接生成。

MiniGPT4-Video模型

第二个模型则能够实现自己上手部署，免费白嫖。同时它在AI视频理解上达到了最新的效果。

本地部署

在github仓库上，minigpt4-video有详细的部署步骤：

https://github.com/Vision-CAIR/MiniGPT4-video

1. 克隆仓库代码

git clone https://github.com/Vision-CAIR/MiniGPT4-video.git cd MiniGPT4-video

2. 安装和激活环境

conda env create -f environment.yml

3. 下载模型

4. 运行代码

```plaintext# Llama2python minigpt4_video_demo.py --ckpt path_to_video_checkpoint --cfg-path test_configs/llama2_test_config.yaml# Mistralpython minigpt4_video_demo.py --ckpt path_to_video_checkpoint --cfg-path test_configs/mistral_test_config.yaml```

效果展示

官方已经部署了对应的代码demo，大家有兴趣的可以尝试一下：

https://942892a798bdcbe35c.gradio.live/

从官方演示来看，可以直接输入youtube的任意一个视频，然后让它描述一下视频，它能够基于视频描述出画面内容：

这里上传了之前sora生成的视频让它解析：

视频显示，一名身穿红黑相间衣服、戴着帽子的男子独自走在沙漠中央。他似乎在寻找某物或某人，但没有明确的迹象表明他在寻找什么。

还可以上传一个宝格丽的视频，让AI帮我们配上一个标题或者宣传语，看起来确实有那么一点唬人的味道。

体验世界的奇迹，一次一个奇迹。

甚至于，连视频中用到的一些技术也能够识别出来：

基于视频内容，它似乎是图形和特殊效果的集合

在广告创意介绍上，对比于VideoChatGPT，MiniGPT4-Video生成的广告语更加精细，且内容生动得多：

标题：阳光照在你的脸上

场景：一个美丽的海滩，有一个人皮肤较浅。一瓶molstunier出现了，这个人把它涂在皮肤上的皮肤上，感觉凉爽清爽，突出了产品的名称和关键成分........

技术细节

模型的一些方法总结：

MiniGPT4-Video建立在MiniGPT-v2的基础上，后者在将视觉特征翻译到LLM空间中表现出色，用于单一图像，并在各种图像-文本基准测试中取得了较好的结果。

该模型将每四个相邻的视觉令牌合并为一个令牌，以减少信息损失，并且还结合了字幕，从而提高了模型对视频内容的理解能力。

训练方式：

利用大规模图像-文本对预训练和视频-文本对预训练，这些都是用来使模型适应视频内容的。

该模型在预训练阶段使用了线性层将视觉特征映射到LLM的文本空间，使用了EVA-CLIP视觉编码器和LoRA技术进行细致调整。

具体包含三个步骤进行训练：

图文对齐的预训练：第一个步骤利用EVA-Clip模型进行预训练，让模型理解图片和其对应的描述

视频文本对齐的预训练：由于视频是多个图片帧拼接，那么可以构造成一帧一帧的图片加上文字输入到后续的模型层中。

视频问答的微调：利用一些高质量的问答数据集在大模型（LLM）上进行微调

MiniGPT4-Video在多个视频基准测试中表现优异，包括MSVD、MSRVTT、TGIF和TVQA，在这些基准测试中取得了显著的性能提升。

总的来说，这个模型已经展示出能够初步捕捉视频内容的潜力，但是要想达到ChatGPT那种令人惊艳的水平，还需要跨越一段不小的距离。

发表于: 2024-04-132024-04-13 16:19:06
原文链接：https://page.om.qq.com/page/OD2v2C_ZghvYDNFRln3SkTWQ0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

不止于看懂，AI如何重塑视频解读？

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐