首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

多模态 MiniGPT4 正式开源了!

火爆的 ChatGPT!还记得 GPT-4 发布的时候根据图片生成网站的功能吗?

就是下面这个视频!

GPT4 根据一个图片,然后立马生成网站的 HTML 代码

当时大家的第一感觉是震撼,这也太强了吧!可惜 OpenAI 直到现在还没公开这个功能!!不过最近有个同样技术的项目它开源了!!地址

https://github.com/Vision-CAIR/MiniGPT-4

项目说明

MiniGPT-4 是一个很酷的开源项目,它能让计算机更好地理解图片和文字!

MiniGPT-4 通过训练一个超大的语言模型 Vicuna 和一个视觉编码器 BLIP-2,使得两者可以互相“通话”。这样,计算机就能同时理解图片和文字了,也能生成两者,这听起来像科幻电影里的人工智能啊!

MiniGPT-4 的训练分两步:

第一步用大量的图片和文字数据进行预训练

第二步用小量优质的数据进一步调优。经过第一步,语言模型就能理解视觉特征了

第三步使其能更流畅地描述图片,也更容易使用

MiniGPT-4 展示了许多酷炫的视觉语言技能,就像 OpenAI 在 GPT-4 发布会上展示的那些。

作者提供了一个线上的 DEMO

https://minigpt-4.github.io/

MiniGPT-4 为研究和应用多模态人工智能开拓了新道路,具有很高的研究价值

部署方式

要玩转 MiniGPT-4, 首先要准备 Python 环境和下载 Vicuna 的预训练模型。

然后下载 MiniGPT-4 的预训练检查点,或者自己训练一个

我们可以在本地部署一个,首先准备好 Python 环境,这个没啥好说的

准备预训练的 Vicuna 权重,下载 Vicuna-13B 的模型参数,已经开源提供

准备预训练的 MiniGPT-4 checkpoint.

然后,在第 11 行的 eval_configs/minigpt4_eval.yaml 中的评估配置文件中设置预训练检查点的路径

运行项目:

以上就是 MiniGPT-4 项目的部署步骤。

主要需要准备环境、下载预训练模型与数据集、训练模型、评估模型效果等。

由于项目开源, 数据集和预训练模型也都可以公开获取, 大家可以动手实践起来哦!

如果你想了解更多关于 ChatGPT 有趣的项目和玩法,欢迎点击下面的链接,加入我们的社群一起交流探讨

每个进群的人,都会收到我们赠送的独享 ChatGPT 账号,以及 AI 绘画的教程!!

chatGPT 每个人都应该掌握的技能

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20230419A0156100?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券