经过了大半年的运作,ChatGPT热点仍旧高涨。同时也衍生出纷繁复杂的各类大语言模型,也有不少预训练模型开源可操作,本次介绍的Multi-modal GPT可以和GPT4一样,允许接受图片,此外还能部署在本机。让我们获得一套自己的GPT模型,不用再排队、付费了。
Multi-modal GPT是基于开源的OpenFlamingo模型衍生获得,Github开源地址如下:
https://github.com/open-mmlab/Multimodal-GPT
本次实战过程基于你的本机已有Anaconda、可以实现CUDA的GPU基础上(这部分入门略过,如果有兴趣且没有基础的,还烦请自行百度)
1. 首先,在Anaconda基础上新建一套环境(Python版本为3.9):
conda create -n minigpt python==3.9
conda activate minigpt
2. 安装git(这步骤可以省略,直接到Github上下载项目)
#下载git
git clone https://github.com/open-mmlab/Multimodal-GPT.git
3. 安装requirement.txt
pip install -r requirements.txt
4. 降低pytorch版本(这步也可以在一开始安装环境时配置,但需要删去requirement.txt中关于torch的部分)
conda install pytorch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pytorch-cuda=11.6 -c pytorch -c nvidia
#以上是安装新环境、并配置pytorch。python3.9的pytorch不支持2.0,所以需要下降版本
5. 下载权重(共3处)
https://huggingface.co/decapoda-research/llama-7b-hf
https://huggingface.co/openflamingo/OpenFlamingo-9B
https://download.openmmlab.com/mmgpt/v0/mmgpt-lora-v0-release.pt
其中1和2处的下载位置如图:
权重和训练好的模型部分内容比较大,也是本项目可以运行的关键部分。
6. 使用CMD的minigpt环境下的python运行app.py
python app.py
首次运行,将下载CLIP,大约933M,较为耗时。
下载完成的运行界面,如果浏览器未自动打开,可以复制地址打开。
打开浏览器的界面如下图:
接着你可以在图片处上传图片,文字输入处输入文字开展对话:
英文的对话场景较为流畅,中文有待各位自行测试