【玩转 GPU】初探大模型、Stable Diffusion所需GPU配置（根据需求提供不同选择）

原创

Regan Yue

修改于 2023-07-30 15:05:42

4.6K0

文章被收录于专栏：ReganYue's BlogReganYue's Blog

初探大模型、Stable Diffusion所需GPU配置（根据需求提供不同选择）

部署Falcon-40B、MPT-30B 和 Stable Diffusion 应该使用哪些 GPU 方案？本文将对每一种模型部署所需GPU提供多种方案——性能型、均衡型、经济型。

通过阅读本文，就不必研究市面上所有型号的GPU，并测试判断下面这几种模型能否在选择的GPU上运行。

一、Falcon-40B

Falcon-40B 是由 TII 构建的一个具有 40B 参数的因果解码器模型，使用了经过筛选的大量 RefinedWeb 数据以及其他处理过的语料库进行训练。该模型遵循 Apache 2.0 开源许可证，并且已经提供给用户使用。

模型名称	方案类型	GPU
Falcon-40B	性能型	2 * H100
Falcon-40B	均衡型	2 * RTX 6000 Ada（该方案A6000 或 RTX 6000不符合要求）
Falcon-40B	经济型	2 * A6000

另外附上对于该大模型其他方案与2 * H100的推理速度对比：

GPU	推理速度
2 * H100	100%
2 * 6000 Ada	48%
2 * L40	43%
2 * A100 80GB	43%
2 * A6000	19%
2 * A40	19%

除了这款拥有400亿参数的Falcon 40B，本次同时发布的还有一款70亿参数的Falcon 7B。部署Falcon 40B需要大概100GB显存的显卡，而Falcon 7B的使用门槛大大降低，只需要大概15GB显存的显卡——如果使用消费级显卡，目前基本上只有RTX 4090/RTX 4080以及RTX 3090Ti和RTX 3090满足要求。

二、MPT-30B

MPT-30B 是一款解码器式Transformer，通过1T文本和代码Tokens训练而成。

MPT-30B 是 MosaicML Pretrained Transformer（MPT）模型系列中的一员，该模型使用改进的Transformer架构，经过优化可实现高效的训练和推理。

MPT-30B 具有其他 LLM 没有的特殊功能，包括 8k tokens的上下文窗口（可通过微调进一步扩展；参见 MPT-7B-StoryWriter)）、通过 ALiBi 支持上下文长度外推（context-length extrapolation），以及通过 FlashAttention 实现高效推理和训练。通过pretraining mix，它还具有很强的代码编写能力。MPT 模型可以通过标准的 HuggingFace pipelines 和 NVIDIA 的 FasterTransformer 实现高效服务。MPT-30B 的模型大小也经过特意选择，使其能够轻松部署在单个 GPU 上——16 位精度的 1 * A100-80GB 或 8 位精度的 1 * A100-40GB。

模型名称	方案类型	GPU
MPT-30B	性能型	1 * H100
MPT-30B	均衡型	1 * H100
MPT-30B	经济型	1 * A100 80GB

除此之外，2 * 6000 Ada、2 * L40、2 * A6000、2 * A40都可以用于MPT-30B的推理。

三、Stable Diffusion

Stable Diffusion（稳定扩散）是一种用于生成高质量图像的生成模型框架。它结合了生成对抗网络（GAN）和扩散过程，允许用户通过逐步迭代地改进噪声信号来生成逼真的图像。

在 Stable Diffusion 中，生成模型从一个噪声信号开始，并通过应用一系列扩散步骤来逐渐改进图像。每个扩散步骤都会在当前图像基础上引入一些随机扰动，然后利用生成网络来调整这些扰动，以生成更优质的图像。通过反复迭代扩散步骤，生成模型能够逐渐减小噪声并生成更加真实的图像。

与传统的生成模型相比，Stable Diffusion 提供了更多的灵活性和精细控制。用户可以根据自己的需求选择不同的扩散步骤数目和每个步骤的强度，从而调整生成图像的质量和细节程度。此外，Stable Diffusion 还具有较好的稳定性和收敛性，使得生成过程更加可靠和可控。

Stable Diffusion 在计算机视觉领域有广泛的应用，包括图像生成、图像修复、超分辨率等任务。其创新的扩散过程和生成模型结合的思想，使得它成为一种强大而灵活的生成框架，能够产生逼真且高质量的图像。

模型名称	方案类型	GPU
Stable Diffusion	性能型	1 * H100
Stable Diffusion	均衡型	1 * RTX 4090
Stable Diffusion	经济型	1 * RTX 3090 或 1 * A5000

附表：一些GPU配置需求

场景	GPU配置要求
运行Falcon-40B	GPU （85-100GB）+ VRAM (Video RAM)
运行MPT-30B	16位精度下需显存80GB
训练LLaMA (65B)	“They had 8,000 Nvidia A100s at the time.” ——8k张A100
训练 Falcon (40B)	“384 A100 40GB GPUs”
微调大尺寸的大模型	“64 A100 40GB GPUs”
微调尺寸的大模型	“4x A100 80gb”
Stable Diffusion 的图像生成功能	“12GB+” or “16GB+”
Whisper的语音转文字功能	最基本的GPU也能运行，甚至能运行在 CPU 上