首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >在多个GPU中加载LLM

在多个GPU中加载LLM
EN

Data Science用户
提问于 2023-05-19 12:15:42
回答 1查看 130关注 0票数 1

我正在做一个关于LLM文本生成的POC。我有一个AWSp3.8x实例,它有4个GPU,每个16 GB大小。我对LLM和GPU很陌生。当我尝试在GPU中加载一个LLM相关模型(WizardLM)时,它说16 GB是不够的。因此,我的问题是如何使用所有64 GB加载模型?

EN

回答 1

Data Science用户

发布于 2023-05-19 12:26:22

使用多个GPU通常意味着整个模型被复制到每个GPU的内存中。在Pytorch中,这是通过nn.DataParallelnn.parallel.DistributedDataParallel实现的。然而,这并不是你想要的。

可以将模型的各个部分加载到不同的GPU中,并在它们之间进行计算。然而,这需要特定的代码逻辑来分配和协调不同的部分。不可能在不同的GPU之间自动地将模型分割成各个部分。

你的选择是:

  • 使用适合16 on的较小型号。
  • 使用具有足够内存的GPU来适应当前的型号。
  • 使用足够小的模型的量化版本。
  • 执行CPU推断。这可能会很慢。您可以使用并行化的CPU指令集检查模型是否存在C++实现,以便快速进行推理;例如,对于Llama,您可以使用llama.cpp
票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/121639

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档