我正在做一个关于LLM文本生成的POC。我有一个AWSp3.8x实例,它有4个GPU,每个16 GB大小。我对LLM和GPU很陌生。当我尝试在GPU中加载一个LLM相关模型(WizardLM)时,它说16 GB是不够的。因此,我的问题是如何使用所有64 GB加载模型?
发布于 2023-05-19 12:26:22
使用多个GPU通常意味着整个模型被复制到每个GPU的内存中。在Pytorch中,这是通过nn.DataParallel或nn.parallel.DistributedDataParallel实现的。然而,这并不是你想要的。
可以将模型的各个部分加载到不同的GPU中,并在它们之间进行计算。然而,这需要特定的代码逻辑来分配和协调不同的部分。不可能在不同的GPU之间自动地将模型分割成各个部分。
你的选择是:
https://datascience.stackexchange.com/questions/121639
复制相似问题