在PyTorch中指定了具有gpu设备ID的DistributedDataParallel_Pytorch -在GPU上训练时在设备1上的副本1中捕获到StopIteration错误_如果具有在列列表中指定的所有值，则在行中搜索用户ID - 腾讯云开发者社区

pytorch、multi-gpu、distributed-training

我想在一台有8个GPU的机器上通过DistributedDataParallel训练我的模型。但我想在设备ID为4、5、6、7的四个指定GPU上训练我的模型。如何为DistributedDataParallel指定GPU设备ID？我认为在这种情况下，世界大小将是4，但在这种情况下，应该是什么排名？

浏览 45提问于2021-10-25得票数 0

1回答

torch.distributed.launch如何为每个GPU分配数据？

python、pytorch

当我们的批处理大小为1或2并且有8个GPU时，torch.distributed.launch如何将数据分配给每个GPU？我把我的模型转换成torch.nn.parallel.DistributedDataParallel， model = DistributedDataParallel(model, device_ids=[args.local_rank], output_device=args.local_rank,

浏览 2提问于2020-09-03得票数 1

1回答

使用PyTorch DistributedDataParallel在亚马逊SageMaker上拥抱脸

pytorch、amazon-sagemaker、huggingface-transformers、amz-sagemaker-distributed-training

即使是单实例培训，PyTorch DistributedDataParallel (DDP)通常也比PyTorch DataParallel (DP)推荐，因为DP的策略性能较差，并且在默认设备上使用更多的内存。(每单位) 拥抱脸可以通过python -m torch.distributed.launch启动器运行分布式培训，因为他们的训练器API支持DDP，但如果你不支持DDP，则会退回到DP。(每个) 我最近遇到了这个问题:将HF培训任务从p3.8xlarge扩展到更高级的p3.16xlarge，增加了(我认为)其中一个GPU的内存消耗，以至于我不得不大幅减少批处理大小，以避免数据自动化系

浏览 10提问于2022-09-08得票数 0

2回答

毕道尔的并行方法和分布式方法是如何工作的？

python-3.x、parallel-processing、pytorch、distributed-computing

我不是分布式系统和数据自动化系统的专家。但是有一个非常有趣的特性是PyTorch支持的，那就是nn.DataParallel和nn.DistributedDataParallel。它们是如何实际实现的？它们如何分离公共嵌入和同步数据？下面是DataParallel的一个基本示例。 import torch.nn as nn from torch.autograd.variable import Variable import numpy as np class Model(nn.Module): def __init__(self): super().__init_

浏览 0提问于2018-11-19得票数 48

1回答

是否可以将DistributedDataParallel与PyTorch估计一起使用？

azure-machine-learning-service

我们知道霍洛维德是被支持的。是否有使用DistributedDataParallel和Pytorch估计器的示例脚本？

浏览 1提问于2019-11-15得票数 0

回答已采纳

1回答

PyTorch分布式dataLoader

parallel-processing、pytorch、distributed、dataloader、pytorch-dataloader

有什么推荐的方法使PyTorch DataLoader (torch.utils.data.DataLoader)在分布式环境、单机和多台机器中工作？没有DistributedDataParallel就行吗？

浏览 2提问于2022-05-07得票数 0

2回答

如何选择公平竞争选项

deep-learning、pytorch、gpu、distributed-computing、fairseq

我正在学习如何使用实现一个简单的基于变压器的翻译模型。我想在我的实验室服务器上使用2 GeForce RTX 3090 GPU。我应该为--ddp-backend of fairseq-train选择哪个选项此外，您能解释一下--ddp-backend所有以下选项的含义以及何时分别使用它们吗？来自 --ddp-backend 可能的选择: c10d，fully_sharded，legacy_ddp，no_c10d，pytorch_ddp DistributedDataParallel后端默认值：“pytorch_ddp” 我是新来的堆栈交换社区，抱歉，如果有任何不适当的行动。

浏览 11提问于2022-06-21得票数 1

1回答

nn.DataParallel -培训似乎还没有开始

python、pytorch、gpu、gnu-parallel、multi-gpu

我在使用nn.DistributedDataParallel时遇到了很多问题，因为我找不到一个很好的例子来说明如何在单个节点中指定GPU id。出于这个原因，我想从使用nn.DataParallel开始，因为它应该更容易实现。根据文档https://pytorch.org/docs/stable/generated/torch.nn.DataParallel.html，应该可以执行以下操作： device = torch.device('cuda:1' if torch.cuda.is_available() else 'cpu') model = Model(

浏览 20提问于2021-04-15得票数 1

2回答

模型占用的内存占用是分布式数据并行的两倍。

parallel-processing、pytorch、distributed

我有一个模型，它可以在一个GPU上训练得很好。但是当我切换到Pytorch分布式数据并行(DDP)时，我得到了CUDA内存错误。具体来说，与没有并行性的模型相比，DDP模型占用了两倍的内存。下面是一个最小的可重现性示例： import os from torch.nn.parallel import DistributedDataParallel as DDP import torch.distributed as dist import torch.multiprocessing as mp import torch def train(rank, gpu_list, train_dist

浏览 10提问于2021-08-27得票数 2

回答已采纳

1回答

PyTorch DistributedDataParallel是否具有不同的GPU速度同步权值？

python、pytorch、distributed-computing

在下面的场景中，有2个GPU1，每个GPU1的速度明显不同: GPU0比GPU1快40%左右。我想训练100 k级的模型，通常情况下，如果速度相同的话，将达到相当于50k级的水平。然而，由于GPU1的速度不同，当GPU0达到50K级时，GPU1仅达到30K级。有效地对该模型进行了80k级的训练。在实践中，PyTorch的DistributedDataParallel会与不同速度的GPU一起工作吗？目前，脚本A的运行速度可以使GPU0以原来的速度运行，而无需等待等待GPU1，所以我想知道同步是如何工作的。在相同的步骤中，我在每个GPU中打印了模型的参数，它们确实有很大的不同。如果是，同步在哪

浏览 1提问于2020-08-23得票数 1

1回答

放火枪--在“with语句”内部使用设备

python、gpu、pytorch

是否有一种方法可以在特定(GPU)设备的上下文中运行pytorch (而不必为每个新的张量(如.to选项)指定设备)？类似于tensorflow with tf.device('/device:GPU:0'):..。默认设备似乎是cpu (除非我做错了)： with torch.cuda.device('0'): a = torch.zeros(1) print(a.device) >>> cpu

浏览 1提问于2018-08-29得票数 2

回答已采纳

1回答

Anaconda在更新时总是希望将我的GPU Pytorch版本替换为CPU Pytorch版本

anaconda、pytorch、conda

我有一个新安装的Anaconda3 (版本2020.02)环境，并且我已经通过命令conda install pytorch torchvision cudatoolkit=10.2 -c pytorch安装了Pytorch GPU版本。我已经验证了我的Pytorch确实可以在GPU上运行良好。但是，每当我通过conda update --all更新Anaconda时，总是显示以下消息： The following packages will be SUPERSEDED by a higher-priority channel: pytorch pytorch:

浏览 56提问于2020-06-29得票数 2

1回答

什么是深度学习中的融合内核(或融合层)？

tensorflow、neural-network、deep-learning、pytorch

我在读只有Python的构建省略了：使用apex.optimizers.FusedAdam所需的熔核。使用apex.normalization.FusedLayerNorm所需的熔核。改进了apex.parallel.SyncBatchNorm的性能和数值稳定性的融合核。提高apex.parallel.DistributedDataParallel和apex.amp性能的融合核。DistributedDataParallel、放大器和SyncBatchNorm仍然可以使用，但它们可能会慢一些。似乎也有一个 Pytorch中的Adam优化器(与所有P

浏览 2提问于2019-06-14得票数 8

1回答

如何从DistributedDataParallel学习中保存和加载模型

pytorch、distribute

我刚开始使用Pytorch DstributedDataParallel()，但我发现大多数教程都在培训期间保存了本地排名为0的模型。这意味着，如果我得到3台机器，每台有4个GPU，在最后，我将得到3型，从每台机器保存。例如，在第252行的pytorch 教程中： if not args.multiprocessing_distributed or (args.multiprocessing_distributed and args.rank % ngpus_per_node == 0): save_checkpoint({...})

浏览 4提问于2020-04-05得票数 7

回答已采纳

1回答

如何在Pytorch Distributed中使用自定义Rank到GPU的映射

python、pytorch

我在一个4-gpu节点上运行PyTorch，我并不是唯一一个在运行项目的人。因此，有时某些GPU太忙，而其他GPU则空闲。假设GPU0和GPU2很忙，但是GPU1和GPU3不忙，所以我只想使用这些GPU。似乎默认情况下，在pytorch分布式中，Rank 0总是GPU 0。如何向PyTorch指定0级对应于GPU1，1级对应于GPU3？

浏览 24提问于2021-03-11得票数 0

回答已采纳

1回答

torch.distributed支持GPU的点对点通信吗？

pytorch、distributed

我正在研究如何在PyTorch中的不同节点上与多个GPU进行点对点通信。从1.10.0版本开始，用于的PyTorch页面表示send的问号，而带有MPI后端的GPU的recv则表示问号。这是什么意思？如果有人成功地设置了PyTorch，以便torch.distributed允许在多个GPU上进行点对点通信，请告诉我以及您是如何设置的。具体而言，您使用的是哪个MPI？那么pyTorch和Cuda的版本呢？

浏览 13提问于2021-12-17得票数 2

1回答

PowerShell中的Mozilla："UserWarning: NVIDIA GeForce RTX 3060 Ti具有CUDA功能sm_86与当前的PyTorch安装不兼容

text-to-speech

我试图在Powershell中使用GPU运行./TTS/bin/train_tacotron.py。我遵循了这些，这使我走得很远:已经读取了配置，恢复了模型，但是当培训即将开始时，我得到了消息： UserWarning: NVIDIA GeForce RTX 3060 Ti具有CUDA功能，sm_86与当前的PyTorch安装不兼容。当前的PyTorch安装支持CUDA功能sm_37 sm_50 sm_60 sm_61 sm_70 sm_75 compute_37。如果您想使用带GeForce的NVIDIA RTX 3060 Ti GPU和PyTorch，请查看的说明。指定的指令并没有

浏览 15提问于2021-10-14得票数 1

回答已采纳

1回答

Google VM (Linux)上的Pytorch无法识别GPU

python、gpu、pytorch、google-compute-engine

我使用以下可用镜像创建了一个Google VM实例： C1-深度学习-普通-cu100-20191226 描述谷歌，深度学习图像: Base，m39 (带有CUDA10.0)，一个基于Debian的带有CUDA10.0的图像然后我在这个虚拟机上安装了Anaconda，然后按照Pytorch网站的建议使用以下命令行安装了Pytorch： conda install pytorch torchvision cudatoolkit=10.1 -c pytorch (对应于Linux、Python 3.7、CUDA 10.1) 在Python中，我运行以下代码来检查GPU检测： import to

浏览 3提问于2020-01-02得票数 3

1回答

如何在多个GPU和每个批处理的数据上运行多个派生进程的输入以相同的顺序获得输出？

python、nlp、pytorch、multiprocessing、gpu

我使用Pytorch分布式数据并行方法，并生成多个进程，每个进程运行在不同的GPU.I上。我使用Pytorch分布式数据采样器和数据加载器将批量输入数据加载到每个进程。我的问题：下的引擎，是如何分配数据采样器的，数据加载器是如何制作输入数据的切片的？为了简单起见，假设我们有4个GPU，以及400个输入样本，批次大小为50，那么Pytorch分布式数据采样器(连同数据加载器)是否会使前50个样本转到GPU-0，下50个到GPU -1，下一个50到GPU-2，然后再到GPU-3，然后再再是50到GPU-0，即按GPU设备数量的顺序？还是GPU的顺序来随机选择下一批输入是基于哪个GPU完成了以前的

浏览 2提问于2021-09-28得票数 0

1回答

如何为CIFAR 10 pytorch教程添加GPU计算？

python-3.x、machine-learning、computer-vision、gpu、pytorch

有关pytorch的CIFAR10教程可以在这里找到：本教程将介绍如何使用pytorch为CIFAR 10数据集创建简单的卷积神经网络。在接近尾声时，它略微介绍了如何在GPU上实现上述代码。本质上的区别是，我们创建了设备=torch.device(' gpu ')，并在使用它们进行计算之前将所有张量发送到gpu设备。因此，本质上，我们希望在每次进行计算之前将网络对象、输入和标签张量发送到gpu设备。所以我回去加了一句： net.to(device) 在计算的循环中： with torch.no_grad(): for data in testloader:

浏览 5提问于2018-12-11得票数 1

1回答

新的曼巴环境迫使火炬CPU和我不知道为什么

python、pytorch、gpu、conda、mamba

当创建一个新的mamba (conda)环境时，我只会得到Py火炬的CPU包。有人知道如何确保/强制GPU版本吗？即使，我安装的第一件事是cudatoolkit，它一直在获取CPU包。我尝试了11.6和11.3版本，没有什么改变。这是我使用的命令： mamba install pytorch torchvision torchaudio -c pytorch -c conda-forge + pytorch 1.13.0 py3.9_cpu_0 pytorch/win-64 145MB +

浏览 14提问于2022-10-28得票数 1

2回答

支持TensorFlow和PyTorch的GPU

tensorflow、pytorch、gpu

好吧，所以我现在做了很多深度学习项目和实习，我从来没有做过大量的训练。但是最近我一直在考虑做一些传输学习，我需要在GPU上运行我的代码。现在我有一个系统与Windows 10和一个专用的NVIDIA GeForce 9.4亿GPU。我在网上做了很多研究，但我还是有点困惑。我还没有在我的系统上安装NVIDIA工具包或cuDNN或tensorflow-gpu。我目前使用tensorflow和Py手电筒来训练我的DL模型。这是我的问题- ，当我在tf或pytorch中定义张量时，默认情况下它是一个cpu张量。所以，到目前为止，我所做的所有训练都是在CPU上进行的。所以，如果我确保安装了正确版本的Cu

浏览 5提问于2020-08-20得票数 1

2回答

不能将GPU与火炬一起使用

tensorflow、machine-learning、anaconda、artificial-intelligence、pytorch

我一直在尝试使用Py手电筒时出现这个错误。 RuntimeError:试图在CUDA设备上反序列化对象，但是torch.cuda.is_available()是假的。如果您在一台只运行CPU的机器上运行，请使用torch.load和map_location=torch.device(“CPU”)将您的存储映射到CPU。我使用conda install pytorch torchvision cudatoolkit=10.1 -c pytorch安装了Pytorch。有了tensorflow，我的GPU运行得很好。

浏览 3提问于2019-12-27得票数 3

2回答

为什么Keras没有看到我的GPU而TensorFlow却看到了？

python、tensorflow、keras、gpu

在之后，我运行了： # confirm TensorFlow sees the GPU from tensorflow.python.client import device_lib assert 'GPU' in str(device_lib.list_local_devices()) # confirm Keras sees the GPU from keras import backend assert len(backend.tensorflow_backend._get_available_gpus()) > 0 # confirm PyTorch sees

浏览 2提问于2018-12-09得票数 0

回答已采纳

1回答

Cuda无法检测GPU

pytorch

在使用函数'torch.cuda.is_available()‘时，返回一个false。我读到这意味着驱动程序配置不正确，但是我不知道如何解决这个问题。如果你需要更多的信息，请告诉我。几天来，我一直在努力想办法解决这个问题，有人能发现这个问题吗？谢谢 +-----------------------------------------------------------------------------+ | NVIDIA-SMI 511.23 Driver Version: 511.23 CUDA Version: 11.6 | |------

浏览 15提问于2022-07-08得票数 -2

2回答

如何利用GPU在Android上运行神经网络模型？

android、tensorflow、gpu、torchvision、torchscript

有人尝试在Android上运行对象检测或crnn模型吗？我试着运行crnn模型(序列化的pytorch)，但在华为P30 lite上需要1秒，在三星J4酷睿上需要5秒。 Huawei P30 lite CPU : octa core processor GPU : Mali-G51 MP4 Samsung J4 CPU : quad core GPU : Adreno 308 android设备中的GPU与专用GPU的不同之处在于，它们没有VRAM和电源管理。CPU和GPU共享相同的RAM。在使用GPU在PC上运行模型之前，我们指定将我的计算放在GPU上，如下所示

浏览 37提问于2020-04-24得票数 3

回答已采纳

2回答

g5.xlarge上的Pytorch版本

python、amazon-ec2

我想在AWS上运行一个g5.xlarge，并使用pytorch。但是，当我试图在python中使用cuda (例如torch(1., device="cuda"))时，出现了这个错误： The current PyTorch install supports CUDA capabilities sm_37 sm_50 sm_60 sm_70. If you want to use the NVIDIA A10G GPU with PyTorch, please check the instructions at https://pytorch.org/get-started/l

浏览 7提问于2021-11-18得票数 0

回答已采纳

2回答

毕火炬的DataParallel和DistributedDataParallel有什么区别？

gpu、distributed、pytorch

我正在通过此imagenet示例。在第88行中，使用了模块DistributedDataParallel。当我在文档中搜索同样的东西时，我什么也没找到。然而，我找到了文件，为DataParallel。因此，想知道DataParallel和DistributedDataParallel模块之间的区别是什么。

浏览 0提问于2017-08-11得票数 10

回答已采纳

1回答

Pytorch使用了太多的资源

multithreading、ubuntu、pytorch、htop

我正在使用pytorch训练一个DQN模型。使用ubuntu，如果我使用htop，我会得到 ? 正如你所看到的，所有的资源都被使用了，我对此有点担心。这是我的code。有没有办法使用更少的资源？我必须使用pytorch添加我的需求吗？请注意，我的计算机上没有GPU，只有CPU

浏览 19提问于2020-04-09得票数 5

回答已采纳

3回答

GPU不可用于Pytorch

python、pytorch、anaconda、conda

我今天安装了蟒蛇、CUDA和PyTorch，但我无法在torch中访问我的GPU (RTX2070)。我遵循了所有的安装步骤，PyTorch在其他方面都运行得很好，但是当我尝试在shell或脚本中访问GPU时，我得到 >>> import torch >>> torch.cuda.is_available() False >>> torch.cuda.device_count() 0 >>> print(torch.version.cuda) None cudatoolkit 11.3.1

浏览 7提问于2021-10-24得票数 0

4回答

如何在Google Colab中启用pytorch GPU支持？

gpu、pytorch、google-colaboratory

如何让pytorch在GPU上工作？我已经在google colab notebook中成功安装了pytorch： Tensorflow报告GPU已就位：但是torch.device函数以某种方式失败了：我该如何解决这个问题呢？

浏览 13提问于2018-05-31得票数 2

1回答

即使在gpu上挂载张量和模型时，GPU也显示了0的利用率？

pytorch、gpu、nvidia

我试图在远程GPU服务器上运行一些PyTorch脚本。在调用ubuntu终端中的脚本时，我以：CUDA_VISIBLE_DEVICES=0(or whichever is available) python3 <script.py>开头。此外，在代码中使用以下代码片段，并对模型、输入和目标张量使用.to(device)。 device = torch.device("cuda" if torch.cuda.is_available() else "cpu") print(device) 我已经确认我的模型、数据和目标张量都安装在cuda设备上。但是G

浏览 0提问于2021-04-05得票数 0

3回答

为什么PyTorch找不到我的NVDIA驱动程序来支持数据自动化系统？

python、anaconda、pytorch

我在机器中添加了一个GeForce GTX1080Ti(运行Ubuntu18.04和使用Python3.7运行Anaconda )，以便在使用PyTorch时使用GPU。这两张卡片的识别都是正确的： $ lspci | grep VGA 03:00.0 VGA compatible controller: NVIDIA Corporation GF119 [NVS 310] (reva1) 04:00.0 VGA compatible controller: NVIDIA Corporation GP102 [GeForce GTX 1080 Ti] (rev a1) NVS 310处理我的2

浏览 5提问于2019-01-19得票数 13

1回答

为什么我们需要image.to('CUDA')当我们有model.to('CUDA')

python、pytorch

我正在上关于PyTorch的课程。我想知道为什么我们需要分别告诉torch.utils.data.DataLoader输出它运行在什么设备上。如果模型已经在CUDA上了，为什么它不相应地自动更改输入呢？在我看来，这个模式很有趣： model.to(device) for ii, (inputs, labels) in enumerate(trainloader): # Move input and label tensors to the GPU inputs, labels = inputs.to(device), labels.to(device) 是否有一个用例，我希

浏览 1提问于2018-12-09得票数 1

回答已采纳

1回答

安装了CUDA，但是Windows10上的PyTorch v1.13无法工作。PyTorch不使用GPU；如何修复与CUDA 11.x驱动程序不同步的PyTorch？

cuda、pytorch-gpu

我怎样才能找到在我的电脑上安装在Windows 10上的PyTorch 1.13的数据自动化系统11.x？我尝试过:我从NVIDIA网站上安装了NVIDIA CUDA驱动程序和Windows工具包。我可以通过在木星实验室中输入：!nvidia-smi来验证这一点，这给了我以下输出。这表明已经安装了CUDA工具，但我的PyTorch包没有使用。我需要了解什么版本的CUDA驱动程序被安装，以便我可以安装正确的PyTorch-GPU软件包。 +-----------------------------------------------------------------------------+

浏览 22提问于2022-11-13得票数 -1

1回答

火枪中的model.cuda()

pytorch

如果我在pytorch中调用model.cuda()，其中模型是nn.Module的一个子类，并且说如果我有四个GPU，它将如何使用这四个GPU，以及如何知道使用的是哪个GPU？

浏览 0提问于2019-07-02得票数 12

回答已采纳

2回答

GPU可在Tensorflow上使用，但在火炬中不提供

tensorflow、pytorch、gpu

我目前正在一台服务器上工作，我希望能够为PyTorch网络培训提供GPU。我不能通过使用torch来检测GPU，但是，如果我使用TensorFlow，我可以检测到我应该拥有的两个GPU。我认为这是PyTorch/TensorFlow中的版本以及其上的CUDA版本的问题。但是，在尝试了不同版本的毕道尔之后，我仍然无法使用它们. 我是附加的具体的GPU和当前版本的Tensorflow和毕火炬，我正在使用。有人对此有任何暗示吗？会很有帮助的。 | NVIDIA-SMI 4--.--.-- Driver Version: 465.19.01 CUDA Version: 11.3

浏览 3提问于2022-05-31得票数 1

回答已采纳

1回答

PyTorch ROCm退出--如何选择Radeon作为设备

pytorch

既然Pytorch发布了ROCm版本，允许我使用nvidias以外的其他gpu，那么我如何在python中选择radeon作为设备呢？显然，像device = torch.cuda.is_available或device = torch.device("cuda")这样的代码不起作用。谢谢你的帮助。:)

浏览 7提问于2021-04-01得票数 3

回答已采纳

1回答

无法在Google平台上创建木星笔记本实例

google-cloud-platform、jupyter-notebook、gpu、quota

我正在尝试用GPU在Google平台上一个简单的木星笔记本电脑：名称: PyTorch 地区:美国西部1(俄勒冈州) 地区:美西1-b 操作系统“Debain 9” 环境: PyTorch 1.4 (与英特尔(R) MKL/MKL) 机器类型:n1-标准-4(4 4vCPUs，15 n1) GPU类型: NVIDIA Tesla K80 GPU数:1 为我自动安装NVIDIA GPU驱动程序引导磁盘类型:标准持久磁盘引导磁盘大小( GB: 100 ) 数据磁盘类型:标准持久磁盘数据磁盘大小( GB: 100 ) Google管理密

浏览 3提问于2020-10-17得票数 2

回答已采纳

2回答

cudaGetDevice函数有什么不清楚的？

cuda

我正在处理一个集群，其中我有4个GPU连接到一个计算节点。所有的GPU都是一样的，基本上是k20，没有区别。我想知道我的二进制文件运行在哪个GPU上？cudaGetDevice总是给我设备id 0，因为我的二进制文件实际上运行在设备id 2上(使用nvidia-smi检查) 使用此设备Id，我希望使用NVML库来测量所消耗的功率。 cudaGetDevice :Returns in *device the current device for the calling host thread. 还有其他方法来获取这些信息吗？

浏览 1提问于2014-08-21得票数 1

2回答

pytorch中的model.cuda()

pytorch

如果我在pytorch中调用model.cuda()，其中model是nn.Module的子类，并假设我有四个GPU，它将如何利用这四个GPU，以及我如何知道正在使用哪些GPU？

浏览 159提问于2019-07-02得票数 4

1回答

tf.test.is_gpu_available()在子进程中为False，但在主进程中为True

tensorflow、multiprocessing、pytorch

我目前正在运行一个pytorch模型，该模型定期调用tensorflow模型进行基准测试。我希望这两个模型都支持GPU，并在相同的脚本中运行。由于tensorflow基准测试代码直到过程结束都需要GPU内存，因此我选择在multiprocessing.Process中运行基准测试代码，以便我的pytorch模型可以在基准测试脚本运行后使用完整的GPU内存。在此期间，我偶然发现了一个不同寻常的bug (?)在tensorflow的gpu利用率中。在子进程中运行的tensorflow似乎不想使用已被父进程使用的GPU。我可以将tensorflow模型和pytorch模型放在同一个GPU中，并且

浏览 48提问于2020-06-16得票数 0

回答已采纳

1回答

Pytorch找不到CUDA设备

pytorch

我试着在我的设置中使用Pytorch中的Cuda，但它不能被检测到，我很困惑为什么。 torch.cuda.is_available() 返回False。更深入的挖掘， torch._C._cuda_getDeviceCount() 返回0。使用1.5版，例如 $ pip freeze | grep torch torch==1.5.0 我试着写了一个小的C程序来做同样的事情。 #include <stdio.h> #include <cuda_runtime_api.h> int main() { int count = 0; cudaGetDevic

浏览 108提问于2020-06-16得票数 4

2回答

使用SageMaker Pytorch图像进行训练

amazon-web-services、pytorch、amazon-sagemaker

我正在尝试将BERT模型的训练过程容器化，并在SageMaker上运行它。我计划使用预先构建的SageMaker Pytorch GPU容器(https://aws.amazon.com/releasenotes/available-deep-learning-containers-images/)作为我的起点，但我在构建过程中遇到了拉取映像的问题。我的Dockerfile看起来像这样： # SageMaker PyTorch image FROM 763104351884.dkr.ecr.us-east-1.amazonaws.com/pytorch-training:1.5.0-gpu

浏览 21提问于2020-08-17得票数 0

2回答

如何在Slurm上运行Pytorch脚本？

slurm、hpc

我正在挣扎于一个基本的python脚本，该脚本使用Py火炬在Slurm上打印CUDA设备。这是sinfo的输出。 (ml) [s.1915438@sl2 pytorch_gpu_check]$ sinfo -o "%.10P %.5a %.10l %.6D %.6t %.20N %.10G" PARTITION AVAIL TIMELIMIT NODES STATE NODELIST GRES compute* up 3-00:00:00 1 drain* scs0123 (nu

浏览 15提问于2022-03-14得票数 0

回答已采纳

1回答

如何在Ubuntu上为AMD Ryzen移动CPU安装opencl？

ubuntu、opencl、linux-device-driver、amd、ubuntu-18.04

我有一个带有AMD Ryzen 52500 u(与集成的radeon 8移动GPU)处理器的笔记本，并使用Ubuntu18.04.2。我想在CPU和GPU上使用C++运行一些C++计算。我的问题是，我不知道opencl如何识别cpu。我已经安装了amdgpu从amd网站和AMD应用软件SDK 3.0。运行clinfo后，将得到以下输出：平台数目2 平台名三叶草平台供应商台面平台版本OpenCL 1.1Mesa18.2.8 平台配置文件FULL_PROFILE 平台扩展cl_khr_icd 平台扩展函数后缀MESA 平台名称AMD加速并行处理平台供应商高级微设备公司。平台版本Ope

浏览 4提问于2019-03-25得票数 3

回答已采纳

1回答

Google Colab中的多个GPU

python、pytorch、google-colaboratory

我试图在Google上运行来自GitHub的Python代码，我需要2个GPU来运行代码，我用以下命令安装了Pytorch：!conda install pytorch=0.4.1 cuda90 -c pytorch，当我尝试运行代码时，我得到了一个关于cuda设备的错误： Traceback (most recent call last): File "train.py", line 188, in <module> encoder.cuda(encoder_gpus[0]) File "/usr/local/lib/python3.7/s

浏览 3提问于2020-12-04得票数 0

5回答

WSL2 Pytorch RuntimeError: RTX3080没有任何CUDA GPU可用

pytorch

我已经挣扎了一天，使火炬工作在WSL2上使用RTX 3080。我安装了CUDA工具包11.3版运行nvcc -V将返回以下内容： nvcc -V nvcc: NVIDIA (R) Cuda compiler driver Copyright (c) 2005-2021 NVIDIA Corporation Built on Sun_Mar_21_19:15:46_PDT_2021 Cuda compilation tools, release 11.3, V11.3.58 Build cuda_11.3.r11.3/compiler.29745058_0 nvidia-smi返回以下内容

浏览 21提问于2021-11-29得票数 8

1回答

尝试在pyTorch中使用Cuda

python-3.x、pytorch

我一直在PyTorch上工作，并想使用Cuda张量，但我在使用它时遇到了麻烦。当我使用行torch.cuda.is_available()时，它返回false。但是，当我在anaconda命令提示符上使用相同的行时，它返回true。怎么回事？我需要以某种方式设置设备吗？或者让解释器包含我的GPU？所有我想要的是我的GPU被认为是CUDA可用的，并可以在代码中使用。我使用： python 3.7 CUDA 10.1 GPU: GTX 1070

浏览 8提问于2020-03-27得票数 0

1回答

农场

pytorch、haystack

当使用GPU运行Haystack时，我将得到以下错误。在深入研究之后，我意识到Haystack正在将Py手电筒降级为一个与我的CUDA不兼容的版本。 NVIDIA GeForce RTX 3060 with CUDA capability sm_86 is not compatible with the current PyTorch installation. The current PyTorch install supports CUDA capabilities sm_37 sm_50 sm_60 sm_70. If you want to use the NVIDIA GeForce

浏览 6提问于2022-12-01得票数 0