PyTorch:如何批量推理(并行推理)

PyTorch是一个开源的机器学习框架，它提供了丰富的工具和库，用于构建和训练深度学习模型。在PyTorch中，批量推理（也称为并行推理）是指同时对多个输入样本进行推理的过程，以提高推理的效率和速度。

要实现批量推理，可以采用以下步骤：

数据准备：首先，需要将待推理的数据进行预处理和转换，以适应模型的输入要求。这可能包括数据的归一化、缩放、裁剪等操作。
模型加载：使用PyTorch的模型加载功能，将预训练的模型加载到内存中。可以使用torchvision.models中的预训练模型，也可以加载自定义的模型。
批量推理：将准备好的数据输入到加载好的模型中，进行批量推理。可以使用torch.utils.data.DataLoader来批量加载数据，并使用torch.no_grad()上下文管理器关闭梯度计算，以加快推理速度。
结果处理：根据具体的应用需求，对推理结果进行后处理。例如，可以根据模型输出的概率值进行分类，或者根据回归模型的输出进行预测。

在PyTorch中，可以使用torch.nn.DataParallel模块来实现模型的并行推理。该模块可以自动将数据划分为多个小批次，并将它们分配给不同的GPU进行并行计算。使用DataParallel的示例代码如下：

import torch
import torch.nn as nn
from torch.nn import DataParallel

# 加载模型
model = YourModel()
model = DataParallel(model)

# 准备数据
data = YourData()

# 批量推理
with torch.no_grad():
    outputs = model(data)

在上述代码中，YourModel是你的模型类，YourData是你的数据。通过将模型包装在DataParallel中，可以自动实现并行推理。

对于PyTorch的批量推理，腾讯云提供了多个与之相关的产品和服务，例如：

腾讯云AI推理（Tencent Cloud AI Inference）：提供了高性能、低延迟的AI推理服务，支持PyTorch等多种深度学习框架。详情请参考：腾讯云AI推理产品介绍
腾讯云GPU云服务器（GPU Cloud Server）：提供了强大的GPU计算能力，适用于深度学习任务的训练和推理。详情请参考：腾讯云GPU云服务器产品介绍
腾讯云函数计算（Serverless Cloud Function）：提供了无服务器的计算服务，可以快速部署和运行PyTorch模型，实现高并发的批量推理。详情请参考：腾讯云函数计算产品介绍

以上是关于PyTorch批量推理的简要介绍和相关腾讯云产品的推荐。希望对您有所帮助！

毕道尔的并行方法和分布式方法是如何工作的？

python-3.x、parallel-processing、pytorch、distributed-computing

我不是分布式系统和数据自动化系统的专家。但是有一个非常有趣的特性是PyTorch支持的，那就是nn.DataParallel和nn.DistributedDataParallel。它们是如何实际实现的？它们如何分离公共嵌入和同步数据？下面是DataParallel的一个基本示例。 import torch.nn as nn from torch.autograd.variable import Variable import numpy as np class Model(nn.Module): def __init__(self): super().__init_

浏览 0提问于2018-11-19得票数 48

1回答

nn.DataParallel -培训似乎还没有开始

python、pytorch、gpu、gnu-parallel、multi-gpu

我在使用nn.DistributedDataParallel时遇到了很多问题，因为我找不到一个很好的例子来说明如何在单个节点中指定GPU id。出于这个原因，我想从使用nn.DataParallel开始，因为它应该更容易实现。根据文档https://pytorch.org/docs/stable/generated/torch.nn.DataParallel.html，应该可以执行以下操作： device = torch.device('cuda:1' if torch.cuda.is_available() else 'cpu') model = Model(

浏览 20提问于2021-04-15得票数 1

1回答

使用pytorch-lightning进行简单预测的示例

pytorch、pytorch-lightning

我有一个现有的模型，在这个模型中，我加载了一些预先训练好的权重，然后在pytorch中进行预测(一次一个图像)。我正在尝试将它基本上转换为pytorch闪电模块，并对一些事情感到困惑。因此，目前，我的模型__init__方法如下所示： self._load_config_file(cfg_file) # just creates the pytorch network self.create_network() self.load_weights(weights_file) self.cuda(device=0) # assumes GPU and uses one. This

浏览 263提问于2020-05-03得票数 3

回答已采纳

1回答

在PyTorch训练之外使用多个GPU

neural-network、conv-neural-network、pytorch

我正在计算nn.Conv2d层内每对内核之间的累积距离。然而，对于大层，它使用12 it内存的泰坦X耗尽内存。我想知道是否有可能将这种计算分为两个gpus。守则如下： def ac_distance(layer): total = 0 for p in layer.weight: for q in layer.weight: total += distance(p,q) return total 其中layer是nn.Conv2d的实例，距离返回p和q之间的差异之和，但是我不能分离这个图，因为稍后我需要它。我试着将我的模型封装在nn.Dat

浏览 0提问于2019-04-11得票数 1

2回答

在2020年，在一台计算机上的多个GPU上使用Pytorch训练模型的最佳方式是什么？

parallel-processing、neural-network、pytorch、gpu

在一台机器上的多个GPU上训练一个神经网络的最佳实践是什么？我对nn.DataParallel的不同选项和使用.to('cuda:0') and .to('cuda:1')在不同的GPU上放置不同的层感到有点困惑。我在Pytorch 中看到后一种方法，日期是2017年。有标准吗?还是取决于偏好或模型的类型？方法1 class ToyModel(nn.Module): def __init__(self): super(ToyModel, self).__init__() self.net1 = torch.nn.Lin

浏览 4提问于2020-09-29得票数 2

1回答

如何使用1个以上的GPU训练PyTorch迁移学习教程

python、python-3.x、jupyter-notebook、jupyter、pytorch

我目前正在关注中的PyTorch迁移学习教程我已经能够在CPU和1 GPU上完成教程和培训。我正在使用谷歌云平台笔记本实例，并使用4个NVIDIA Tesla k80 x 4GPU。正是在这里，当我在超过1个GPU上训练网络时，遇到了服务器连接错误(无效响应: 504)错误 model_ft = models.resnet18(pretrained=True) num_ftrs = model_ft.fc.in_features model_ft.fc = nn.Linear(num_ftrs, 2) device = torch.device("cuda:0" if t

浏览 1提问于2019-08-08得票数 1

3回答

pytorch的验证损失更快-RCNN

python、machine-learning、computer-vision、pytorch、object-detection

我目前正在使用从pytorch预先训练的更快的RCNN模型(就像torchvision 中的模型)中的迁移学习在自定义数据集上进行对象检测。我想在每个时期结束时计算验证损失dict (就像在训练模式中一样)。我可以在训练模式下运行model进行验证，如下所示： model.train() for images, targets in data_loader_val: images = [image.to(device) for image in images] targets = [{k: v.to(device) for k, v in t.items()} for t in

浏览 1提问于2020-02-21得票数 8

1回答

State_dict中的意外键：“模型”，“选择”

python、deep-learning、pytorch、fast-ai

我目前正在使用fast.ai来训练图像分类器模型。 data = ImageDataBunch.single_from_classes(path, classes, ds_tfms=get_transforms(), size=224).normalize(imagenet_stats) learner = cnn_learner(data, models.resnet34) learner.model.load_state_dict( torch.load('stage-2.pth', map_location="cpu") ) 其结果是：文件&

浏览 3提问于2019-03-07得票数 1

回答已采纳

3回答

如何将一个存储桶一个目录下的所有文件拷贝到另一个存储桶的一个目录下？

官方文档

请描述您的问题标题：存储桶概述 - 对象存储 - 产品文档 - 帮助与文档 - 腾讯云地址：https://cloud.tencent.com/document/product/436/6244

浏览 977提问于2018-01-31

1回答

为什么在Google Cloud ML上训练的TensorFlow模型比在本地训练的模型更准确？

tensorflow、machine-learning、object-detection、google-cloud-ml

我训练了一个对象检测API模型(使用动物园的COCO / Inception v2的Mask RCNN )，具有相同的配置，TensorFlow和模型版本，以及相同数量的步骤的相同(自定义)数据集。在本地机器(1080TI上的tensorflow-gpu)上，我使用了object_object/Train.py，而在云上，我使用了调用object_detection.train模块的google ml-engine作业。两者使用相同的学习率。云运行使用了5个工作进程，而本地运行只有1个GPU。它们都被设置为批处理大小为1。为什么本地训练的模型的准确性要低得多？本地训练的模型往往比云训练的

浏览 28提问于2018-08-23得票数 0

回答已采纳

4回答

利用腾讯云GPU构建深度学习网络？

对象存储、深度学习

如题，本人（学生）想用腾讯云构建一个实验性的深度学习网络，具体要用到腾讯云的哪些服务呢？（GPU，COS），另外还需考虑较低的成本。。。

浏览 1122提问于2017-12-13

1回答

Pytorch : GPU内存泄漏

deep-learning、parallel-processing、pytorch、conv-neural-network、gpu

我推测我在使用PyTorch框架训练Conv nets时遇到了GPU内存泄漏。下图为了解决这个问题，我补充说- os.environ['CUDA_LAUNCH_BLOCKING'] = "1" 它解决了内存问题，如下所示- 但是由于我使用的是torch.nn.DataParallel，所以我希望我的代码能够利用所有的GPU，但现在它只利用了GPU。在使用os.environ['CUDA_LAUNCH_BLOCKING'] = "1"之前，图形处理器利用率如下(同样糟糕)- 通过深入研究，我了

浏览 0提问于2020-05-25得票数 1

1回答

无法加载我通过cannot笔记本部署的本地预培训模型。

python、pytorch、amazon-sagemaker、torch

试图部署本地预先培训的模型，通过萨吉梅克创建一个端点并使用它，我最近一直在学习AI/ML领域，我是这样一个菜鸟。需要帮助。我部署了一个模型 from sagemaker.pytorch import PyTorchModel pytorch_model = PyTorchModel(model_data='model.tar.gz', role=role, entry_point='inference.py',

浏览 12提问于2022-08-22得票数 0

2回答

如何用多个GPU训练电筒模型？

python、pytorch、multi-gpu

我的服务器有两个GPU，我如何使用两个GPU同时进行训练，以最大限度地利用它们的计算能力？下面的代码正确吗？它能让我的模特接受适当的训练吗？ class MyModel(nn.Module): def __init__(self): super(MyModel, self).__init__() self.bert = pretrained_model # for param in self.bert.parameters(): # param.requires_grad = True self.l

浏览 5提问于2022-08-07得票数 3

回答已采纳

3回答

简单变压器模型的保存与加载

python、transformer、torch

我已经训练文本分类器使用simpleTranformer.ai，我正在努力保存和加载模型的码头集装箱。请让我知道如何保存培训的模型，然后顺利地加载到不同的环境。我正在使用这个库：https://simpletransformers.ai/来使用以下命令来训练文本模型 model = ClassificationModel('xlmroberta', 'xlm-roberta-base',use_cuda=cuda_available, num_labels=78, args={'learning_rate':1e-5, 'num_tra

浏览 0提问于2021-04-06得票数 1

1回答

使用PyTorch DistributedDataParallel在亚马逊SageMaker上拥抱脸

pytorch、amazon-sagemaker、huggingface-transformers、amz-sagemaker-distributed-training

即使是单实例培训，PyTorch DistributedDataParallel (DDP)通常也比PyTorch DataParallel (DP)推荐，因为DP的策略性能较差，并且在默认设备上使用更多的内存。(每单位) 拥抱脸可以通过python -m torch.distributed.launch启动器运行分布式培训，因为他们的训练器API支持DDP，但如果你不支持DDP，则会退回到DP。(每个) 我最近遇到了这个问题:将HF培训任务从p3.8xlarge扩展到更高级的p3.16xlarge，增加了(我认为)其中一个GPU的内存消耗，以至于我不得不大幅减少批处理大小，以避免数据自动化系

浏览 10提问于2022-09-08得票数 0

1回答

为什么在PyTorch中有两个不同的标志来禁用梯度计算

python、pytorch、autograd

我是PyTorch的中级学习者，在最近的一些案例中，我看到人们使用torch.inference_mode()而不是著名的torch.no_grad()来验证经过训练的agent在强化学习(RL)实验中的有效性。我检查了，它们有一个由两个标志组成的表，用于禁用梯度计算。老实说，如果我读到描述的话，对我来说听起来完全一样。有人找到解释了吗？

浏览 53提问于2022-10-25得票数 -1

2回答

如何在Tegra X2上使用TesnorFlow-GPU模型进行推理？

python、tensorflow、tegra、tensorrt、nvidia-jetson

我是Jetson x2董事会的新手。我计划在TX2板上运行我的tensorflow-gpu模型，看看它们在那里的表现如何。这些模型是在GTX GPU机上训练和测试的。在tx2板上，Jetpack full不包含tensorflow。因此，tensorflow需要构建/安装，我已经看过几个教程并尝试过。我的python文件train.py和test.py期望tensorflow-gpu。现在我怀疑，如果在tx2板上安装tensorflow-gpu是正确的选择吗？哦，在TX2上有Nvidia TX2，它将完成部分工作，但是怎么做呢？是这样吗？ tensorflow和tensorRT会合作取

浏览 2提问于2018-11-23得票数 1

回答已采纳

1回答

谷歌AI平台上的JupyterLab笔记本在进行预测时超低速

python-3.x、google-cloud-platform、tensorflow2.0、jupyter-lab、gcp-ai-platform-notebook

我已经上传了一个经过训练的tensorflow v2模型到谷歌AI平台上，以便对看不见的数据进行预测。这些数据以分片的形式存储在Google Cloud Storage中，每个分片大小为300 MB。我使用笔记本电脑对数据进行预处理，效果很好。当对预处理的数据进行预测时，它是有效的，但它是超低的，对于一个300MB的文件来说，大约需要90分钟。我得到了相当多这样的碎片，所以我必须找到一种方法来加快速度。我在cpu，RAM，甚至gpu方面尝试了不同的笔记本配置，但它在预测运行时没有什么不同。我是不是遗漏了什么？任何想法都是非常感谢的！

浏览 1提问于2019-11-19得票数 1

17回答

如何避免PyTorch中的“数据自动化系统内存不足”

python、deep-learning、pytorch、object-detection、low-memory

我认为对于内存较低的PyTorch用户来说，这是一个非常常见的消息： RuntimeError: CUDA out of memory. Tried to allocate MiB (GPU ; GiB total capacity; GiB already allocated; MiB free; cached) 我试图通过将每个层加载到GPU并将其加载回图像来处理图像： for m in self.children(): m.cuda() x = m(x) m.cpu() torch.cuda.empty_cache() 但它似乎不太有效。我想知道

浏览 16提问于2019-12-01得票数 106

回答已采纳

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

PyTorch:如何批量推理(并行推理)

相关·内容

毕道尔的并行方法和分布式方法是如何工作的？

nn.DataParallel -培训似乎还没有开始

使用pytorch-lightning进行简单预测的示例

在PyTorch训练之外使用多个GPU

在2020年，在一台计算机上的多个GPU上使用Pytorch训练模型的最佳方式是什么？

如何使用1个以上的GPU训练PyTorch迁移学习教程

pytorch的验证损失更快-RCNN

State_dict中的意外键：“模型”，“选择”

如何将一个存储桶一个目录下的所有文件拷贝到另一个存储桶的一个目录下？

为什么在Google Cloud ML上训练的TensorFlow模型比在本地训练的模型更准确？

利用腾讯云GPU构建深度学习网络？

Pytorch : GPU内存泄漏

无法加载我通过cannot笔记本部署的本地预培训模型。

如何用多个GPU训练电筒模型？

简单变压器模型的保存与加载

使用PyTorch DistributedDataParallel在亚马逊SageMaker上拥抱脸

为什么在PyTorch中有两个不同的标志来禁用梯度计算

如何在Tegra X2上使用TesnorFlow-GPU模型进行推理？

谷歌AI平台上的JupyterLab笔记本在进行预测时超低速

如何避免PyTorch中的“数据自动化系统内存不足”

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐