PyTorch DataLoader如何与PyTorch数据集交互以转换批处理？_如何拆分和加载不适合内存的大型数据集到pytorch Dataloader？_PyTorch -如何使用平均2d池作为数据集转换？ - 腾讯云开发者社区

、、

我感兴趣的是如何将转换应用到由PyTorch DataLoader类生成的批处理中。我的最小例子是这样的： class CustomLoader(torch.utils.data.DataLoader): def __iter__(self): result = super().__iter__() return some_function(result) 但是这个错误，因为DataLoader.__iter()__返回_MultiProcessingDataLoaderIter或_SingleProcessingDataLoaderIter。奇怪的是，

浏览 8提问于2022-04-04得票数 0

2回答

什么时候把火把张量放在GPU上？

、、

我正在尝试用pytorch在GPU上运行神经网络，我的数据有一些不寻常的形状，所以我使用Dataset和DataLoader来生成数据批处理。我的代码在CPU上运行得很好，但我对什么时候将数据放在GPU上有点困惑： I的数据大小足够小，可以全部放在GPU上，应该在拟合之前将所有数据放在GPU上，这样所有的DataLoader和Dataset操作都只能在GPU上进行，以获得最佳的执行速度？还有一种可能性是将所有数据保留在CPU上，当数据大小变大时可以使用。在这种情况下，我是否应该为从DataLoader?Should生成的每一批数据调用batch.to("cuda") --在培训

浏览 4提问于2021-10-12得票数 1

1回答

PyTorch -没有子文件夹加载图像

、、

首先，我想说我是PyTorch的新手，所以如果我的问题水平不是很高的话，我很抱歉。我想知道你能不能帮我点什么(实际上我有两个问题)。他们背后的故事:我正在研究图像分类。我的测试数据根据它们的标签被分成子文件夹，我通过DataLoader加载它们。第一个问题: 1)如果你训练过你的模型有特定的批量大小，用其他尺寸测试它会影响准确性吗? 2)是否有一种方法来加载和使用测试数据位于一个文件夹中(没有子文件夹)。据我所知，DataLoader需要子文件夹。提前谢谢你！

浏览 0提问于2018-12-09得票数 1

回答已采纳

2回答

无法遍历PyTorch MNIST数据集

、

我正在尝试在Pytorch中加载MNIST数据集，并使用内置的dataloader来迭代训练示例。然而，在迭代器上调用next()时，我得到了一个错误。我对CIFAR10没有这个问题。 import torch import torchvision import torchvision.transforms as transforms transform = transforms.Compose( [transforms.ToTensor(), transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))]) batch_s

浏览 47提问于2019-07-21得票数 1

回答已采纳

1回答

从“`ConcatDataset`”创建的“`DataLoader`”是从不同的文件创建批处理，还是从单个文件创建批处理？

我正在处理多个文件，以及每个文件中的多个培训样本。我将使用ConcatDataset，如下所述：除了我的真实样本之外，我还需要有阴性样本，并且我需要从所有的训练数据文件中随机选择我的阴性样本。因此，我想知道，返回的批处理示例是来自单个文件的随机连续夹子，还是跨所有数据文件的多个随机索引的批处理范围？如果需要更多的细节来说明我到底想要做什么，那是因为我正试图通过一个TPU来训练Pytorch XLA。通常，对于阴性样本，我只需要使用第二个DataSet和DataLoader，但是，我试图使用Pytorch (alpha是几天前发布的 )在TPUs上进行培训，要做到这一点，我需要将自己的D

浏览 2提问于2019-10-13得票数 2

回答已采纳

2回答

Pytorch DataLoader更改dict返回值

、、、、

给定这样读取JSON文件的Pytorch数据集： import csv from torch.utils.data import IterableDataset from torch.utils.data import DataLoader2, DataLoader class MyDataset(IterableDataset): def __init__(self, jsonfilename): self.filename = jsonfilename def __iter__(self): with open(self.filenam

浏览 18提问于2022-09-23得票数 1

回答已采纳

1回答

MNIST、torchvision中的输出和广播形状不匹配

、、、

在Torchvision中使用MNIST数据集时出现以下错误 RuntimeError: output with shape [1, 28, 28] doesn't match the broadcast shape [3, 28, 28] 下面是我的代码： import torch from torchvision import datasets, transforms transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0

浏览 205提问于2019-03-12得票数 11

回答已采纳

2回答

在PyTorch中使用DataLoaders验证数据集

、

我想在PyTorch和Torchvision中加载MNIST数据集，将其划分为列车、验证和测试部分。到目前为止，我已经： def load_dataset(): train_loader = torch.utils.data.DataLoader( torchvision.datasets.MNIST( '/data/', train=True, download=True, transform=torchvision.transforms.Compose([ torchvi

浏览 3提问于2020-09-27得票数 7

回答已采纳

2回答

在PyTorch中实施培训

、、、、

我希望在PyTorch完成以下任务- 我有COCO数据集，其中每个数据样本都用于培训YOLO v3。经过模型处理后，如果样本满足某一条件，将被删除。因此，数据样本不再用于进一步的历代训练。我现在有两个关于执行的问题- 1)我如何单独处理每个样本？我是否通过设置批处理大小= 1来进行此操作？或者禁用自动批处理有什么好处。如果是的话，我该怎么做。 2)如何从dataset中准确地删除样本，以便进行进一步的划时代工作。有没有办法在DataLoader中跳过这个示例？

浏览 0提问于2020-05-26得票数 1

2回答

如何确保一个批处理包含来自所有使用PyTorch的DataLoader的工作人员的样本？

、

我想知道如何在PyTorch中使用torch.utils.data.DataLoader，特别是在多工作者的情况下。我发现DataLoader的一个批处理输出总是来自一个worker。我期望在DataLoader中有一个队列来存储来自所有工作者的数据，并且DataLoader在队列中打乱它们以输出随机的批处理数据。我认为这就是Tensorflow中tf.data.Dataset的方式。我们可以在PyTorch中实现类似的功能吗？我想使用多个工作进程从大型序列化文件(如Tfrecord)加载数据集。在这种情况下，将源文件混合在一个批处理中是很重要的，这意味着混合工作进程的源文件。请参考以下代

浏览 4提问于2019-08-30得票数 5

1回答

为什么PyTorch创建另一个数据复制TorchData

、、、、

为什么PyTorch为类似的/新的Dataset和DataLoader创建另一个名为TorchData的repro，而不是将它们添加到现有的PyTorch repro中？Dataset和Datapipe有什么区别？谢谢。

浏览 11提问于2022-05-10得票数 0

2回答

PyTorch DataLoader如何与PyTorch数据集交互以转换批处理？

、、

我正在为与NLP相关的任务创建一个自定义数据集。在PyTorch中自定义数据广播tutorial，我们可以看到__getitem__()方法在返回样本之前为转换留出空间： def __getitem__(self, idx): if torch.is_tensor(idx): idx = idx.tolist() img_name = os.path.join(self.root_dir, self.landmarks_frame.iloc[idx, 0])

浏览 46提问于2021-02-25得票数 6

回答已采纳

1回答

如何知道传递到GPU的数据是否会导致CUDA内存不足

、、、

我正在使用GPU运行一些非常大的深度学习模型，当我选择批处理大小为8的时候，它可以放入内存中，但如果我使用批处理大小为16，它将导致CUDA内存不足错误，我必须杀死进程。我的问题是，在真正将数据传递到GPU之前，有没有一种方法可以让我知道GPU中的数据量有多大？例如，下面的代码是关于我如何创建pytorch数据加载器并将每批数据加载器传递到GPU，在我调用batch.to(device)之前，我能知道它有多大吗？ train_dataloader = DataLoader(train_data, sampler=train_sampler, batch_size=batch_size)

浏览 31提问于2020-08-17得票数 2

2回答

如何测试Pytorch中的自定义数据集？

、

我一直在跟读Pytorch中的教程，这些教程使用Pytorch的数据集，允许您启用是否愿意使用这些数据进行培训.但是现在我使用的是.csv和自定义数据集。 class MyDataset(Dataset): def __init__(self, root, n_inp): self.df = pd.read_csv(root) self.data = self.df.to_numpy() self.x , self.y = (torch.from_numpy(self.data[:,:n_inp]),

浏览 2提问于2021-04-27得票数 1

回答已采纳

1回答

ValueError:使用手电筒张量时要解压缩的值太多

、、、、

对于一个关于神经网络的项目，我正在使用Pytorch并使用EMNIST数据集。已在数据集中加载的代码： train_dataset = dsets.MNIST(root='./data', train=True, transform=transforms.ToTensor(), download=True) 并对其进行准备： train_loader = torch.utils.data.DataLoad

浏览 24提问于2020-06-16得票数 2

回答已采纳

1回答

用于可变尺寸输入的小型批量培训

、、、、

我有一个LongTensors列表和另一个标签列表。我是PyTorch和RNN的新手，所以我很困惑如何为我拥有的数据实现小型批量培训。有更多的这些数据，但我想保持简单，所以我只能理解如何实现小批量培训部分。我正在进行多类分类，基于LSTM/GRU在可变长度输入上训练的最终隐藏状态。我设法使它与批处理大小1(基本上是SGD)工作，但我正在努力实现小型批。我是否必须将序列压缩到最大大小，并创建一个包含所有元素的更大尺寸的新张量矩阵？我是说像这样： inputs = pad(sequences) train = DataLoader(inputs, batch_size=batch_size, s

浏览 3提问于2018-02-14得票数 7

回答已采纳

1回答

default_collate参数与to(设备)一起使用

、、、

我一直试图将to (设备)集成到我的数据服务器中，如中所示我在FashionMNIST上定义它的方式如下： device = torch.device('cuda:0' if torch.cuda.is_available() else 'cpu') batch_size = 32 trainset = datasets.FashionMNIST('~/.pytorch/F_MNIST_data/', download=True,

浏览 0提问于2020-09-10得票数 1

3回答

“DataLoader”对象不支持索引

、、、

我已经通过这个pytorch api通过设置download=True下载了ImageNet数据集。但我不能遍历数据加载器。错误显示"'DataLoader‘对象不支持索引“ trainset = torch.utils.data.DataLoader( datasets.ImageNet('/media/farshid/DataStore/temp/Imagenet/', split='train', download=False)) trainloader = torch.utils.da

浏览 3提问于2019-07-01得票数 3

回答已采纳

2回答

Tensorflow 2.0数据集和数据处理机

、、

我是一个pytorch用户，并且我已经习惯了pytorch中的data.dataset和data.dataloader api。我正在尝试用tensorflow 2.0构建一个相同的模型，我想知道是否有一个api与pytorch中的这些api类似。如果没有这样的api，您能告诉我人们通常是如何在tensorflow中实现数据加载部分的吗？我使用过tensorflow 1，但从未体验过dataset api。我以前做过硬编码。我希望有一些类似于重写getitem的内容，其中只使用索引作为输入。提前谢谢。

浏览 4提问于2019-10-22得票数 18

回答已采纳

1回答

在pytorch中加载自定义数据集

、、

通常情况下，当我们在pytorch中加载数据时，我们会执行以下操作 for x, y in dataloaders: # Do something 然而，在这个名为的数据集中，他们声明了自己的数据集和数据中心，如下所示 train_set = musicnet.MusicNet(root=root, train=True, download=True, window=window)#, pitch_shift=5, jitter=.1) test_set = musicnet.MusicNet(root=root, train=False, window=window, epoch_s

浏览 0提问于2019-05-21得票数 1

回答已采纳

1回答

如何调整数据加载器并制作新的数据加载器？

、、

假设我有一个cifar10的数据加载器如果我想从dataloader中删除一些值并创建一个新的dataloader 我怎么发动汽车呢？ def load_data_cifar10(batch_size=128,test=False): if not test: train_dset = torchvision.datasets.CIFAR10(root='/mnt/3CE35B99003D727B/input/pytorch/data', train=True,

浏览 3提问于2019-12-19得票数 1

2回答

理解PyTorch DataLoader工作者的内存使用情况

、、、、

当使用num_workers=32 for DataLoader运行num_workers=32培训程序时，htop显示33个python进程，每个进程包含32 GB的VIRT和15 GB的RES。这是否意味着PyTorch培训使用的是33个进程X15GB= 495 GB内存？htop显示只有大约50 GB的RAM和20 GB的交换空间正在整个拥有128 GB内存的机器上使用。那么，我们该如何解释这种差异呢？是否有更准确的方法来计算主PyTorch程序及其所有子DataLoader工作进程所使用的内存总量？谢谢

浏览 5提问于2020-08-21得票数 19

3回答

无法切片火炬视觉MNIST数据集

、、、

在Pytorch中，当使用torchvision的MNIST数据集时，我们可以得到如下数字： from torchvision import datasets, transforms from torch.utils.data import DataLoader, Dataset, TensorDataset tsfm = transforms.Compose([transforms.Resize((16, 16)), transforms.ToTensor(), transforms

浏览 1提问于2019-01-18得票数 7

1回答

如何沿着一个单支火枪张量的维数连接？

、、

我编写了一个自定义的pytorch Dataset，__getitem__()函数返回一个形状为(250, 150)的张量，然后使用DataLoader生成一批批大小为10的数据。我的意思是在维数为0将这10个张量连在一起时，生成一个带有形状(2500, 150)的批处理，但是DataLoader的输出具有形状(10, 250, 150)。如何将DataLoader的输出转换为(2500, 150)形状作为维度0的级联？

浏览 1提问于2021-10-12得票数 0

回答已采纳

2回答

如何用火把DataLoader接收两条信号(数据和标签)？

我有一个训练数据的特点，在形状的ndarray ( 100,400，3)，因为它是100图像的20x20与RGB通道和标签的形状(100，)。我是否需要将它们合并到一个数据集中，或者如何将其传递给Pytorch dataLoader，以便在以后迭代图像和标签？到目前为止我尝试过的 #turn ndarray of features and labels into tensors transform = transforms.Compose([transforms.ToPILImage(), transforms.ToTensor

浏览 0提问于2019-09-16得票数 2

回答已采纳

2回答

如何从吡咯烷酮DataLoader中获得特定样本？

在Pytorch中，是否有任何方法使用torch.utils.data.DataLoader类加载特定的单个示例？我想用它做些测试。使用 trainloader = torch.utils.data.DataLoader(...) images, labels = next(iter(trainloader)) 去取一批随机样本。是否有方法，使用DataLoader，获得一个特定的样本？干杯

浏览 0提问于2020-07-06得票数 5

回答已采纳

2回答

PyTorch数据集/ Dataloader批处理

、、

对于在时间序列数据上实现PyTorch数据管道的“最佳实践”，我有点困惑。我有一个HD5文件，我使用自定义DataLoader读取该文件。似乎我应该以(特性，目标)元组的形式返回数据样本，每个in (L，C)的形状是L是seq_len，C是通道的数目--也就是说，在数据加载器中不要预置批处理，只需要作为表返回。 PyTorch模块似乎需要批处理dim，即Conv1D期望(N，C，L)。我的印象是，DataLoader类将在批处理维度中占优势，但它不是，我得到的是数据形状(N，L)。 dataset = HD5Dataset(args.dataset) dataloader = DataL

浏览 5提问于2020-06-19得票数 2

1回答

使用PyTorch手动拆分和分发用于分布式计算的大型张量

、、、

AFAIK，使用Pytorch进行分布式训练(多模式)的最简单方法如下： sampler = torch.utils.data.distributed.DistributedSampler(train_data) data_loader = torch.utils.data.DataLoader(dataset, sampler=sampler) model = torch.nn.DataParallel(model).cuda() for data, target in data_loader: out = model(data) ... 但是，如果我手头已经有一个很大的张

浏览 1提问于2019-11-10得票数 1

2回答

火把数据机的例子或解释？

、、

我是个新手，还从来没有做过高级编码。我正在尝试学习使用d2l.ai教科书进行深入学习的基础知识，但在理解数据采集器代码背后的逻辑方面遇到了困难。我阅读了，不知道DataLoader类的含义是什么，例如，当我应该结合使用torch.utils.data.TensorDataset类时。例如，d2l定义了一个函数： def load_array(data_arrays, batch_size, is_train=True): """Construct a PyTorch data iterator.""" dataset = data

浏览 1提问于2020-12-04得票数 3

回答已采纳

1回答

PyTorch:动态计算图-填充- DataLoader之间的关系

、、、

据我所知，PyTorch的优点应该是它与动态计算图一起工作。在NLP上下文中，这意味着可变长度的序列不一定需要填充到相同的长度。但是，如果我想使用PyTorch DataLoader，我仍然需要填充我的序列，因为DataLoader只使用张量--因为作为一个完全初学者，我不想构建一些定制的collate_fn。这让我不禁纳闷--在这种背景下，动态计算图的全部优势难道没有被冲走吗？另外，如果我把我的序列作为张量输入到DataLoader中，在结束时多个零作为填充标记(在单词if的情况下)，它会不会对我的训练产生任何负面影响，因为PyTorch可能不会为填充序列的计算进行优化(因为总的前提是它可

浏览 10提问于2018-01-13得票数 4

回答已采纳

2回答

按顺序组合多个DataLoaders

、、、

我感兴趣的是如何按照顺序组合多个DataLoader来进行培训。我知道我可以首先使用ConcatDataset组合数据集，但这并不适用于我的用例。我有一个自定义的collate_fn，它被传递给每个数据中心，这个函数依赖于底层Dataset的一个属性。因此，我将有一组定制的DataLoader，如下所示： def custom_collate(sample, ref): data = clean_sample(torch.stack([x[0] for x in sample]), ref) labels = torch.tensor([x[1] for x in sample

浏览 24提问于2022-04-06得票数 0

2回答

PyTorch数据集应该返回什么？

、

我试图让PyTorch与DataLoader一起工作，据说这是处理迷你批处理的最简单方法，在某些情况下，这是最佳性能所必需的。 DataLoader需要一个数据集作为输入。 Dataset上的大多数文档假设您正在处理现成的标准数据集，例如MNIST，或者至少使用图像，并且可以使用现有的机器作为黑匣子。我在处理非图像数据，我是自己生成的。我目前最好的尝试是，从最小的测试用例中提取关于如何做到这一点的文档： import torch from torch import nn from torch.utils.data import Dataset, DataLoader class Datas

浏览 19提问于2022-07-05得票数 2

回答已采纳

1回答

条件GAN -shuffle/拆分两个相同的数据集

、、

我正在尝试使用训练DCGAN来给一些图像上色。在这样做的时候，我会根据图像的灰度版本来调整GAN。然后我想先用一批真实图像训练我的GAN/鉴别器，然后用一批假图像训练。每隔一段时间，我就会比较彩色的、灰度的和真实的图像。因此，我需要以相同的方式拆分真实/灰色图像的批次。我使用pytorch。查看我所包含的代码，这些代码应该给出相同的批处理。然而，他们并没有。我试过在没有worker_init_fn的情况下。我还尝试了不同的随机函数调用，并将它们传递给worker_init_fn，但都没有效果。 dataloader = torch.utils.data.DataLoader(dataset,

浏览 6提问于2019-04-22得票数 1

1回答

使用Pytorch显示每个类的图像数

、、

我使用Pytorch和FashionMNIST数据集，我想显示10个类中的每个类的8个图像样本。但是，我不知道如何将训练测试分成train_labels，因为我需要循环每个类的标签(类)并打印8个。知道我怎么能做到这一点吗？ classes = ('T-shirt/top', 'Trouser', 'Pullover', 'Dress', 'Coat', 'Sandal', 'Shirt', 'Sneaker', 'Bag', 'Ankle b

浏览 1提问于2021-01-01得票数 0

回答已采纳

1回答

DistilBERT，少于512个令牌，Colab崩溃

、、、、

我遵循这个指南，我的文本观察平均包含少于250-300个单词，所以我在任何文本行中都没有512个标记。但类似于这个问题：我必须将max_length限制在100以下，因为否则Google就会崩溃。我看到了其他应用基于伯特的变压器和使用Pytorch DataLoader批量加载数据的例子，但在本例中无法找到实现它的方法。

浏览 2提问于2022-02-28得票数 0

1回答

毕火炬:数据处理机是如何从数据集中得到一批数据的？

、、

我试着用比目鱼来实现自我监督的对比学习。有一种现象我无法理解。下面是我从原始数据中获得两个增广视图的转换代码： class ContrastiveTransformations: def __init__(self, base_transforms, n_views=2): self.base_transforms = base_transforms self.n_views = n_views def __call__(self, x): return [self.base_transforms(x) for i in range(sel

浏览 4提问于2022-06-20得票数 1

回答已采纳

1回答

PyTotch CIFAR-10与Kaggle CIFAR-10 :完全不同的结果在CIFAR-10上完全相同的架构

、、、、

我学PyTorch已经好几个星期了。当我使用CIFAR-10来自PyTorch数据集的数据集时，我还考虑使用ImageFolder类，所以我找到了一个来自卡格尔的Cifar-10版本，其中的图像是折叠的。(我不记得PyTorch数据集是tar.gz格式的，而不是文件夹结构的) 令我惊讶的是，尽管使用了相同的损失函数、学习速度和体系结构，的Kaggle数据集测试集的精度从0.18开始，而PyTorch数据集的精度从时代1.的0.56开始。在经历了20个年代之后，其中一个几乎饱和在0.45附近，而后者则几乎固定在0.86附近。我检查了一遍又一遍，但没有发现这两种密码有什么大的区别。我真的很想知

浏览 2提问于2020-12-01得票数 1

6回答

从PyTorch DataLoader获取单个随机示例

、

如何从PyTorch 中获得一个随机示例如果我的DataLoader给出了一小批多个图像和标签，我如何获得一个随机图像和标签？请注意，我不想要一个图像和标签每小批，我想要一个总共一个例子。

浏览 2提问于2018-12-01得票数 22

回答已采纳

1回答

DataLoader使用pytorch创建数据集

、

我有一个包含子文件夹(类)的文件夹，每个子文件夹中都有图像。 <code>A0</code> 我的目标是创建一个数据集(训练+测试集)来使用pytorch resnet训练我的模型。我有一个错误，我不知道如何解决它，因为我不是真正理解DataLoader的结构，所以我尝试这样做：我有这个： <code>A1</code> 但是当我尝试运行我的模型时，我遇到了这个错误： <code>A2</code> 有什么建议吗？是否检测到错误？

浏览 26提问于2020-08-05得票数 0

回答已采纳

3回答

Pytorch自定义数据加载器

、、

我正在尝试用MNIST数据集来训练一个分类器，使用的是pytorch-MNIST。 import pytorch_lightning as pl from torchvision import transforms from torchvision.datasets import MNIST, SVHN from torch.utils.data import DataLoader, random_split class MNISTData(pl.LightningDataModule): def __init__(self, data_dir='./', bat

浏览 9提问于2021-09-14得票数 0

3回答

当示例数量不能完全除以批量大小时，Pytorch DataLoader会失败

我在pytorch中编写了一个自定义数据加载器类。但当迭代一个时期内的所有批处理数时，它会失败。例如，假设我有100个数据示例，我的批处理大小是9。它将在第10次迭代中失败，因为批处理大小不同，这将给出一个批处理大小为1而不是10。我已经将我的自定义数据加载器放在下面。此外，我还将如何从加载程序中提取数据放在for循环中。 class FlatDirectoryAudioDataset(tdata.Dataset): #customized dataloader def __init__(self, data_dir, transform=None): self.da

浏览 1提问于2019-06-13得票数 10

回答已采纳

1回答

PyTorch:如何批量推理(并行推理)

如何在PyTorch中进行批量推理？如何并行推理来加速那部分代码。我从进行推理的标准方法开始： with torch.no_grad(): for inputs, labels in dataloader['predict']: inputs = inputs.to(device) output = model(inputs) output = output.to(device) 我研究过，唯一提到并行推理(在同一台机器上)的似乎是Dask库：https://examples.dask.org/machine-lear

浏览 727提问于2020-08-27得票数 1

回答已采纳

2回答

如何修复pytorch的快速入门教程中的错误？

、、

我正在尝试学习pytorch 的教程，但似乎有一个问题。我已经创建了一个名为training_data的自定义数据加载器，它根据需要返回一个对象，这是一个字典 {"image": image, "label": label} 其中image是张量，label是字符串。然后，我按照教程创建一个DataLoader，如下所示： train_dataloader = DataLoader(training_data, batch_size=batch_size) 并在train方法中使用该DataLoader def train(dataloader, model,

浏览 23提问于2021-05-22得票数 2

2回答

使用自定义py呼救数据集的高效小批处理循环编码模式

是否有任何通用建议来有效地处理自定义数据集中的数据，以便它能够很好地处理小型批处理eval/train循环？为了更具体地说明我的意思，假设我定义了这个合成玩具数据集，它将x映射到x+1： import torch.utils.data as data class Dataset(data.Dataset): def __init__(self): super(Dataset, self).__init__() # list of [x, y] self.dataset = [ [1, 2],

浏览 1提问于2018-01-24得票数 0

2回答

如何使用PyTorch从本地目录导入MNIST数据集

、、、

我正在用PyTorch编写一个著名问题PyTorch的代码.我下载了培训和测试数据集(从主要网站)，包括标记的数据集。数据集格式为t10k-images-idx3-ubyte.gz和提取后的t10k-images-idx3-ubyte。我的dataset文件夹看起来像 MINST Data train-images-idx3-ubyte.gz train-labels-idx1-ubyte.gz t10k-images-idx3-ubyte.gz t10k-labels-idx1-ubyte.gz 现在，我编写了一个代码来加载数据，如 def load_dataset():

浏览 3提问于2020-09-26得票数 1

回答已采纳

3回答

如何在PyTorch中从dataloader中获取整个数据集

、、

如何从DataLoader加载整个数据集？我只得到了一批数据集。这是我的代码 dataloader = torch.utils.data.DataLoader(dataset=dataset, batch_size=64) images, labels = next(iter(dataloader))

浏览 0提问于2019-08-07得票数 5

1回答

在Pytorch中创建HDF5文件的数据集和数据加载器时出现问题:解压的值不足(预期为2，实际为1)

、、、、

在使用了Torchvision中的数据集之后，我尝试在Pytorch中加载一个HDF5文件，但没有成功。我读到我应该定义我自己的dataset和Dataloader类，其中包含getitem来启用索引，len来返回数据集的长度。另外，我应该定义转换，因为pytorch的默认选项需要PIL图像。我试着这样做，但我得到了错误"ValueError:没有足够的值来解包(预期2，得到1)“我做错了什么？ <code>A0</code>

浏览 32提问于2019-12-05得票数 1

1回答

如何将“collate_fn”与数据表结合使用？

、、、

我试图训练一个预先训练的罗伯塔模型，使用3个输入，3个input_masks和一个标签作为我的训练数据集的张量。我使用以下代码执行此操作： from torch.utils.data import TensorDataset, DataLoader, RandomSampler, SequentialSampler batch_size = 32 # Create the DataLoader for our training set. train_data = TensorDataset(train_AT, train_BT, train_CT, train_maskAT, train_m

浏览 1提问于2020-12-13得票数 22

回答已采纳

3回答

将多类图像分类简化为二值分类

、、、、

我正在处理一个stl-10图像数据集，它包含10个不同的类。我想把这个多类图像分类问题归结为二值类图像分类，如1类Vs rest。我正在使用PyTorch torchvision下载和使用stl数据，但是我无法像一个人和其他人一样做到这一点。 train_data=torchvision.datasets.STL10(root='data',split='train',transform=data_transforms['train'], download=True) test_data=torchvision.datasets.STL10(ro

浏览 8提问于2022-04-15得票数 0

1回答

为什么直接使用图片数据集和pytorch自己的数据集精度差异这么大？

、、、

例如，对于cifar10数据集，直接使用pytorch自带的数据集，在相同的网络结构下，准确率可以达到96%，但我将cifar10转换成图片后，我对其进行了测试，准确率仅为92%。为什么？这是前面的代码： train_dataset = dset.CIFAR10(args.data_path, train=True, transform=train_transform, download=True) test_dataset = dset.CIFAR10(args.data_path, train=False, transform=test_transform, download=True

浏览 26提问于2020-08-11得票数 1