文章/答案/技术大牛

发布

社区首页 >问答首页 >cifar10随机化训练和测试集

问cifar10随机化训练和测试集
EN

Stack Overflow用户

提问于 2018-12-12 03:33:58

回答 2查看 2.3K关注 0票数 1

我想对keras.datasets库中存在的CIFAR-10数据集的60000个观察值进行随机化。我知道对于构建神经网络来说，它可能不是那么重要，但我是Python新手，我想学习用这种编程语言处理数据。

因此，要导入数据集，我运行以下命令

from keras.datasets import cifar10
(X_train, Y_train), (X_test, Y_test) = cifar10.load_data()

这会自动给出训练集和测试集的默认细分；但我想混合它们。我想到的步骤是：

将训练集和测试集连接在形状为(60000，32，32，3)的数据集X和数据集Y中(60000，1)
生成一些随机指标来子集X和Y数据集，例如，50000个of的训练集和10000个of的测试集
创建具有与原始形状相同的形状的新数据集(以ndarray格式) X_train，X_test，Y_train，Y_test，以便我可以开始训练卷积神经网络

但也许有一种更快的方法可以做到这一点。

我尝试了几个小时的不同方法，但我什么也没能做到。有人能帮帮我吗？我真的很感激，谢谢。

python

numpy

random

keras

numpy-ndarray

Stack Overflow用户

回答已采纳

发布于 2018-12-12 05:31:01

您可以使用sklearn.model_selection.train_test_split拆分数据。如果您想在每次运行代码时使用相同的随机化索引选择，则可以设置random_state值，这样每次都会有相同的测试/训练拆分。

from keras.datasets import cifar10
(X_train, Y_train), (X_test, Y_test) = cifar10.load_data()

# View first image
import matplotlib.pyplot as plt
plt.imshow(X_train[0])
plt.show()

import numpy as np
from sklearn.model_selection import train_test_split

# Concatenate train and test images
X = np.concatenate((X_train,X_test))
y = np.concatenate((Y_train,Y_test))

# Check shape
print(X.shape) # (60000, 32, 32, 3)

# Split data
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=10000, random_state=1234)

# Check shape
print(X_train.shape) # (50000, 32, 32, 3)

# View first image
plt.imshow(X_train[0])
plt.show()

票数 2

查看全部 2 条回答

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/53731141

复制

相似问题

问cifar10随机化训练和测试集
EN

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问cifar10随机化训练和测试集EN

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问cifar10随机化训练和测试集
EN