如何将一个数据集分成2个以上的随机样本

文章/答案/技术大牛

发布

26回答

如何使用pandas从一个数据帧创建测试和训练样本？

python、python-2.7、pandas、dataframe

我有一个相当大的dataframe形式的数据集，我想知道如何将dataframe分成两个随机样本(80%和20%)用于训练和测试。谢谢!

浏览 209提问于2014-06-11得票数 431

回答已采纳

1回答

python、random、scikit-learn、sampling、resampling

如果我有一个有1000行的数据集，那么将数据集分成5个随机样本的最佳方法是什么(即，每个样本将有200行)。我知道有像model_selection.train_test_split()和utils.resample()这样的函数，但这些函数只将数据集分成两个样本。我是否首先需要生成一个随机数列表，在这种情况下是1000个随机数的</em

浏览 51提问于2020-04-14得票数 0

回答已采纳

1回答

在学习中，火车测试拆分得分较高，CV得分较低

python、scikit-learn、virtual-machine、random-forest、cross-validation

我是数据科学的新手，一直在为Kaggle的问题而奋斗。用随机森林回归预测评分时，发现列车测试分割得分较高，而CV得分较低。

浏览 2提问于2020-07-05得票数 0

1回答

在SAS中，是否可以对另一个数据集中的地层进行分层随机抽样？

sas、sampling

我正在尝试比较属性分层不同的两个数据集。是否可以在一个数据集中进行分层随机采样，但使用另一个数据集的分层？为了说明这一点，我举了一个例子：现在我有了另一个数据集，数据

浏览 24提问于2020-05-28得票数 0

回答已采纳

1回答

根据R中的邮政编码等分行创建两个数据集

r、random、dplyr、tidyverse、purrr

我有一个包含客户代码、客户名称和邮政编码的数据集。数据集有149130行。我希望将其平分为两个数据集(每个数据集为74565行)，并在excel中导出。但是，我想确保如果一个邮政编码有两个客户，一个是dataset1，另一个是dataset2。剩下的可以是随机选择的客户。我是新手，尝试过各种训练/测试和样本代码--但是

浏览 7提问于2020-05-06得票数 0

回答已采纳

1回答

最终模型拟合-子集与整个训练数据

classification、hyperparameter-tuning、hyperparameter

如果我将整个可用培训数据的子集用于模型优化和超级参数选择，那么是否应该将最终模型与子集培训数据集或整个可用的培训数据相匹配？例如，如果我有1万个可用的样本，并且我将一个100 K的随机样本作为测试保留，而200 K的随机样本作为模型调优的训练数据集，那么用于在1) 200 K训练数据集上拟合最

浏览 0提问于2020-06-24得票数 0

回答已采纳

1回答

如何利用Rstudio中的面板数据制作分层随机样本？

r、sampling、panel-data

我想做一个分层随机样本的面板数据。该怎么做呢？如何制作40个州的分层随机样本？如何使size=40状态的随机样本成为一个随机样本？我试过用这个： samp1=strata(Guns, ("levels(Guns$state)

浏览 3提问于2021-02-12得票数 0

1回答

Pyspark:采用平衡类的n个样本

pyspark

我有一个相当大的数据集，大约有5bil。记录。我想从其中随机抽取1mio的样本。问题是标签不平衡。| 768866802||C | 584150833|标签B比其他标签有更多的数据我知道有一个向上和向下采样的概念，但是考虑到大量的数据，我可能不需要这样做，因为我可以很容易地从每个标签中找到1

浏览 2提问于2020-10-04得票数 0

1回答

如果数据是非平稳的，如何将数据分成培训、验证、测试数据集？

machine-learning、time-series、dataset、data

当将数据分成训练、验证、测试数据集到机器学习模型时，理想的情况是数据是平稳的。然而，在现实世界中，一些数据是非平稳的.例如，金融时间序列数据是非平稳的.那么，对于这种非平稳数据，您如何将数据分成培训、验证、测试数据集？

浏览 0提问于2020-12-18得票数 1

1回答

如何每次从数据集中抽取相同的随机样本

r、random、random-seed

我有一个由近700万个观测数据组成的数据集，我想要随机抽取数据样本来分析一个子集。我知道如何对数据进行随机抽样：flights <- flight[index, ] 是否有一种方法来获取一个随机样本，但一旦在我的数据集中创建，总是给我相同的随机样本？我希望这样做，而不必

浏览 0提问于2015-06-07得票数 3

回答已采纳

3回答

JSON数据转换为数据集

javascript、arrays、json、loops、object

, }, { "color": "orange"} "value": "32",}, {

浏览 9提问于2014-11-28得票数 2

回答已采纳

1回答

Maxent中具有更多折叠的K-折叠交叉验证

cross-validation、maxent

您好，我正在使用MacMac3.4.0版本的Maxent软件，我想了解一个关于k-折交叉验证的问题。基本上，我知道我的数据集被分成k个折叠，每个折叠或多或少都有相同的大小。因此，如果我的数据集有100个观察值，10次交叉验证将把数据集分成10个观察值，Maxent将训练10个模型，每个模型有9个观察值，第10个模型将对其进行测试。我的<

浏览 60提问于2020-12-07得票数 1

1回答

将虹膜数据集分成批次并通过历元进行训练

tensorflow、epoch、training-data

我看到了一个如何将MNIST数据集拆分成批处理并在几个时期内训练它们的示例。我想对IRIS数据集做同样的事情，但我不知道如何在python中(或通过tensorflow库)将IRIS拆分成批处理。

浏览 0提问于2018-07-19得票数 0

5回答

在二进制分类中，是否应该平衡测试数据集？

machine-learning、classification、class-imbalance

我有一个数据集，有4519个样本标记为"1"，18921个样本标记为"0“，在二进制分类练习中。我很清楚，在分类算法的训练阶段(在这种情况下，是随机森林)，应该平衡0/1样本的数量，以防止算法偏向大多数类。但是，测试数据集是否也应该是平衡的？换句话说，如果用"0“类的1000个随机样本和"1”类的1000个随机样本来训练

浏览 0提问于2018-11-29得票数 8

回答已采纳

2回答

根据R中的每一步，从不同长度的行/值列表中随机抽取一行

r、random、replace、sample

我有一个列表，其中每一行都是几个物种的不同寄存器(可能会在列表中重复)。这些物种中的每一个都属于给定的数据库(在同一数据集中没有重复的物种)。我需要随机抽样不同的寄存器(行)，但是我希望样本的数量随“步骤”的数目而改变。步骤1：1个随机样本(行)，步骤2：来自不同数据集的2

浏览 4提问于2022-08-30得票数 0

回答已采纳

1回答

在SciPy中从fit PDF生成随机样本(Python)

python、scipy、statistics

给出一个使用scipy.stats的数据集的合适分布，如下所示： data = fetch_data(file)fit_pdf = scipy.stats.norm.pdf(x, param[0], param[1]) 从该拟合数据生成N=1000随机样本的最佳方法是什么？在给定PDF中任意数组的值<e

浏览 15提问于2019-12-12得票数 3

回答已采纳

1回答

将图像数组和标签数据帧拆分为训练集、测试集和验证集

keras、computer-vision、conv-neural-network、tensor

我有一个形状为(30000,128,128,3)的图像数组(从npy文件加载)和一个形状为(30000，1)的标签数据框。如何将这些数据分成训练集、测试集和验证集，以便继续构建CNN模型？

浏览 21提问于2021-09-17得票数 0

回答已采纳

1回答

getitem()在PyTorch数据集中能返回随机样本吗？

pytorch

__getitem()__在PyTorch Dataset中是否被限制为始终返回相同索引的相同示例？例如，我认为样本可能会被一些下游任务缓存，所以我不愿意这样做，但这实际上不是一个问题吗？(上下文:这是一个蒙面语言建模任务，在那里，我想要对每个句子进行一次划时代的覆盖，每个句子都有随机的掩码。下一个时代将有不同的掩码--所以在数据集中的同一个索引上。

浏览 0提问于2023-02-14得票数 0

1回答

R Studio查询定义

rstudio

train.indices <- sample(1:nrow(iris), 100)是做什么的？谢谢。

浏览 0提问于2020-01-04得票数 0

2回答

火花DataFrame/DataSet分页或一次迭代N行的块

scala、apache-spark、apache-spark-sql

我需要为我的数据集实现分页(在星火scala中)。请如何将火花数据集/数据集拆分为N个行号？ -NS

浏览 0提问于2018-10-02得票数 2

回答已采纳

点击加载更多

如何使用pandas从一个数据帧创建测试和训练样本？