从PySpark中理解MLlib的拆分功能

MLlib是Apache Spark中的机器学习库，它提供了丰富的机器学习算法和工具，可以用于大规模数据集的分布式机器学习任务。MLlib中的拆分功能是指将数据集划分为训练集、验证集和测试集的过程。

拆分功能的主要目的是为了评估机器学习模型的性能和泛化能力。常见的拆分方式有随机拆分和分层拆分。

随机拆分是将数据集随机划分为训练集、验证集和测试集。通常，训练集用于模型的训练和参数调优，验证集用于模型的选择和调优，测试集用于评估最终模型的性能。随机拆分的优势是简单快速，适用于大多数情况。

分层拆分是根据数据集中的某个特征进行划分，保证每个子集中的样本在该特征上的分布相似。例如，可以根据类别标签进行分层拆分，确保每个子集中都包含各个类别的样本。分层拆分的优势是能更好地反映真实场景中的数据分布，适用于类别不平衡的情况。

在PySpark中，可以使用randomSplit方法进行随机拆分，使用stratifiedSplit方法进行分层拆分。这些方法可以接收一个拆分比例的数组作为参数，返回拆分后的数据集。

以下是一些腾讯云相关产品和产品介绍链接地址，可以用于支持PySpark中的拆分功能：

腾讯云机器学习平台（https://cloud.tencent.com/product/tiia）：提供了丰富的机器学习算法和工具，可以与PySpark结合使用。
腾讯云数据集成服务（https://cloud.tencent.com/product/dts）：用于数据的同步、迁移和转换，可以帮助进行数据集的准备和拆分。
腾讯云弹性MapReduce（https://cloud.tencent.com/product/emr）：提供了大数据处理和分析的能力，可以与PySpark结合使用，支持数据集的拆分和处理。

希望以上信息能对您有所帮助！

数据集随机样本上超参数整定的缺点

machine-learning、bigdata、sampling、hyperparameter-tuning

我经常使用非常大的数据集，在构建机器学习模型时检查所有相关的超参数组合是不切实际的。我正在考虑随机采样数据集，然后使用该示例执行超参数调优。然后，我将使用所选的超参数使用完整的数据集来训练/测试模型。这种方法的缺点是什么？

浏览 0提问于2019-01-16得票数 1

回答已采纳

1回答

Spark MLLIB并行多节点

apache-spark、apache-spark-mllib

由"spark mllib“提供的机器学习算法可以像naive byes，随机森林一样在spark集群上以并行模式运行吗？或者我们需要修改代码？请提供一个并行运行的示例？不确定MLLIB中的并行性是如何工作的(map) -因为每个处理都需要整个训练数据集。计算是否与训练数据的子集并行运行？谢谢

浏览 0提问于2016-03-06得票数 3

1回答

小批量梯度下降是否消除了分层对训练数据集的影响？

neural-network、scikit-learn、data-cleaning

在数据预处理中，使用分层洗牌确保原始数据集的分布反映在培训、测试和验证数据集中。小型批处理梯度下降使用随机洗牌来确保小批中的随机性. 我的疑问是-为什么我们应该在我们的数据集上执行分层洗牌，如果它要在训练期间以随机的方式被洗牌？

浏览 0提问于2020-08-08得票数 2

回答已采纳

3回答

带有随机森林分类器的GridSearchCV

machine-learning、scikit-learn、random-forest

我正在处理一个有监督的学习问题，并试图预测一个二进制标签，并使用随机森林进行预测。我试着调整我的超参数，根据我的数据给我一个最好的模型。我可以用GridSearchCV()来做这件事，但是对于随机森林来说，这是正确的吗？如果我使用的是GridSearchCV()，那么训练集和测试集就会随每个折叠而变化。根据我的理解，我们可以在oob_true = True中设置RandomForestClassifier()，我们已经在评估外包装样品(所以简历已经在射频中建立了)。使用随机森林获得最佳OOB成绩的规则是什么？我能不能只循环一组参数，并适合同一训练和测试集？我可以使用GridSearchCV

浏览 0提问于2020-06-19得票数 0

1回答

Spark中的随机森林

python、apache-spark、machine-learning、pyspark、random-forest

因此，我尝试将某些文本文档分为三类。我在spark中编写了下面的交叉验证代码 from pyspark.ml.tuning import CrossValidator, ParamGridBuilder from pyspark.ml.evaluation import MulticlassClassificationEvaluator # Define a grid of hyperparameters to test: # - maxDepth: max depth of each decision tree in the GBT ensemble # - maxIter: iter

浏览 1提问于2017-01-28得票数 0

2回答

如何将数据划分为训练集和测试集？

database、machine-learning、weka

有没有其他方法可以将数据分成训练集和测试集？ **例如，我有一个包含20个属性和5000个对象的数据。因此，我将12个属性和1000个对象作为我的训练数据，并将12个属性中的3个属性作为测试集。这种方法正确吗？

浏览 1提问于2014-04-17得票数 2

3回答

如何将不平衡数据集分割和重采样成列车、验证和测试

python、classification、scikit-learn、class-imbalance、imbalanced-learn

我想了解如何用二进制目标变量分割不平衡的数据集，其中87%的样本为负，13%的样本为正。现在，我知道，在进行任何类型的重采样以避免信息泄漏之前，您应该始终将数据分割成训练和测试集，但是怎样才能提供更好的结果--随机train_test_split或StratifiedShuffleSplit？普遍的看法是，在数据集不平衡的情况下，后者的表现似乎优于前者。顺便问一下，StratifiedShuffleSplit是如何工作的？此外，如何考虑交叉验证集和如何处理它？它是否还应包含相同数量的阳性和阴性样本，按照在培训集上进行的抽样？

浏览 0提问于2019-10-10得票数 4

回答已采纳

2回答

为什么超参数调优发生在验证数据集上，而不是在一开始？

machine-learning、deep-learning、neural-network、hyperparameter-tuning、hyperparameter

尽管做了/使用过几次，但我仍然对使用验证集进行超参数调优感到有点困惑。据我所知，我选择一个模型，对训练数据进行训练，对训练数据进行性能评估，然后对验证数据进行超参数整定评估模型性能，然后选择最佳模型并对测试数据进行测试。为了做到这一点，我基本上需要随机选择一个模型来训练数据。我不明白的是，我不知道哪一种模式在一开始会是最好的。假设我认为神经网络和随机森林可能对我的问题有用。那么，为什么我不开始搜索一个一般的，例如，神经网络体系结构，随机森林体系结构，并从一开始，评估哪一个模型是最好的一小部分数据变化的所有超参数无论如何。基本上为什么要选择一个基于人的“猜测”来做训练，然后在验证阶段进行超

浏览 0提问于2022-05-28得票数 0

2回答

是什么使验证集成为测试集的良好代表？

python、scikit-learn、cross-validation、class-imbalance

我正在开发一个使用不平衡数据集的分类模型。我试图使用不同的抽样技术来提高模型的性能。对于我的基线模型，我定义了如下所示的AdaBoost模型： from sklearn.model_selection import KFold kf = KFold(n_splits=5, shuffle=False) ada = AdaBoostClassifier(n_estimators=100, random_state=42) params = { 'n_estimators': [50, 100, 200],

浏览 0提问于2020-09-29得票数 0

回答已采纳

2回答

为什么需要k倍交叉验证？

machine-learning、cross-validation

我使用k-折叠交叉验证，但不明白它的目的。在分割训练和测试数据集中的数据集之前，通常会对数据集的条目进行随机化。给定训练数据集，进行k次交叉验证，目的是预先估计模型的性能。在随机化的情况下，在交叉验证的循环中，不太可能出现从一次运行到下一次的戏剧性变化。最多可以观察到一些正常的波动。考虑到交叉验证内部的性能，交叉验证回答了哪些问题？假设表现不佳，是否意味着我们应该放弃训练模式？如果整个模型的训练时间或其他资源都很昂贵，我就能理解k折叠交叉验证的目的。在这种情况下，将训练集分割到进行验证的k个子集中，可能会为模型的性能提供预测。考虑到即使在大数据上，对整个训练集进行模型拟合是以可接受的时间复

浏览 0提问于2022-03-05得票数 10

2回答

培训集交叉验证后是否需要测试集？

machine-learning、python、cross-validation、training、hyperparameter-tuning

我想引用Aurelien的“与Scikit学习和TensorFlow一起进行机器学习的手”一书中的一段，关于在使用k-折叠交叉验证对训练集进行超参数调整之后对最终测试集的评估： “如果您进行了大量的超参数优化(因为您的系统最终对验证数据进行了很好的调整，并且在未知数据集上的性能可能不太好)，那么性能通常会比使用交叉验证时稍微差一些。”在本例中情况并非如此，但当发生这种情况时，您必须抵制调整超参数以使测试集看起来更好的诱惑；这些改进不太可能推广到新数据。“-Chapter 2: End- to End Machine Learning Project” 我很困惑，因为他说，当测试分数更差时，交叉

浏览 0提问于2020-08-14得票数 1

回答已采纳

3回答

测试/培训拆分-是否总是有必要(监督学习)？

machine-learning、dataset、machine-learning-model

我目前正在研究我的第一个机器学习模型( Penguins数据集)。我将训练三种机器学习模型，每个模型使用不同的模型结构(决策树、随机森林和梯度提升)，并相互比较。我知道，在我的特殊情况下，如果我想比较三种不同型号的精度，测试/列车分割将是必要的。但是，是否总是需要将数据集划分为训练集和测试集？让我们以随机森林算法为例--我们可以使用OOB评分来评估我们的模型，并在不执行训练/测试分割的情况下执行实际的测试。由于我们的训练集中已经有一堆样本不会实际用于训练，所以我认为使用它们进行测试是个好主意，而不是通过显式地将训练集分割成训练/测试集来减少训练集。我认为，当我们拥有小型数据集(例如Palme

浏览 0提问于2021-12-15得票数 1

1回答

训练和测试数据拆分后，是否需要验证数据集的IID，并对相同的分布进行统计检验？

machine-learning、deep-learning、artificial-intelligence、training-data、statistical-test

我知道大多数机器学习算法都是基于输入数据是IID(独立同分布)的假设。因此，我们通常不会执行统计测试来比较测试和训练数据的统计数据。在实践中，严格地说，我们不能保证数据拆分是均匀分布的。如果不检查两个数据集的分布，就会发生概念转移(或数据转移)。因此，我们的模型不能准确地执行。然而，大多数网站帖子和教科书都没有涉及到这一点。训练和测试数据拆分后，是否需要验证IID并进行统计比较？例如，双样本测试，用于比较训练数据集和测试数据集的平均值

浏览 0提问于2020-01-10得票数 1

2回答

机器学习中的预测函数是否理解分类数据？

python、predictive-modeling、feature-engineering、data-science-model、encoding

据我所知，在进行特征工程之前，必须将数据集分成训练数据和测试数据，以避免分析中的偏差。我还了解到，机器学习模型除了数字数据之外不理解数据，因此需要编码，这是特征工程的一部分。我的问题是，我是单独编码测试数据，还是预测函数理解分类数据。

浏览 0提问于2019-11-06得票数 1

回答已采纳

2回答

标记数据异常检测中的交叉验证

scikit-learn、cross-validation、anomaly-detection、autoencoder、isolation-forest

我正在从事一个项目，在那里我训练异常检测算法，隔离森林和自动编码器。我的数据是标记的，所以我有基本的真实性，但问题的性质需要无监督/半监督异常检测方法，而不是简单的分类。因此，我将只使用标签进行验证。既然我不会用标签来训练模型，而不像在有监督的学习中使用X_train、X_test、y_train和y_test，那么在这里进行模型验证的正确方法是什么？如果这是监督学习，我会把数据分成3部分:训练，简历和测试，做K折叠简历。但现在我觉得我可以简单地把我的数据分成2:训练和测试，简单地拟合所有的火车数据，预测和调整模型根据。最后，对测试数据进行预测。所以我的问题是，我应该在这个模型中加入某种

浏览 0提问于2020-07-16得票数 1

1回答

理解python中Spark的LinearRegressionWithSGD示例中的问题？

python、apache-spark、machine-learning、linear-regression、apache-spark-mllib

因此，我是machine learning和Spark的新手，并且正在阅读关于Regression的MLlibs文档，特别是LinearRegressionWithSGD at 。我在理解python代码方面遇到了一些困难。这里提供了我到目前为止所理解的信息--代码加载数据，然后形成labeledpoint。然后建立模型，根据训练数据对模型进行评价，并计算出MSE值。现在，让我困惑的是，在正常的machine learning过程中，我们首先将数据划分为训练集和测试集。利用训练集建立模型，最后用测试集对模型进行评价。现在，在Spark文档的代码中，我没有看到任何关于训练和测试集的划分。最重要

浏览 4提问于2015-09-15得票数 3

回答已采纳

2回答

基础:为ML准备简单数据的正确顺序是什么？

data、preprocessing、data-imputation

我刚刚开始与ML和我的第一次Kaggle比赛(泰坦尼克号)。我只是想知道用以下步骤组织数据以避免冗余的最佳方法是什么：特征选择数据缺口的核算(估算) 一种允许非数字特征的热编码将数据拆分为培训和验证集然后对模型进行拟合和预测。我的主要问题是，在对数据进行编码之前，是否最好先进行拆分，还是只在完成编码后才进行拆分？

浏览 0提问于2018-08-09得票数 0

2回答

对模型进行培训是否需要验证集？

validation、machine-learning、cross-validation

为了我的研究，我用CNN建立了一个三维图像分类模型。我只有5000张图像，训练用4500张图像，测试集用500张图像。我尝试了不同的结构和参数的训练和F1评分和训练集的准确性高达0.9。幸运的是，我没有花很多时间来寻找这些设置的高精度。将该模型应用于测试集，得到了较满意的预测结果，F1评分为0.8~0.85。我的问题是，是否有必要进行验证？当我当时参加机器学习课程时，我被教导使用一个验证集来调整超参数。我没有做k-折叠交叉验证的原因之一是因为我没有太多的数据，并且希望使用尽可能多的培训数据。我的模型对测试集进行了很好的预测。我的模型还能说服人们，只要精确度/F1分数/ROC足够好吗？或者，

浏览 0提问于2018-03-02得票数 1

回答已采纳

2回答

特征选择和交叉验证

statistics、machine-learning、feature-extraction、feature-selection、cross-validation

我想训练一个回归模型，为了做到这一点，我使用随机森林模型。然而，我也需要进行特征选择，因为我的数据集中有太多的特征，我担心如果我使用了所有的特征，我就会过度拟合。为了评估我的模型的性能，我还执行了5折交叉验证，我对以下两种方法的问题是正确的，为什么？ 1-如果我将数据分成两半，在前半部分进行特征选择，并使用这些选择的特征在剩余的一半上进行5折叠交叉验证( CV ) (在这种情况下，5 CV将使用完全相同的选择特征)。 2-执行以下步骤： 1-将数据分成4/5用于训练，1/5用于测试2-将此训练数据(完整数据的4/5 )分成两半: a-)在前半部分训练模型并使用训练后的模型进行特征选择。b-)使

浏览 1提问于2013-10-29得票数 5

3回答