Spark randomSplit训练和测试数据行计数总是给出不同的结果

、

我正在pyspark中测试一些二进制分类机器学习问题，并希望在分类模型中得到典型分析的值(召回率，F1分数和精确度)。我是在jupyter笔记本上这样做的。为了训练和测试我的模型，我使用了randomSplit()函数。在这样做的过程中，我得到了后面所有参数的不一致结果。我深入挖掘了一下，发现即使在训练和测试数据集上执行count()，我也得到了不一致的

浏览 32提问于2020-10-13得票数 0

回答已采纳

2回答

火花毫升中的随机分裂函数每次产生不同行数的列车测试分割。

、、

我正在尝试将数据分割成列车和测试，其中70%行在火车和30%行在测试。我使用的是randomSplit函数，来自spark.ml in scala。我不想使用种子，因为每次运行代码时，我都需要不同的训练和测试集。问题是，该函数在每次运行代码时都会在列车中产生不同数量的行并进行测试。然而，当我使用种子时，这个问题不会发生。这是一种错误还是一种预期的行为？val A

浏览 0提问于2019-08-09得票数 1

1回答

关于spark* scala中数据的训练测试拆分*

、

我有一个像这样的spark scala数据帧 val df = Seq( (44, 14), (31, 24),| 31| 24|| 80| 20|| 32| 25|| 32| 21| +---+---+ 我需要将这些数据分为训练和测试，其中训练数据将是前8行(80%)，测试数据将是最后2行

浏览 31提问于2020-04-09得票数 0

回答已采纳

2回答

星火randomSplit* -每次运行的结果不一致*

我试图将数据集分为训练和非训练。每次跑步，我都会得到不同的结果。这是意料之中吗？如果是这样的话，我怎么能每次得到相同的行百分比？训练中随机分配的权重是: ArrayBuffer(0.3，0.7) --为此，我总共有72排，体重0.3，我期待，大约21排。注:我给出了1.0 (0.3 + 0.7)

浏览 0提问于2018-06-22得票数 3

回答已采纳

3回答

如何使用sample()函数执行上采样(py-spark)

、、、

我正在研究一个二进制分类机器学习问题，并且我正在尝试平衡训练集，因为我有一个不平衡的目标类变量。我正在使用Py-Spark来构建模型。下面是用于平衡数据的代码train_initial.groupby我还尝试使用示例函数，如下所示：虽然它增加了我的

浏览 0提问于2018-11-13得票数 0

1回答

有没有用MatLab编写的LDA代码示例？

、

任何用于LDA的matlab代码，因为我知道Matlab工具箱没有LDA功能，所以我需要写自己的代码。有什么帮助吗？,:),'linear');然后我得到了这个结果0.0000 0.00000.0842 0.6404 0.2634 0.0120带有字段

浏览 1提问于2013-12-11得票数 0

1回答

计算行中的唯一值

、、、、

测试数据：df.show()#| c1|c2|#| 1| 1|#| 3| 3|我打算在每个行中计数不同的值，用计数创建一个单独的列。预期结果： #+---+-

浏览 1提问于2021-04-14得票数 1

回答已采纳

1回答

如何从模型中确定要报告的精确值？

、

因此，基本上我的模型是基于带袋的ANN，每次我在测试数据上运行代码时，我总是得到不同的精确值。比如我得到了33.8%(最好的)，28.5%，26.7%等等。我非常确定这是每次我运行算法时在训练和测试数据之间拆分数据的结果。所以我的问题是:我是否应该在运行之前将数据拆分成训练和测试数据一次。然后，如果我再次运行算

浏览 1提问于2015-07-08得票数 0

1回答

IllegalArgumentException：‘字段’标签“不存在Spark* MLlib*

、、、

我正在尝试使用逻辑回归对一些数据进行建模，这是spark MLlib的一部分。对于模型创建，我有以下几列：features,我可以通过以下方式将其分为训练数据和价值数据然后，我可以使用以下命令进行训练和测试：result = lrmodel.t

浏览 10提问于2018-12-11得票数 0

1回答

经过训练和测试的数据有不同数量的属性，从而产生了“训练和测试集不兼容”的错误

我使用WEKA进行文本分类，我训练了数据集，我应用了StringToWOrdVector和NumericToNominal过滤器，并且有测试数据集，并在其上应用了相同的过滤器。当我尝试将我的模型应用于测试数据时，它给了我以下错误训练和测试集不兼容的结果，我搜索了一个解决方案，错误发生是因为两个集合的属性数不同，而且由于两个集合中的文本不同，所以<

浏览 3提问于2015-10-26得票数 0

回答已采纳

1回答

我正在处理电影镜头数据集，我有一个用户id作为行，电影id作为列的矩阵(m×n)，我已经做了降维技术和矩阵分解来减少我的稀疏矩阵(m X k，其中k<n )。我想使用k近邻算法(不是库，我自己的代码)来评估性能。我使用的是sparkR 1.6.2。我不知道如何在sparkR中将我的数据集划分为训练数据和测试数据。我已经尝试过原生R函数(sample，subset，CARET)，但它与spark

浏览 0提问于2016-11-02得票数 1

1回答

Opencv mlp相同数据不同结果

、、、

如果我在相同的数据上连续运行opencv MLP训练和分类，我会得到不同的结果。这意味着，如果我将训练新的mlp放在相同的训练数据上，并在for循环中对相同的测试数据进行分类，每次迭代都会给出不同的结果。即使我每次迭代都会创建一个新的mlp对象。但是，如果不使用for循环，我只运行程序几次，

浏览 15提问于2015-06-13得票数 0

回答已采纳

1回答

在R上存储许多培训数据的最佳方法

、

我想随机选择我在R上的数据集100次，并想看看哪些训练和测试数据给出了最好的模型结果。我应该如何存储这些数据，以便比较预测结果？我应该为每个训练和测试数据创建不同的变量，还是将其保存在一个数组中？我在R上很新，所以我不知道怎么用最好的方法来做。我使用的是RStudio 1.1.423。这是我随机数据的方式，我

浏览 0提问于2018-04-14得票数 1

回答已采纳

1回答

基于最小化、差分进化和Basinhopping的模型优化

、、、

测试数据帧没有'Survived‘特性，所以我创建了一个同名的常量值为-1的新列，以区分训练数据帧中相应列的0和1。然后我按行合并了它们。我检查了重复的行，但没有。一旦样本是干净的，然后我通过选择训练数据点来将训练和测试分开，这样‘存活’=-1。为了更好地预测测试子样本中的标签，我决定优化随机森林模型，使用不同<em

浏览 16提问于2020-11-22得票数 0

1回答

分类器总是错误地预测相同的样本是正常的吗？

、

我试图提高分类器的准确性，一个随机森林分类器。我用相同的超参数和不同的随机种子建立了不同的模型，用相同的训练数据训练它们，用同样的测试数据进行预测，并对结果进行比较。我发现50%的错误总是发生在相同的样本上。因此，这些总是被错误预测的样本是否值得特别关注，还是某种逻辑？我希

浏览 0提问于2019-07-31得票数 2

回答已采纳

2回答

训练集和测试集大小

、、

如何正确处理培训/测试集的生成？我正在做几个实验来测试我的神经网络模型的泛化能力，所以在所有实验中，我的测试集都不同于我的训练集(例如，在一个实验中，训练集和测试集之间的句子结构是相同的，而在训练集中我使用一组单词，在测试集中使用另一组单词因此，我的问题是:为了能够比较实验之间的准确性，我是否必须在实验之间保持相似的训练</em

浏览 0提问于2021-07-08得票数 1

1回答

spark在UDF中创建数据帧

、、、

类似于下面的内容import org.apache.spark.ml.linalg.Vectorimport org.apache.spark.ml.feature.VectorAssembler val df = Seq((1,1,34,23,34,56),(2,1,56,34,56,23.setOutputCol("features") val data

浏览 2提问于2018-11-30得票数 1

1回答

复制实验结果的问题

、

我在R中使用CreateDataPartition运行了一些实验，以拆分训练数据和测试数据。我将结果循环了大约500次，并在一台笔记本电脑上进行了测试。当我试图在另一台笔记本电脑上用相同的代码和数据复制这些实验时，它给出了非常不同的结果，与我以前的结果不太一样。我假设这可能是由于种子问题，我正在试图弄清楚如何管理它，以便至少可以复制与以前几乎相同的结果。有什么建议

浏览 7提问于2020-02-12得票数 0

1回答

神经网络中预测数据的非正态化

、、、

在神经网络中，用于训练数据的样本数为5000个，在给出训练数据之前，用该公式进行了归一化。y - mean(y) stdev(y) 现在，我想在得到预期的输出后，将数据去正常化。通常用于预测测试数据的数据为2000个样本。有谁能解释一下，如何使用训练数据(5000*2100)标准化所使用的相同的均值和标准差来实现预测数据的非规

浏览 5提问于2015-10-01得票数 11

回答已采纳

1回答

火花放电中ALS的空预测

、、、

我正在尝试从我的数据集中读取有三个颜色的数据集。(用户、储存库和星号)lines = spark.read.text("Dataset.csv").rddOut10在13中 (training, test) = ratings.randomSplit<

浏览 0提问于2019-03-09得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

火花毫升中的随机分裂函数每次产生不同行数的列车测试分割。

关于spark* scala中数据的训练测试拆分*

星火randomSplit* -每次运行的结果不一致*

如何使用sample()函数执行上采样(py-spark)

有没有用MatLab编写的LDA代码示例？

计算行中的唯一值

如何从模型中确定要报告的精确值？

IllegalArgumentException：‘字段’标签“不存在Spark* MLlib*

经过训练和测试的数据有不同数量的属性，从而产生了“训练和测试集不兼容”的错误

如何在sparkr中进行交叉验证

Opencv mlp相同数据不同结果

在R上存储许多培训数据的最佳方法

基于最小化、差分进化和Basinhopping的模型优化

分类器总是错误地预测相同的样本是正常的吗？

训练集和测试集大小

spark在UDF中创建数据帧

复制实验结果的问题

神经网络中预测数据的非正态化

火花放电中ALS的空预测

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐