我正在尝试用一个测试机器学习数据集在pyspark中运行Spark MLlib包。我将数据集分为一半的训练数据集和一半的测试数据集。下面是我构建模型的代码。但是,它显示了NaN,NaN的权重。所有因变量。找不到原因。但是,当我尝试使用StandardScaler函数标准化数据时,它会起作用。
model = LinearRegressionWithSGD.train(train_data, step = 0.01)
# evaluate model on test data set
valuesAndPreds = test_data.map(lambda p: (p.label, mod
我的机器学习模型在很大程度上超过了训练数据,但在测试数据上仍然表现得很好。当使用神经网络方法时,每次迭代都会略微增加测试集上的精度,但会大大提高训练集上的精度(过拟合)。
在使用带有CNN架构的spacy时,这个问题得到了很好的演示,我得到了以下结果
ITER LOSS P R F TF
0 29.305 0.733 0.342 0.466 0.525
1 10.410 0.811 0.443 0.573 0.650
2 4.361 0.722 0.548 0.62