是否有可能通过使用python代码改变matlab和jupyter笔记本中相同数据集的准确性?
对于相同的数据集,首先在matlab中应用,决策树法的准确率为96%,然后使用python代码将相同的数据集应用到jupyter笔记本中,通过k次交叉验证,C4.5 (决策树)的准确率为53%。
我不明白对于相同的数据集和相同的方法获得不同的准确性的问题在哪里。
我在python代码中的过程如下所示:
import pandas as pd
import numpy as np
from sklearn import tree
from sklearn.model_selection import
我正在探索pyspark和整合scikit-learn与pyspark的可能性。我想使用scikit-learn在每个分区上训练一个模型。这意味着,当我的RDD被定义并分布在不同的工作节点上时,我想使用scikit-learn并在每个工作节点上存在的每个分区上训练一个模型(假设是一个简单的k- means )。由于scikit-learn算法需要一个Pandas数据帧,所以我最初的想法是为每个分区调用toPandas,然后训练我的模型。但是,toPandas函数将DataFrame收集到驱动程序中,这不是我想要的。有没有其他方法可以达到这个目标呢?
我正在尝试在纯AdaBoost中实现Python算法(如果需要的话使用NumPy )。
我循环所有弱分类器(在本例中,是决策桩),然后是总体特征,然后遍历该特性的所有可能值,以查看哪一个更好地划分了数据集。这是我的密码:
for _ in range(self.n_classifiers):
classifier = BaseClassifier()
min_error = np.inf
# greedy search to find the best threshold and feature
for feature_i in range(n_feature