我正在使用Weka软件对模型进行分类。我对使用训练和测试数据集分区感到困惑。我将整个数据集的60%划分为训练数据集,并将其保存到我的硬盘上,将40%的数据用作测试数据集,并将这些数据保存到另一个文件中。我使用的数据是不平衡的数据。因此,我在我的训练数据集中应用了SMOTE。之后,在Weka的分类选项卡中,我从Test options中选择了Use training set选项,并使用随机森林分类器对训练数据集进行分类。在获得结果之后,我从Test options中选择了Supplied test set选项,并从硬盘加载我的测试数据集,然后再次运行分类器。 我试图找到关于如何在Weka中加载
我在R中使用C5.0构建了一个分类模型,如下所示:
library(C50)
library(caret)
a = read.csv("All_SRN.csv")
set.seed(123)
inTrain <- createDataPartition(a$anatomy, p = .70, list = FALSE)
training <- a[ inTrain,]
test <- a[-inTrain,]
Tree <- C5.0(anatomy ~ ., data = training,
trControl = train
我有一个经过训练的模型,存储在redis(缓存)中。为了减少响应时间,我在启动服务器时将其加载到settings.py中。模型每两个小时更换一次(训练),所以我需要不断地重取。
MODEL = pickle.loads(redis_connection.get('model'))
如何在settings.py保持不变的情况下,使这个常量更新,基本上从redis中重新获取模型?
我在ML是新来的。我训练我的数据集然后用泡菜保存它。我受过训练的数据集有文本和值。我试图从我的新数据集中得到一个估计值,该数据集只有文本。
然而,当我试图用我受过训练的数据来预测新的值时,我得到了一个错误,它说
ValueError:模型的特性数量必须与输入匹配。模型n_features为17804,输入n_features为24635。
你可以在下面检查我的代码。现在我该怎么做?
with open('trained.pickle', 'rb') as read_pickle:
loaded=pickle.load(read_p
我正在用两个独立的训练和测试集在python中建立一个预测模型。培训数据包含数字类型的分类变量,例如邮政编码,91521,23151,12355,.,以及字符串分类变量,例如,城市“芝加哥”,“纽约”,“洛杉矶”,.
为了训练数据,我首先使用“pd.get_dummies”来获取这些变量的虚拟变量,然后用转换后的训练数据对模型进行拟合。
我对我的测试数据进行同样的转换,并使用经过训练的模型来预测结果。但是,我得到了错误
ValueError: Number of features of the model must match the input. Model n_features is 1
我在做第一章“在sci-kit学习和张量流中的手工机器学习”。
我看到了使用hashlib的代码,它将测试训练数据从我们的dataframe.The代码中分离出来,如下所示:
"""
Creating shuffled testset with constant values in training and updated dataset values going to
test set in case dataset is updated, this done via hashlib
"""
import hashlib
import num
你好,当我用80%的数据训练我的模型,用20%的数据进行测试时,准确率是49%。当我训练我的数据而不分裂的时候,它提供了大约99%的数据。我很困惑。请帮我拿一下这个
下面的代码是用split实现的,精度达到了
的49%
data = pd.read_csv(r"dataset.csv")
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
objList = data.select_dtypes(include = "object").columns
for feat in