我正试图用一种不同的方式来计算性能,它现在是如何为模型内置的。
我想访问交叉验证期间的原始预测,这样我就可以自己计算性能了。
g = h2o.get_grid(grid_id)
for m in g.models:
print "Model %s" % m.model_id
rrc[m.model_id] = m.cross_validation_holdout_predictions()
我可以用数据集上的模型运行预测,但我认为这个测试可能会有偏差,因为模型以前见过这些数据,还是没有呢?我是否可以对同一数据集进行新的预测,并使用它来计算性能?
我是机器学习的新手,我对关于如何在使用sklearn.svm.SVC时获得分数的sklearn文档感到有点困惑。
这是我的密码
x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.30)
for _c in [0.4,0.6,0.8,1.0,1.2,1.4]:
svm=SVC(C=_c,kernel='linear')
svm.fit(x_train,y_train)
result=svm.predict(x_test)
print('C value is {}
我有一个模型,我已经训练了二进制分类,我现在想用它来预测未知的类元素。
from sklearn.externals import joblib
model = joblib.load('../model/randomForestModel.pkl')
test_data = df_test.values # df_test is a dataframe with my test data
output = model.predict(test_data[:,1:]) # this outputs the prediction eithe
我是第一次通过一个随机森林模型,并遇到了一个问题,我的精确量化。
目前,我分割数据集(30%作为测试大小),对模型进行拟合,然后根据我的模型预测y值,并根据预测的测试值对模型进行评分。但我目前得到了一个100%的准确性问题,我想知道这是因为我的模型设置的参数,还是因为我在路上犯了一个语法错误。
拆分训练集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.30, random_state=1)
创建和拟合模型
# Import the model we are using
from sklearn.e
假设我有一个通用模型:
Variable A | Variable B | Variable C | Variable D
Variable D是一个范畴变量。(例如,汽车模型-我训练我的模型所使用的数据集只有到2020年为止的模型)
我确信Variable A | Variable B | Variable C总是存在的,但是Variable D可能会丢失(例如,如果我使用2021年的汽车模型)。
我的问题是:
如果我不能使用2021年的数据,在我的预测中使用Variable D有多安全?
当Variable D丢失时,我可以随机地给它赋值吗?
模型是否可能变得过于依赖Variable D,