我有一个数据集,我分裂成80%-20%的训练和测试集。在训练集上,我做k折交叉验证,得到准确性的平均值。但是,我不清楚该如何将这个结果应用于我的原始测试集?
#Splitting Training & Test dataset
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1)
#Standartisation scaling
from sklearn.p
按照Jason的教程,我开发了自己的随机森林分类器代码。我把它粘贴到下面,我想知道还能做什么改进来提高代码的准确性。
from numpy import mean
from numpy import std
from sklearn.datasets import make_classification
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import RepeatedStratifiedKFold
from sklearn.ensemble import Random
我第一次开始机器学习和尝试Sklearn。我有两个数据,一个有数据来训练一个逻辑回归模型(用10倍交叉验证),另一个用这个模型预测类('0,1')。到目前为止,我的代码使用了我在Sklearn文档和Web上找到的一些教程:
import pandas as pd
import numpy as np
import sklearn
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import KFold
from sklearn.preprocessing impor
对于多层感知器学习过程之前的特征标准化,我有严重的疑问。
我使用python-3和scikit学习包来实现学习过程和特性的规范化。
正如科学工具包-学习wiki (实用技巧)所建议的那样,我正在用预处理模块进行功能标准化,这意味着我的所有特性都将作为标准的标准规范出现。
问题是,在显示的示例中:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
# Don't cheat - fit only on training data
scaler.fit(X_train)
X_tr
我正在尝试使用Keras创建一个简单的多层感知器(MLP)。为了避免数据泄漏,我在交叉验证例程中使用管道。
要做到这一点,我必须使用keras包装器;除非我没有将TensorBoard回调放入包装器中,否则一切正常。我阅读了大量的堆栈溢出答案,看起来我的代码是正确的,但是我得到了以下错误:
> RuntimeError: Cannot clone object <tensorflow.python.keras.wrappers.scikit_learn.KerasClassifier object at 0x00000245DD5C2A60>, as the construc
给出下面的代码,我试图构建的自定义转换器类--它的目标是通过网格搜索添加几个列和矮小的--本身运行良好,但在通过管道执行时会降低行的维度。也许有人能解释出哪里出了问题,我显然遗漏了一些东西。搜索评论:“这里发生了什么,维度在行中减少了?”在那里我有问题的指纹。执行的完整代码可以在下面找到!
import pandas as pd
import numpy as np
from sklearn.datasets import load_breast_cancer
from sklearn import linear_model
from sklearn.base import BaseEsti
我成功地使用sklearn的多元线性回归训练了我的模型。这是我使用的代码:
import pandas as pd
dataset = pd.read_csv('C:\\mylocation\\myfile.csv')
dataset2 = pd.get_dummies(dataset)
y = dataset.iloc[:, 31:32].values
dataset2.pop('Target')
X = dataset2.iloc[:, :180].values
#Split the dataset
from sklearn.cross_validati
因此,我目前正在处理一个数据集,我希望使用管道来选择转换。下面是我想要做的事情的一个例子:
# I missed the imports just for brevity
pipeline = make_pipeline(StandardScaler(), PolynomialFeatures(), PCA(), LogisticRegression())
因此,我想要做的是,在使用其他方法(如XGBOOST )时,同时尝试StandardScaler、MinMaxScaler和MinMaxScaler。然后,我想尝试使用多项式特征,然后使用PCA,只有当我使用多项式特征。最后,我想尝试使用G
我在scikit工作,我正在尝试调整我的XGBoost。我尝试使用嵌套交叉验证,使用管道重新标度训练折叠(以避免数据泄漏和过度拟合),并平行于GridSearchCV的param调优和cross_val_score,以得到roc_auc评分在最后。
from imblearn.pipeline import Pipeline
from sklearn.model_selection import RepeatedKFold
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import