我从sklearn.model_selection家族引进了train_test_split,我想对我的模型进行训练和测试,以便预测变量y。
我将字符串数据类型指定为我的X ( dataset的特性/变量),而我的y是一个整数数据集(响应)。
在这样做之后,我从LinearRegression家族导入了sklearn.linear_model函数/方法,现在当我试图拟合模型时,它会显示一个错误。
can’t convert strings(X) to variable y
为什么?
X = df[['Avg. Area Income', 'Avg. Area House
我正在尝试使用python构建一个预测模型。训练和测试数据集有400多个变量。在训练数据集上使用特征选择,变量数减少到180个。
from sklearn.feature_selection import VarianceThreshold
sel = VarianceThreshold(threshold = .9)
然后利用梯度增强算法训练模型,达到.84交叉验证的精度。
from sklearn import ensemble
from sklearn.cross_validation import train_test_split
from sklearn.metrics impor
我正在尝试使用一个新的数据集在一个以前受过训练的模型上,看看这个模型有多精确。我使用以下代码并接收以下错误。另一种方法能解决这个问题吗?谢谢
import pandas as pd
from sklearn.svm import LinearSVC
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score
from sklearn.preprocessing import
我正在编写一个使用线性回归的应用程序。就我而言,sklearn.linear_model.Ridge。我很难将我喜欢的数据池以正确的形式预测到Ridge。我简要地描述了我的两个应用程序以及问题是如何出现的:
1RST应用程序:
我的数据点每个只有一个特性,它们都是String,所以我使用了一个热编码,以便能够在Ridge中使用它们。之后,数据点(X_hotEncoded)有9个特性:
import pandas as pd
X_hotEncoded = pd.get_dummies(X)
在将Ridge安装到X_hotEncoded和标签y之后,我用以下方法保存了经过训练的模型:
from s
我成功地使用sklearn的多元线性回归训练了我的模型。这是我使用的代码:
import pandas as pd
dataset = pd.read_csv('C:\\mylocation\\myfile.csv')
dataset2 = pd.get_dummies(dataset)
y = dataset.iloc[:, 31:32].values
dataset2.pop('Target')
X = dataset2.iloc[:, :180].values
#Split the dataset
from sklearn.cross_validati
我最近读到,为random_state指定一个数字可以确保每次运行都得到相同的结果。
为什么在将数据分成训练集和验证集时使用random_state=1,而使用random_state=0来创建模型?
我原以为他们俩的价值是一样的。
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
data = pd.read_csv('../input/fifa-