我尝试在虹膜数据集上使用线性回归模型。
from sklearn import datasets
import seaborn as sns
import pandas as pd
import statsmodels.api as sm
import statsmodels.formula.api as smf
from sklearn.linear_model import LinearRegression
# load iris data
train = sns.load_dataset('iris')
train
# one-hot-encoding
specie
我一直在比较sklearn中的不同回归模型,在这样做的过程中,我对我得到的模型的评分值感到困惑。在下面的代码中,您可以看到我同时使用了线性回归和岭回归,但是训练和测试数据集的分值差异很大。 using Linear Regression
from sklearn.linear_model import LinearRegression as lr
model = lr()
model.fit(X_train, y_train)
model.predict(X_test)
print("LINEAR REGRESSION")
print("Training Score
对于随机数据的平方矩阵,N列和N行。我正在拟合两个模型,线性回归和拉索。
在线性回归中,我在训练集上得到了一个完美的分数,而在Lasso中,我得到了0的分数。
import pandas as pd
import numpy as np
from sklearn import linear_model
N = 100
X = pd.DataFrame(np.random.rand(N,N))
y = np.random.randint(20, size=N)
lin = linear_model.LinearRegression().fit(X,y)
lasso = linear_mod
我试着应用一些回归器来预测IMDB的评级。这就是我试过的:
import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import train_test_split
data = pd.read_csv("D:/Code/imdb_project/movie_metadata.csv")
df = data[[
即使有10度回归,我也得到了平坦的回归。但是,如果我将日期变量更改为数字,那么回归就会起作用!有人知道为什么吗? from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import make_pipeline
from sklearn.linear_model import LinearRegression
from scipy.optimize import curve_fit
## RESHAPE DATA ##
X = transformed_data.ds.values.reshape(
我已经测试了几种回归者从科学-学习。但是,当我只对回归者使用if-语句时,我会遇到错误情况,如下面的示例代码。
from sklearn.neural_network import MLPRegressor
from sklearn.ensemble import GradientBoostingRegressor, HistGradientBoostingRegressor
for j, model in enumerate([MLPRegressor(), HistGradientBoostingRegressor(), GradientBoostingRegressor()]):
我想使用SelectFromModel为我的模型选择最好的功能。然而,当我想要定义分类模型时,我得到了一个错误。
例如(参见下面的代码)这个代码可以工作,它也可以用于决策树、随机森林和逻辑回归:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.feature_selection import RFE, SelectFromModel
from sklearn.svm import SVC
from sklearn.tree im
我正在做一个简单的线性回归模型来练习,以便学习机器学习。我的模型运行正常,但是它得到了一个坏的分数,这意味着它是一个糟糕的模型,所以对更好的模型的任何建议都将受到感谢。这是我的模型
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
########## reading training set ##########
data =
我正在尝试使用自定义转换器在管道上执行GridSearchCV。该变压器以多项式形式丰富了“年份”和“里程计”的特征,并对其余特征进行了热编码。ML模型是一个简单的线性回归模型。
自定义变压器代码:
import numpy as np
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import PolynomialFeatures
class custom_poly_fea
我正在研究不同场景下线性回归的一些例子,比较使用Normalizer和StandardScaler的结果,结果令人费解。
我正在使用波士顿住房数据集,并以这样的方式准备:
import numpy as np
import pandas as pd
from sklearn.datasets import load_boston
from sklearn.preprocessing import Normalizer
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearR
我有一个曲面(以像素为单位)的一组值,它会随着时间的推移而变大(指数级)。表面由随时间分裂的细胞组成。在做了一些建模之后,我想出了以下公式:
S(t)=S_{initial}2^{t/a_d},
其中a_d是细胞分裂的年龄。S_{initial}是已知的。我正在试图估计a_d。我只是尝试了\chi^2测试:
# Range of ages of division.
a_range = np.linspace(1, 500, 100)
# Set up an empty vector to store the chi squared value
chi_sq = np.zeros(len