机器学习100天:第2天

第一步:数据预处理

importpandasaspd

importnumpyasnp

importmatplotlib.pyplotasplt

dataset=pd.read_csv('studentscores.csv')

X=dataset.iloc[ : , :1].values

Y=dataset.iloc[ : ,1].values

fromsklearn.model_selectionimporttrain_test_split

X_train, X_test, Y_train, Y_test=train_test_split( X, Y,test_size=1/4,random_state=)

----

这里的内容都是第一天的,对数据预处理,这里不再重复阐述。

第二步:训练集使用简单线性回归模型来训练

fromsklearn.linear_modelimportLinearRegression

regressor=LinearRegression()

regressor=regressor.fit(X_train, Y_train)

LinearRegression 拟合一个带有系数 w = (w_1, …, w_p) 的线性模型,使得数据集实际观测数据和预测数据(估计值)之间的残差平方和最小。里面有参数:fit_intercept:是否有截据,如果没有则直线过原点;normalize:是否将数据归一化;copy_X:默认为True,当为True时,X会被copied,否则X将会被覆写;n_jobs:默认值为1,计算时使用的核数。

第三步:预测结果

Y_pred=regressor.predict(X_test)

通过第二步的拟合操作,线性回归模型已经训练完毕,通过predict方法,输入测试数据来预测产生的结果Y_pred,和Y_test比较,可以得到模型的准确率是多少。

第四步:可视化

训练集结果可视化

plt.scatter(X_train , Y_train,color='red')

plt.plot(X_train , regressor.predict(X_train),color='blue')

plt.show()

测试集结果可视化

plt.scatter(X_test , Y_test,color='red')

plt.plot(X_test , regressor.predict(X_test),color='blue')

plt.show()

总结,第二天是将数据线性拟合,然后可视化,这是最简单的一个线性拟合过程,其中其实主要涉及到的还是sklearn中线性回归模型linear_model的使用,还有通过matplotlib.pyplot的使用对其做可视化(即画图)。

【待续……第三天】

关获高清无码大图

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181211A0022S00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券