机器学习100天：第2天

文章来源：企鹅号 - 产品与狗

第一步：数据预处理

importpandasaspd

importnumpyasnp

importmatplotlib.pyplotasplt

dataset=pd.read_csv('studentscores.csv')

X=dataset.iloc[ : , :1].values

Y=dataset.iloc[ : ,1].values

fromsklearn.model_selectionimporttrain_test_split

X_train, X_test, Y_train, Y_test=train_test_split( X, Y,test_size=1/4,random_state=)

----

这里的内容都是第一天的，对数据预处理，这里不再重复阐述。

第二步：训练集使用简单线性回归模型来训练

fromsklearn.linear_modelimportLinearRegression

regressor=LinearRegression()

regressor=regressor.fit(X_train, Y_train)

LinearRegression 拟合一个带有系数 w = (w_1, …, w_p) 的线性模型，使得数据集实际观测数据和预测数据（估计值）之间的残差平方和最小。里面有参数：fit_intercept：是否有截据，如果没有则直线过原点；normalize：是否将数据归一化；copy_X：默认为True，当为True时，X会被copied,否则X将会被覆写；n_jobs：默认值为1，计算时使用的核数。

第三步：预测结果

Y_pred=regressor.predict(X_test)

通过第二步的拟合操作，线性回归模型已经训练完毕，通过predict方法，输入测试数据来预测产生的结果Y_pred，和Y_test比较，可以得到模型的准确率是多少。

第四步：可视化

训练集结果可视化

plt.scatter(X_train , Y_train,color='red')

plt.plot(X_train , regressor.predict(X_train),color='blue')

plt.show()

测试集结果可视化

plt.scatter(X_test , Y_test,color='red')

plt.plot(X_test , regressor.predict(X_test),color='blue')

plt.show()

总结，第二天是将数据线性拟合，然后可视化，这是最简单的一个线性拟合过程，其中其实主要涉及到的还是sklearn中线性回归模型linear_model的使用，还有通过matplotlib.pyplot的使用对其做可视化（即画图）。

【待续……第三天】

关获高清无码大图

发表于: 2018-12-102018-12-10 23:57:52
原文链接：https://kuaibao.qq.com/s/20181211A0022S00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

机器学习100天：第2天

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐