faceSchool
经典算法(六)
回归实践(下)
6
上次我们用画图的直观的方式展示了 回归模型
那么如何来获得模型的参数呢?
python 回归实践
构建房屋预测回归模型
显示参数
注释:
coef :斜率 , intercept : 截距
(sqft_model.get{ 'coefficients '})
之前的模型过于简单了,那么我们可否引入更多的特征来建立模型呢?
答案当然是肯定的,但在引入前我们要做的是
探索数据中的其他特征
探索数据中的其他特征
>>my_features = { 'bedrooms' , 'bathrooms' , 'sqft_living' , 'sqft_lot' ,'floors' , 'zipcode '}
>> sales[my_features].show()
显示特征
这里纳入了 'bedrooms' , 'bathrooms' , 'sqft_living' , 'sqft_lot' ,'floors' , 'zipcode ' 这几个特征
并进行展示
都分别显示了均值,标准差, 最小值,最大值
(注: 这里的数据是美国的房屋数据)
zipcode 指地区码
引入特征
根据zipcode 地区码
探索 不同地区的价格分布
>> sales.show(view = 'BoxWhisker Plot ' , x = 'zipcode' , y = 'price' )
注: 灰色为箱线图
x 轴为地区码
y 轴为价格
构建更多特征的回归模型
1.
>>my_feature_model = graphlab.linear_regression.create(train_data = 'price', features = my_features )
my_features 是刚才构建的特征的列表
结果
2.
打印出所用特征
>>print my_features
3.
比较多特征和但单特征模型效果
>> print sqft_model.evaluate(test_data)
>> print my_feature_model.evaluate(test_data)
注释: rmse 均方误差
由此看出:
特征模型的最大误差和均方误差都小于
单特征,所以多特征模型
效果更好!
运行学到的模型进行房屋售价的预测
房屋实际售价
(从原始数据集中随机挑选了一个房屋)
这间房屋的实际售价为62万
开始预测:
那么我们可以看到:
不一定涵盖特征多的模型就比少特征的预测更加准确
再次预测一个
原始售价为220万
开始预测:
to be the end
我思故我在
知识电量不足5%
请立即充电
People always say that it's too late. However, in fact, now is the best appropriate time. For a man who really wants to seek for something, every period of life is younger and timely.
一起分享学习的点滴
扫码加入机器学习小组(为保证学习群质量请先加管理员经验证后自动加群)
领取专属 10元无门槛券
私享最新 技术干货