前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >R语言机器学习方法分析二手车价格影响因素

R语言机器学习方法分析二手车价格影响因素

作者头像
拓端
发布2023-11-11 14:41:55
1860
发布2023-11-11 14:41:55
举报
文章被收录于专栏:拓端tecdat

原文链接:https://tecdat.cn/?p=34238

分析师:Siming Yan

比较多种机器学习方法优劣性,分析二手车价格影响因素,训练模型预测二手车价格

相关视频

任务 / 目标

根据印度二手车交易市场1996-2019年数据,进行清洗,建模,预测。

数据源准备

7253笔交易数据包括汽车属性和交易日期、地点等信息。分析数据构成:

将数据分为NA和非NA组,分析缺失值是否均匀分布:

对于的因变量“交易价格”,可见其缺失值基本均匀分布。

其他自变量的缺失值也基本均匀分布。

特征转换

对一些因变量进行dummy variable转换。对大数值变量如引擎容量,已行驶的公里数进行log transformation。

划分训练集和测试集

75% training data, 25 test data. RMSE作为衡量模型精度的标准。

建模

10 folds Validation when training models to choose best model tuning parameters .

1. Linear Regression with mixing Lasso & Ridge Penalty:

包含三种模型的混合预测。


点击标题查阅往期内容

R语言二手车汽车销售数据可视化探索:预处理、平滑密度图、地理空间可视化

左右滑动查看更多

01

02

03

04

Best tune: Alpha 0.25, lambda .053. RMSE 5.332

1. Support Vector Machines with Radial Basis Function Kernel

Best tune: Cost(M) = 10.

1. Random Forests:

随着随机选定的因变量数量提高,10 folds Cross Validation所展示的拟合效果也有波折地逐渐提高。

1. Stochastic Gradient Boosting Machine

调整的参数为树深,树层数达到6时拟合效果最好。

模型优化

各个模型都进行了调参过程。主要依据为10 folds cross validation

结果

在此案例中,Stochastic Gradient Boosting Machine 所得到的RMSE值最小,预测效果最好。

预测结果仅作为参考一个权重值,还需要专家意见,按照一定的权重来计算。

以下为预测集和测试集的部分展示:

关于分析师

在此对Siming Yan对本文所作的贡献表示诚挚感谢,他专注数据采集,数据分析,机器学习领域。擅长R语言、Python、SQL、Tableau。


点击标题查阅往期内容

R语言空气污染数据的地理空间可视化和分析:颗粒物2.5(PM2.5)和空气质量指数(AQI)

上海无印良品地理空间分布特征与选址策略可视化研究

R语言空间可视化:绘制英国脱欧投票地图

R语言在地图上绘制散点饼图可视化

r语言空间可视化绘制道路交通安全事故地图

在GIS中用ggmap地理空间数据分析

tableau的骑行路线地理数据可视化

R语言推特twitter转发可视化分析

618电商大数据分析可视化报告

用RSHINY DASHBOARD可视化美国投票记录

python主题LDA建模和t-SNE可视化

R语言高维数据的主成分pca、 t-SNE算法降维与可视化分析案例报告

R语言动态图可视化:如何、创建具有精美动画的图

Tableau 数据可视化:探索性图形分析新生儿死亡率数据

R语言动态可视化:制作历史全球平均温度的累积动态折线图动画gif视频图

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-11-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 拓端数据部落 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 原文链接:https://tecdat.cn/?p=34238
  • 分析师:Siming Yan
  • 结果
  • 关于分析师
相关产品与服务
灰盒安全测试
腾讯知识图谱(Tencent Knowledge Graph,TKG)是一个集成图数据库、图计算引擎和图可视化分析的一站式平台。支持抽取和融合异构数据,支持千亿级节点关系的存储和计算,支持规则匹配、机器学习、图嵌入等图数据挖掘算法,拥有丰富的图数据渲染和展现的可视化方案。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档