用Python进行速度预测

这次分享一段数据特征挖掘准备工作的套路~

数据格式是这样的:

task

预测值:速度

特征值:

Region 区域

Length 长度Volume 流量

Median 中央分隔形式

Separator 机非分隔形式

CrossingO 路段起点行人过街形式

CrossingD 路段终点行人过街形式

Access 接入口数量

数字型变量有length,volume,出入口数量

类别型变量有地区,中央分隔带,机非分隔带,路段开始和结束处的行人过街方式

框架

单变量研究

多变量研究

数据清洗

假设检验

简单的线性回归

特征挖掘

参考

1. 数据概览

导入数据

绘制各变量之间散点图

2. 变量数据观察

进行后续分析之前,需要对每一个变量的分布情况有所了解,对每个数据了然于心后才能做分析

对于单连续性变量可以观察其直方图、核密度图等

两个变量之间的观察采用散点图。连续型变量之间非常easy;对于定类变量与因变量之间的观察,由于每一个类别的数据都同一条线上,数据会有重叠,为了观察其分布集中情况,可以对每个类别的数据加上一个横向扰动,这样就便于观察了,除此之外最合适的就是箱式图了!

3. 数据清洗与转换

对定类变量尝试合并

对连续变量剔除异常值

4. 相关性分析

主要先看相关系数矩阵及热力图

5. 多元回归

6. 结论与展望

本次内容只写到了数据的初始处理,对于单变量的观察、数据的转换清洗、解释变量与被解释变量之间的关系。其实简单地想一下流密速关系,速度与流量本书就不是一个简单的线性关系,采用线性模型去做效果并不好。需要采用其他的如ElasticNet,Lasso,Ridge,SVM等来看看哪个的回归效果更好些。

anyway,这次先总结一下挖掘特征前数据清洗和变换的套路,我会思考着后面的东西,以后有更好的有效模型再更~

不过,还有两个问题给大家参考,一个是之前取对数变化的意义在哪里,另外一个是本例中进行多元线性回归,如果去掉截距项调整R方会很大,但是这个时候是否有意义,欢迎大家留言讨论:

在统计学中为什么要对变量取对数?https://www.zhihu.com/question/22012482

无常数项的线性多元回归模型和有常数项的线性多元回归模型有何区别?https://www.zhihu.com/question/19664505

参考

Hair et al., 2013, Multivariate Data Analysis, 7th Edition (https://www.amazon.com/Multivariate-Data-Analysis-Joseph-Hair/dp/0138132631)

Pedro Marcelino,2017,COMPREHENSIVE DATA EXPLORATION WITH PYTHON

代码如下:以为代码保存为html格式,转成图片以后代码的高亮没有了,影响阅读。。。

有需要可以从百度云下载:https://pan.baidu.com/s/1nuHg2oD 密码:tb2n

本文来自企鹅号 - 交通在学中媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

学界 | 循环神经网络自动生成程序:谷歌大脑提出「优先级队列训练」

2828
来自专栏智能算法

10 种机器学习算法的要点(附 Python 和 R 代码)

本文由 伯乐在线 - Agatha 翻译,唐尤华 校稿。 英文出处:SUNIL RAY。欢迎加入翻译组。 前言 谷歌董事长施密特曾说过:虽然谷歌的无人驾驶汽车和...

4585
来自专栏机器学习算法工程师

机器学习论文笔记—如何利用高效的搜索算法来搜索网络的拓扑结构

分层表示高效的架构搜索(HIERARCHICAL REPRESENTATIONS FOR EFFICIENT ARCHITECTURE SEARCH)这篇文章讲...

1772
来自专栏Python中文社区

Python机器学习工具:Scikit-Learn介绍与实践

Scikit-learn 简介 官方的解释很简单: Machine Learning in Python, 用python来玩机器学习。 什么是机器学习 机...

2147
来自专栏人工智能

如何使用TensorFlow实现神经网络

如果你一直关注数据科学或者机器学习等领域,你肯定不会错过深度学习和神经网络的热潮。许多组织都正在寻找深度学习人才,将深度学习运用于各个领域。从参与竞赛到运用于开...

4609
来自专栏智能算法

Facebook通过10亿单词构建有效的神经网络语言模型

由于在语言识别、机器翻译和语言建模等领域表现出了优异的性能,为序列预测而设计的神经网络最近再次引起了人们的兴趣,但是这些模型都是计算密集型的,成本非...

3865
来自专栏机器之心

学界 | 详解指针生成网络:自动生成长段文本的抽象摘要

作者:Abigail See 机器之心编译 参与:Nurhachu Null 这篇博文是斯坦福大学计算机科学在读博士 Abigail See 对最近自己和其他研...

8146
来自专栏杨熹的专栏

机器学习&人工智能博文链接汇总

? 争取每天更新 ? 126 ? ---- 蜗牛的历程: [入门问题] [机器学习] [聊天机器人] [好玩儿的人工智能应用实例] [Tensor...

3716
来自专栏吴生的专栏

人人都会深度学习之Tensorflow基础快速入门

《Tensorflow基础快速入门》课程的目的是帮助广大的深度学习爱好者,逐层深入,步步精通当下最流行的深度学习框架Tensorflow。该课程包含Tensor...

1443
来自专栏深度学习自然语言处理

【论文笔记】中文词向量论文综述(一)

最近在做中文词向量相关工作,其中看了一些中文词向量的相关论文,在这篇文章,将把近几年的中文词向量进展及其模型结构加以简述,大概要写3-4篇综述,每篇包含2-3篇...

1202

扫码关注云+社区

领取腾讯云代金券