专栏首页智能算法机器学习三人行(系列二)----机器学习前奏,洞悉数据之美

机器学习三人行(系列二)----机器学习前奏,洞悉数据之美

前沿

当你想了解机器学习,最好的方式就是用真实的数据入手做实验。网络上有很多优秀的开源资料,包括数据集,这里我们选择了加利福尼亚的房价数据集(数据的获得后面会给出),它的统计图如下所示,横纵坐标分别代表经纬度,图上有很多圈圈,而圈圈的大小代表着人口数,颜色图则表示房均价。

那么一堆数据到手了,但是我们到底要做什么呢?

1. 到底要做什么?

就像炒菜一样,当你拿到你的数据后,首先需要知道你的食材都有什么,也就是了解你的数据都有哪些属性,例如像这篇文章中的数据的一些属性:population、median income、median housing price等等。那顾客是需要我们用这些材料炒个什么菜呢?这里我们是利用这些数据得到一个能够预测房价的模型。好了,大致已经知道需要做些什么了,那接下来还需要知道些什么信息呢?

既然我们知道要建立一个模型进行房价的预测,那么选择什么样的算法呢?这是一个监督学习、无监督学习还是强化学习呢?它是一个分类任务、回归任务还是其他任务?你是要用离线学习还是在线学习呢?读者读到这里的时候可以自己心理想一下答案。

这很明显是一个监督学习任务,因为给定了训练数据的标签。而且它还是一个典型的回归任务,最终需要预测一个数据值。由于它有多个特征数据,所以这还是一个多变量的回归任务。最后,因为没有需求要快速适应新数据,而且数据量小存储方面完全没问题,因此这里用离线学习即可。

具体机器学习的常见方法有哪些种类,请参见文章机器学习三人行(系列一)----机器学习花样入门

2. 解开数据的面纱

开始动手的阶段了。开启你的电脑跟着本文一起敲代码吧。这里假设你已经装好了Jupyter notebook了,如果读者对Jupyter notebook不了解,可以参考本公众号之前的另一篇文章Jupyter notebook使用指南

2.1 下载数据

在本篇文章中,下载数据十分简单,你只要下载一个单一的压缩文件housing.tgz即可,它包含了housing.csv文件,里面有所有的本次实践需要的数据。

当然,你可以通过本公众号直接下载它,回复”housing“即可下载,然后解压CSV文件到你的电脑中。但是这里还是推荐使用python写一个小脚本去自动得到这些数据。

这里是得到这些数据的函数:

当你调用fetch_housing_data()函数的时候就会创建一个datasets/housing目录在你的电脑里,下载housing.tgz文件,提取housing.csv文件。

现在我们用Pandas来加载数据,同样写一个小函数用于加载数据:

这个函数返回Pandas DataFrame的数据结构。


2.2 浏览数据

a. head方法

数据load进来了,但是里面有些什么呢?我们可以用DataFrame的head()方法来看数据集的前5个数据,如下图所示:

每一行表示一个地区,有10个属性,这里包括:longitude、latitude、housing_median_age、total_rooms、total_bed_rooms、population、households、median_income、median_house_value和ocean_proximity。

b. info方法

另外DataFrame中的info()方法可用于快速浏览数据的描述,特别有用的地方就是数据的数量,每个属性的类型以及non-null值的数量,如下图所示:

一共有20640个数据量。从上面的数据可以看到total_bedrooms这个数据的属性只有20433个non-null值,意味着有207个地区丢失了这个属性。后面我们会特殊处理这些丢失的值。

除了ocean_proximity以外,其余都是float64的数据类型。而ocean_proximity的类型是object,这里可以调用value_counts()方法来看下其中的值:

c. describe方法

除了上面这些,还能用describe()方法来了解数值型数据的一些其他特性:

count、mean、min和max这里不用说明,读者就能从字面意思上了解。这里值得注意的是null值是会被忽略的(例如,total_bedrooms只有20433个值,其中有207个null值)。std表示的是标准差(表示数据的离散程度)。25%、50%、75%表示低于观测值以下的数据的百分比。

d. hist方法

例外一种快速观察数据的方式就是画出它们的直方统计图。使用hist()方法一次性画出所有属性的直方图。如下图所示:

从上面的直方图上,我们可以很清楚的看到不同属性的数据分布情况。


2.3 数据分析

到目前为止只是简单的了解了一下数据。接下来更深一步的透析数据。

a. 可视化数据

因为数据拥有地理信息(经度和纬度),那么最好的方式是将这些数据根据地理位置显示出来,如下图所示:

这样显示的话只能看到地理信息,显得十分单调,无法解开数据真正的面纱,那么这里可以根据数据的密度来设置透明度如下所示:

现在稍微好看一点了,你可以很明显看出哪些地区的数据密度高。现在你的脑袋中可能会想如何把其他一些参数也融入图像中,让图像更醒目更令人影响深刻呢。下面我们就用圆的半径大小表示地区人口数(下面程序中的s),颜色来表示价格(下面程序中的c)。这里我们用了预先定义的"jet"颜色映射图(下面程序中的cmap),它的颜色范围是从蓝色(低值)到红色(高值):

从上图可以很明显的看出房价和地区和人口密度有很强的相关性等。通过数据可视化,可以更清晰的看到数据的真正面目。

b. 寻找相关性

因为数据量不大,所以你能很容易得出数据的标准相关系数这里使用corr()方法:

最主要的还是看median house value与其他属性的相关性:

相关系数变化范围是从-1到1。当很接近1的时候意味着有很强的正相关性,例如,当median income增加的时候median house value也会跟着增加。相反如果值接近-1的时候,也就意味这负相关性越强。那如果系数接近0的话,说明这两个没有线性关系。

另一种了解数据相关性的方式是使用Pandas的scatter_matrix函数,它会把所有的相关性用图像的方式展现出来。因为本文数据有11种属性,那么就有11*11=121个图像,可能用一副图无法显示全部,那么这里就只画出4种属性之间的相关性图,如下所示:

理论上来讲对角线是自己跟自己相关,相关系数应该是1,对应图上面应该是一条斜线。这里由于从一条斜线上获得的信息量太少,所以Pandas用它的密度直方图取而代之。从上图可以看到和median house value最相关的属性就是median income了,那么我们就单独把这两个相关性的图像画出来,如下所示:

这两个属性之间的相关性还是很强烈的,可以很明显看到它们的上升趋势没有要消失的意思。但是在水平的方向上$500000的地方有一条很明显的直线,还有$450000、$350000、$280000的水平方向上隐隐约约也有,或者说这些地方有一些数据异常值,为了保证算法的准确性,可能需要移除这些数据点。

c. 特征融合

有时候,我们可能会人为的增加一些特征来丰富我们的数据集。例如,在你不清楚households有多少时,total number of rooms这个属性并不是十分有用,类似的,total number of bedrooms也一样,那么你可能想要将这些属性和number of rooms进行比较。还有population/household这个属性看上去也不错,也想尝尝鲜。那么让我们加入一些新的属性吧:

现在让我们重新看看相关系数:

看起来还不错,至少bedrooms_per_room属性看上去还是会比total number of rooms和bedrooms要好。还有,很明显如果bedroom/room的比例少的话,房价明显更贵。rooms per household这个属性所拥有的信息量也会比total number of rooms这个属性要多。

至此,我们已基本了解了透析数据集的常见方法,那么我们解开数据集的面纱之后该做什么了呢?


3. 训练模型前还需要做什么?

在对数据集了解之后,我们不能够直接将全部的数据集送入机器学习算法,直接去训练,因为需要评估模型的性能,所以需要将整体的数据集进行分组,将数据集分为训练集和测试集,训练集用来训练模型,测试集用来评估模型的性能。

a. 随机抽样

创建测试集的理论也十分简单:一般随机选取数据集的20%作为测试集,如下所示:

然后可以使用这些函数:

上面的运行之后就可以对数据集进行一个简单的随机分组。

另外,Scikit-Learn也提供了一些函数用于分割数据集。最简单的函数就是train_test_split,如下所示:

b. 分层抽样

目前为止,我们已经使用了纯随机采样的方式。这种方式在数据量足够大的情况下会工作的很好,但是如果不是,你就会引入采样偏差。例如US的人口是由51.3%的男性和48.7%的女性组成,那么最好的调查方式是抽取513名男性和487名女性。这个方法叫做分层抽样。

如果我们知道对于预测房价median income是非常重要的属性。那么我们可以用分层抽样的方式进行选择训练集和测试集,median income的分布如下图所示:

我们可以使用Scikit-Learn的StratifiedShuffleSplit类来对数据集进行分层抽样:

抽样分布结果如下所示:

至此,我们就将数据集通过两种方法进行了分组,两种方法各有千秋,根据具体的数据和应用场景进行不同的选择。

文章到这里,我们基本已经从数据集的下载,数据的透析以及数据的分组三大方面洞悉了数据之美,接下来的任务就是如何选择以及调整模型,本公众号后续文章将继续为您分享机器学习和深度学习相关知识,欢迎大家继续关注本系列文章。

本文分享自微信公众号 - 智能算法(AI_Algorithm),作者:pig

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-12-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 在大数据时代 每家公司都要有大数据部门吗?

    很多大数据创业公司提供的服务,似乎企业自己也能实现,那何不干脆自己做?结论也不能下得太武断。 如果这个问题换做是:在电气时代,每家公司都要有个发电...

    智能算法
  • 一文看懂大数据思维

    真正的革命并不在于分析数据的机器,而在于数据本身和我们如何运用数据。将大规模的数据与运用融合一起,将会颠覆很多我们原来的思维。大数据思维原理到底是什么?笔者概括...

    智能算法
  • BAT大数据野心:数据生产全链条浮现

    本报记者 周慧 北京报道 导读 以BAT为代表的中国互联网企业,在数据领域各有千秋,百度的搜索数据、阿里的电商数据、腾讯的社交数据。对于手里的数据如何使用,这些...

    智能算法
  • 数据基础设施:思考数字时代的基础设施

    大数据文摘
  • ☞【观点】徐尽欢:我也说说大数据

    一:在Oracle做了六年数据库销售的我从5月份开始内部转到新成立的大数据部门,虽然还没有转完但是已经到新部门上了一个月的班了,如果我说我是Oracle 数据...

    小莹莹
  • 译见:从无处看世界:大数据的文化意识形态

    “无论什么历史年代里,科学的走向取决于我们如何理解科学”—SandraHarding,《谁的科学?谁的知识?》(1991)

    华章科技
  • 利用大数据精准营销,给消费者一个选You的理由!

    【数据猿导读】大数据是社会科学重要的进展,但企业要精准抓住未来,经理人要拥有更好的决断力,还是要基于对不同人、不同性的理解,而不仅是科技工具的使用而已。

    数据猿
  • 【干货】如何做一个好的数据产品经理?

    用户1756920
  • 【BDTC 2015】大数据分析及生态系统分论坛:HBase、Spark、ES、Kylin技术生态

    2015年12月10-12日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所、北京中科天玑科技有限公司与CSDN共同协办,...

    CSDN技术头条
  • 独家 | 用于数据清理的顶级R包(附资源)

    每天有数百万或数十亿的数据元素进入您的企业,其中不可避免的存在一些缺乏建立高效业务模型的必要质量的数据元素。然而,确保数据干净整洁应该始终是数据科学工作流程中首...

    数据派THU

扫码关注云+社区

领取腾讯云代金券