前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >案例 | 5步掌握Python数据分析挖掘基础应用

案例 | 5步掌握Python数据分析挖掘基础应用

作者头像
CDA数据分析师
发布2018-02-05 10:31:46
9250
发布2018-02-05 10:31:46
举报
文章被收录于专栏:CDA数据分析师CDA数据分析师

许许多多的人都非常容易爱上Python这门语言。自从1991年诞生以来,Python现在已经成为最受欢迎的动态编程语言之一,尤其进入21世纪以来,Python在行业应用和学术研究中进行科学计算的势头也越来越迅猛。 ——《Python for Data Analysis》(Wes Mckinney)

Python不仅在编程方面有强大的实力,而且由于不断改进的第三方库,Python在数据处理方面也越来越突出;近年来,非常火爆的机器学习(Machine Learning)以及前沿的自然语言处理(Natural Language Processing)也选择Python作为基础工具。所以要想在数据科学领域有所进步的话,了解学习Python看来还是有所必要的。

本文通过简单案例,分享Python在数据处理方面的实际应用,属于基础学习范畴,希望刚刚接触Python学习的新手们能通过应用去解决实际问题从而巩固掌握Python操作,在这里与大家相互学习,也希望大神们轻拍:)

Without further ado,lets get started!

本文使用Python2.7版本,操作在集成开发坏境Spyder中进行;选择的数据集,是大名鼎鼎的鸢尾花数据集iris.csv,数据集网上公开请自行下载!

1.数据集截图如下图1:

图1.iris数据集截图

该数据集包含数据有150行*5列。前4列分别是:花萼的长度、宽度,花瓣的长度、宽度;最后一列是花的分类,总共分3类。

2.读入数据,如下图2:

图2.读入数据代码截图

输出结果如下图3:

图3.读取数据结果显示

Python通过pandas库,读入数据,注意读取时文件路径的填写,需用“\\”或者“/”符号。同时,Python面向对象编程,shape及head函数建立在iris数据框对象之上,这与R语言不同,R语言更加“函数化”,dim及head等函数都是内置函数。

3.描述性统计结果,如下图4:

图4.面属性统计代码&结果

本结果操作代码仅有一行#print iris.csv.describe().T#,就不再单独截图列出了。从输出结果中可以看到每列数据的平均值等统计数值,较简单不多说。

4.聚类分析,如下图5:

图5.聚类分析代码

输出结果,如下图6:

图6.聚类分析结果

在Python中利用sklearn库中的cluster.Kmeans对irisFeatures进行聚类分析,并输出分类结果。

5.决策树模型,如下图7:

图7.决策树模型代码

输出结果如下图8:

图8.决策树模型结果

利用CART算法对iris数据集建立模型,并预测结果,同时输出训练集测试集的预测正确率。相关说明及代码含义均在代码中已注释。

最后:因为网上教程给出完整数据、代码及结果的资料不多,所以把自己的浅薄经验分享给大家希望对您有帮助,感兴趣的童鞋赶快去码代码吧:)

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2015-10-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CDA数据分析师 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档