学神之路 —— Python数据科学全攻略

Python菜鸟到Python Kaggler

如果你梦想成为一名数据科学家,或者已然是数据科学家的你想扩展自己的工具库,那么,你找对地方啦。本文旨在为做数据分析的Python人提供一条全方位的学习之路,完整讲述运用Python进行数据分析的所有步骤。当然,如果你已经有了一些知识储备,或者无需掌握全部的内容,可以按照自己的需求做出调整,也欢迎与我们分享你是如何调整的。

你也可以参考本学习方法的迷你版 ——《 信息图表:Python数据科学学习之快速入门》。

起步

热身

开始这段学习旅程之前,第一个要回答的问题是:为什么使用Python?或者,Python怎样使用才有效?

请观看Data Robot创始人Jeremy 2014年在乌克兰的PyCon大会上的前30分钟的演讲,来了解Python是多么的奇妙!(在公众号里回复“学神之路”即可下载。)

第一步

设置机器环境

既然你已经下定了决心,就开始设置机器环境吧。最简单的方法就是在Continuum.io下载分发包Anaconda。 这里材料应有尽有,美中不足就是即使在数据库提供了可用的更新资源时,你也要等Continuum自行更新。不过如果你是初学者的话,这点就无关紧要了。

如果你在安装过程中遇到任何问题,你可以在这里找到不同操作系统下更详细的安装说明。(在公众号里回复“学神之路”即可下载。)

第二步

学习Python语言基础

首先你要理解语言、数据库和数据结构的基础知识。Codecademy 上的Python课程是这段学习之路的最佳起点。课程结束时,用Python写计算机脚本、理解类和对象这些对你来说应该早就驾轻就熟了。

学习重点:列表Lists,元组Tuples,字典Dictionaries,列表推导式,字典推导式。

学习任务:解决HackerRank上的一些Python教程题,这些题能让你更好的用Python脚本的方式去思考问题。

替代资源:如果交互式编码不是你的风格,可以参考谷歌的Python课程,这个两天的系列课程还涵盖了接下来要讨论的一些内容。(在公众号里回复“学神之路”即可下载。)

第三步

学习Python正则表达式

进行数据清理经常需要使用正则表达式,处理文本数据时尤其如此。学习正则表达式的最佳方式就是完成谷歌课程,cheat sheet会让你使用正则表达式变得更加便捷熟练。

学习任务:做关于儿童名字的正则表达式练习

如果你仍需要更多练习,请参考文本整理的教程,它会锻炼你对处理数据的各个步骤的把握能力。(在公众号里回复“学神之路”即可下载。)

第四步

学习Python科学数据库——NumPy, SciPy, Matplotlib和 Pandas

有趣之处由此开始!下面是对各种数据库的一一介绍,让我们开始练习一些简单操作吧。

●系统练习NumPy 教程,尤其要练习arrays数组。这会为你接下来的学习打下良好的基础。

●接下来了解一下SciPy教程。浏览一下SciPy介绍和基本知识之后,学习其余你需要的部分。

●如果你猜这一步要讲Matplotlib教程——那就大错特错了。Matplotlib教程对我们目前的阶段来说综合性太强,这里我们推荐阅读ipython notebook前68行(就是到动画这一部分)。

●最后,让我们了解下Pandas。Pandas为Python提供DataFrame功能(类R语言),这也是值得你认真花时间练习的地方。Pandas有可能成为所有中型数据分析中最有效的工具。先看一下简单介绍《十分钟走近Pandas》(10 minutes to pandas),然后再转入Pandas教程的详细学习。

你也可以参考《Pandas探索性数据分析》(Exploratory Data Analysis with Pandas)和《Pandas数据处理》(Data munging with Pandas)里的内容。(在公众号里回复“学神之路”即可下载。)

其他资源:

●如果你需要有关Pandas和NumPy的书籍,Wes McKinney 写的《运用Python的数据分析》值得一读。

●有关Pandas文档的教程也有很多。

学习任务:完成哈佛CS109的课程作业。

第五步

有效的数据可视化

学习CS109课程时,前两分钟可以忽略不看,不过后面的内容相当精彩!推荐结合作业学习本课程。(在公众号里回复“学神之路”即可下载。)

第六步

学习Scikit-learn库,完成机器学习内容

现在,我们开始接触整个过程中最重要的部分了。Scikit-learn是机器学习领域最有用的Python数据库,在这里你可以查看数据库的概览。参考学习哈佛CS109课程第十节到第十八节课,你将能一览机器学习,回归、决策树方法、集成建模等监督算法,以及聚类算法等非监督式算法。可以参考上述课程的作业来规划自己的学习课程。

其他资源:

●如果说有哪本书可以作为必读书的话,推荐《集体智能编程》(Programming Collective Intelligence)—— 一部该领域的经典好书。

●此外,你也可以学习Yaser Abu-Mostafa中机器学习课程中的一些优秀课程。如果你希望获得对技能更加深入浅出的解读,可以选择Andrew Ng的机器学习课程,并做一些有关Python的练习。

●Scikit learn的教程。

学习任务:尝试Kaggle上的挑战。(在公众号里回复“学神之路”即可下载。)

第七步

练习,练习,再练习

恭喜你,你成功地完成了整个学神之路啦!

你现在已经具备了一切所需的技术技能,现在就是练习的事情了,还有比在Kaggle上与同行数据科学家切磋更好的方式么?那就出发吧,全身心投入到一个Kaggle的直播比赛中,倾尽所学放手一试吧!

第八步

深度学习

现在你已经学习了大部分的机器学习技能,也是时候尝试一下深度学习了。你很有可能已经知道了深度学习的含义,当然我也可以给你们一个简单的介绍。

不过我对深度学习也不是特别了解,所以你在采纳这些建议时可以有所保留:deeplearning.net上有深度学习方面最全面的资源 ,你会发现这里应有尽有 —— 课程、数据集、挑战、各种教程等;或者你也可以尝试 Geoff Hinton的课程来试着理解神经网络(Neural Networks)的基础知识。(在公众号里回复“学神之路”即可下载。)

翻译:灯塔大数据

原文发布于微信公众号 - 灯塔大数据(DTbigdata)

原文发表时间:2016-02-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Jackson0714

Web性能探索之旅-1.无线网络基础

15620
来自专栏吉浦迅科技

DAY82:阅读Compute Capability 6.x

我们正带领大家开始阅读英文的《CUDA C Programming Guide》,今天是第82天,我们正在讲解计算能力,希望在接下来的19天里,您可以学习到原汁...

23530
来自专栏华章科技

[科普]文科生也能读懂的Deep Learning

转载文章均来自公开网络,仅供学习使用,不会用于任何商业用途,如果出处有误或侵犯到原作者权益,请与我们联系删除或授权事宜,联系邮箱:holly0801@163.c...

9530
来自专栏腾讯大讲堂的专栏

如何才能准确测量 APP 的功耗?

引言:电量消耗控制一直是困扰所有APP开发者的一大难题,其中又以Android平台尤甚。业界同行为此做了非常多的研究与尝试,腾讯自然也不例外。本周大讲堂继续推出...

40860
来自专栏鹅厂网事

服务器硬盘故障预测实践

故障预测类似于临震预报,最重要的意义是给用户一个从容的时间段进行数据和业务的迁移或处理,改善用户体验。

2.2K90
来自专栏腾讯研究院的专栏

深度链接行为入罪化问题

深度链接行为入罪化问题 王冠  上海市静安区人民检察院        链接是通过计算机资源定位技术,在两个不同的文档或同一文档的不同部分建立联系,使访...

217100
来自专栏量子位

如何用Python从海量文本抽取主题?

作者:王树义 量子位 已获授权编辑发布 你在工作、学习中是否曾因信息过载叫苦不迭?有一种方法能够替你读海量文章,并将不同的主题和对应的关键词抽取出来,让你谈笑间...

65570
来自专栏人工智能LeadAI

一个优雅的框架 | Pytorch 初体验

pytorch是啥呢?其实pytorch是一个python优先的深度学习框架,是一个和tensorflow,Caffe,MXnet一样,非常底层的框架,它的前身...

44390
来自专栏Albert陈凯

R语言的优劣

https://www.zhihu.com/question/19611094 作者:艾华丰 链接:https://www.zhihu.com/questio...

27330
来自专栏Jackson0714

Web性能探索之旅-1.无线网络基础

29660

扫码关注云+社区

领取腾讯云代金券