我是一个web前端开发者和rails程序员,计算机专业出身,掌握Python、Ruby、C、Java编程语言,具有较为扎实的计算机理论基础。
现在工作之外的时间里想学习一下数据分析或者数据挖掘。现在大数据这个词搞得蛮火的,不少公司也有在招聘数据分析员。
抱着「技多不压身」的想法我也想稍微学习一下。说不定以后的工作也会需要。我稍微了解了一下,数据分析最基础就是用excel来工作。不过我计算机专业出身的人,还是想通过用编程语言的方法来学习。听说R语言不错,我也稍微了解了一下。
事先说一句,Python Rocks, especially for Data scientist! 不是说 R 不好,我个人觉得 R 别别扭扭的,但是现在 R 很多,而且 R 作为数据分析是一门好语言。选择在个人,我只是说 Python Rocks! 回答你的问题:
不过现在要学数据分析的话,我可以从哪里着手?
首先,依据你的情况,最好是有一个你熟悉背景的项目或者例子,不一定是「数据分析」项目,只要你能弄到数据,然后清楚要分析的对象和目的就好。 接下来说方法,现在有很多课程可以帮助你学习这些方法,具体哪个方法好,完全看你的问题是什么,根据目的选方法。具体有哪些方法,请参考下面的书单。鉴于你会 Python,推荐机器学习实战
入门读物:
数据分析:
适合入门的教程:
稍微专业些的:
机器学习教材:
从哪里弄到有分析价值的数据?
还是上面那句话,依据问题选方法,有问题了,数据其实也不愁了。
补充,在quora上面看到一个问题中的答案涉及这个问题,那个更加全面 http://www.quora.com/Data/Where-can-I-get-large-datasets-open-to-the-public(http://www.quora.com/Where-can-I-find-large-datasets-open-to-the-public)
在开源社区有没有开源项目适合用来学习数据分析?
如果你是用python的话,那么numpy, scipy, matplotlib是基础的,然后就是大名鼎鼎的scikit.learn了。最近pandas也很火,可以提供类似R中dataframe的数据结构,pandas的作者 最近出版了一本书 Python for Data Analysis。
Python Rocks! scikit-learn: machine learning in Python scikit.learn 是非常非常棒的机器学习 package,文档详尽,更新速度快!你看例子,看源码,都能学到不少东西!另外,去 github 上搜搜吧,好多好东西!
可以自己动手做个什么项目来实践
Kaggle Competitions(https://www.kaggle.com/competitions) 从最下面的101开始,逐级往上! Have fun and good luck!