【数据科学】数据科学入门指南

数据科学虽然刚刚兴起,却发展迅速。

只要有数据的地方,就需要数据科学团队来分析、挖掘数据。

因而,在各个行业都需要大量的数据科学家。

2015年,数据科学家的平均年薪已经达到10万美元,而且还在快速的上涨。

丰厚的待遇和对人才的大量需求吸引着大批的人开始学习这一领域。

数据科学包含着诸多领域的理论和技术,其中包括应用数学、统计、机器学习、模式识别、数据可视化、数据仓库等等,其涉及到的知识范围只广,往往令很多初学者望而却步。

数据科学的基础是线性代数和统计,但这并不意味着我们一开始就守着一堆讲基础理论的书籍学起。

因为这会带给你很大的心理负担,而且很快你就会对它失去兴趣。

所以我并不建议从最基础的数学理论开始学习数据科学。

下面的这些建议会告诉你如何高效、快速的入门数据科学

数据科学知识体系图

1. 时刻关注数据

数据科学是一个十分庞大和繁杂的领域,真正的掌握这门学科需要付出巨大的努力。因而,你需要想学习其他领域时一样,设定目标和动机。你需要不断的提醒、激励自己,让你在中途想要放弃的时候相信自己可以做下去。

你可以选择一个你感兴趣的领域作为切入点,比如如何预测股票市场。尽管你并不了解如何才能做到这一步,但是有了目标,你就可以开始尝试。尝试编写第一个程序,即便它一点实际的作用都没有,但是以此为基础,你会做得越来越好。

当你有了这个目标,你会时时刻刻想着如何提高程序的效果。你会时刻关注那些与股票市场有关的数据,并且思索如何利用这些数据和知识让你的程序更加出色。

当然,你可以选择你感兴趣的任何领域作为出发点,而且可以是某一领域的一小部分。比如,如果你对社交网络感兴趣,那么你就会想着如何从微博或者twitter获取有用的数据,然后从这些数据当中挖掘出你想要的东西。如果你对NBA感兴趣,那么你可以收集NBA的历史数据,预测谁是这个赛季的MVP和冠军队伍。

请记住,数据无处不在,所以从现在开始,时刻的关注数据,并且思考我可以从数据中获取哪些信息,即便目前你还没有办法去实现。

2. 边做边学

虽然学习神经网络、图像识别或者高级自然语言处理技术会很有趣,但其实,大多数的数据科学并不涉及到这些知识。所有记住以下要点尤为重要。

  • 90%的工作将是数据的清洗
  • 掌握甚至精通少数几种算法,要好过对所有的算法都一知半解
  • 如果你已经很好的掌握了线性回归,K-均值聚类和逻辑回归,能够解释模型的结果,甚至独立的完成一个项目,那么你比哪些对所有算法一直半解的人更可能被录用。

大多数的情况下,当你开始学习新的算法是,记得去找哪些已经写好的库函数,这将省去你大量的时间。事实上,大多数算法我们不需要去自己实现,因为这会消耗大量的时间。 这些要点的核心在于,学习数据科学最好的方式是从项目出发。当你处理某个项目时,你会直接接触到哪些实际且有用的模型和技巧。

如果你手头没有项目,那么你可以尝试找一个你喜欢的数据集,设定一个你感兴趣的问题,然后尝试解决它。以下的链接包含了很多适合入门的数据集:

  • 100+ Interesting Data Sets for Statistics
  • Datasets subreddit
  • UCI machine learning repository

另一种解决办法是,你可以根据你设定的目标领域,来寻找一些你可以解决的问题。比如,预测股票市场,那么,首先,你可以学习链接yahoo的API,然后爬去日常的交易数据。然后,你可以根据这些数据建立简单的指标,比如过去几天内的平均价格等等,然后使用这些数据预测未来。当然,这样做的预测效果是很差的,这就需要你去学习统计知识,然后应用简单的模型,比如线性回归。随着你获取的数据量的增长,你会考虑的数据存取的问题,这个时候你就需要学习数据库方面的知识了。 这种边做边学的模式会带你避开那些冗杂的细节,并且在这个过程中,你会学会如何真正的做数据科学。

3. 学会交流学习

数据科学的终点是结果的展示,这就意味着你可以接触到很多高手做过的案例。你可以在github上找到大量这样的项目,而且你可以看到他们的程序。学习别人的程序特别是高手的程序,是数据科学进阶的有效途径。

尝试着重复作者的工作,在这个过程中,你会了解到这个模型的细节以及数据科学的方方面面,比如如何更好的组织你的成果。

一开始,去学习别人的案例特别是比较复杂的案例是很低效的,下面这些建议可以帮助你提高效率:

  • 建一个博客,开始记录并分享你的分析。
  • 尝试向别人(比如你的家人,同学)解释模型。这个过程会加深你对概念的理解。
  • 加入一个交流组,从中你会学到很多
  • 使用github来管理你的代码和项目
  • 加入像Quora,dataTau这样的社区,试着解答别人的问题。

4. 与他人合作

学会合作是成为数据科学家的捷径,因为别人的经验可以帮你快速的积累知识和资源。你可以试着:

  • 从讨论群里面找一些人。
  • 和他人合作,修改开源的项目
  • 和你感兴趣的项目的博客作者联系,试着加入其中。
  • 加入Kaggle比赛吧,所有的大牛都在这里较量和交流。

5. 不断的提高学习的难度

不要满足于你做完的项目,不要停止学习和使用新的概念。记着不断的提高知识的难度。数据科学是一座高山,停止学习意味着你永远无法到达顶点。 你可以试着:

  • 处理一个大数据,学习hadoop和spark
  • 看看你可不可以让你的程序跑的更快一点
  • 你是否可以将你的程序或算法实现并行
  • 深入的了解模型的细节
  • 尝试指导一名新手

结束语

在学习数据科学的过程中,没有明确的路线指导你该作甚饿。但是,养成这些良好的习惯,你会很自然的成为以为数据科学专家。

掌握正确的方法和习惯,任何人都可以掌握这门科学。

一些有用的资源

  • 可汗学院
  • 线性代数导论
  • 微积分
  • 统计学习基础
  • Andrew Ng的机器学习课程
  • 统计入门
  • google学术
  • 统计概念入门

原文发布于微信公众号 - 数据科学与人工智能(DS_AI_shujuren)

原文发表时间:2015-09-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

语言处理想突破,三座大山必须过

如果是人类来回答这个问题,即使在情景不明确的情况下也能在快速澄清后给出回答,但对机器来说,除非依赖大量人为制定的规则,回答这样的问题难度堪比“哥德巴赫猜想”。

521
来自专栏新智元

视频 | 谷歌最新研究曝光: 合作式增强学习让机器人掌握通用技能

【新智元导读】谷歌大脑、DeepMind和 Google X 的研究员正在设计一种新的实验,探讨使用多个机器人共同学习通用技能的三种可行的方法:直接从经验中学习...

3477
来自专栏大数据文摘

Facebook最新研究:我们训练机器人讨价还价,没想到AI还自己学会了“使诈”(附论文)

1351
来自专栏机器之心

「量子霸权」提出者John Preskill展望NISQ新时代下量子计算的11大应用前景

3168
来自专栏CDA数据分析师

数据科学家:在实际工作后,我深刻认识到的五点

我从事数据科学工作了已经将近半年了,我一路上成长了很多,也犯了很多错误,并在这一过程中从学习了很多。

891
来自专栏AI科技评论

对话LSTM之父Jürgen Schmidhuber:为什么我觉得“AI奴役人类”的说法很愚蠢?

AI科技评论按:9月12日上午,南京金秋洽谈会“2017中国人工智能峰会(CAIS 2017)”在南京国际博览会议中心盛大开幕。本次峰会以“创新、变革、突破”为...

2284
来自专栏人工智能头条

AAAI主席Rao Kambhampati:破解人机共存的规划技术挑战(PPT下载)

1313
来自专栏AI科技大本营的专栏

肖仰华谈知识图谱:知识将比数据更重要,得知识者得天下

比如“C罗”是一个实体,“金球奖”也是一个实体,他们俩之间有一个语义关系就是“获得奖项”。“运动员”、“足球运动员”都是概念,后者是前者的子类(对应于图中的su...

1395
来自专栏新智元

【AI研究者为什么喜欢游戏】DeepMind、Open AI和微软争相开源游戏训练平台

【新智元导读】游戏,更准确地说,模拟场景对于人工智能的研发来说是一个非常理想的场所,对于人工智能技术走向实际应用有着不容忽视的推动作用。目前,DeepMind、...

3688
来自专栏大数据挖掘DT机器学习

数据挖掘工程师在公司中一般都具体做什么?需要了解哪些知识?

以后想从事数据挖掘行业,但不清楚数据挖掘工程师的工作到底是做什么? 如果仅仅只是用excel,sas,python,r语言等工具来用现有的算法...

3555

扫码关注云+社区