【数据科学家】数据科学家修炼之路

经常有人问我“要成为数据挖掘工程师或者数据科学家应该读什么书?”类似的问题。下面是一份建议书单,同时也是成为数据科学家的指南,当然,这不包括取得合适大学学位的要求。

在深入探讨之前,数据科学家似乎需要掌握许多技巧,如:统计学、编程、数据库、演讲技巧、数据清理与变换知识。

理想情况下,你需要具备以下技能:

  1. 了解统计学与数据预处理知识。
  2. 理解统计陷阱。你必须明白在统计分析过程中偏差与常见错误都将影响统计分析人员。
  3. 了解几个机器学习与统计技术的工作原理。
  4. 时间序列分析。
  5. 编程技巧 (R, Java, Python, Scala)。
  6. 数据库 (SQL and NoSQL Databases)。
  7. 网页爬虫 (Apache Nutch, Scrapy, Jsoup).
  8. 文本数据。

了解统计学

一本不错的统计学教材是:Fundamental Statistics for the Behavioral Sciences. 当然 IBM SPSS 是工业统计学的重要部分,推荐 IBM SPSS for Introductory Statistics – Use and Interpretation and IBM SPSS For Intermediate Statistics大部分关于 IBM SPSS 软件的书,都注重都能提供基本的统计概念与软件使用技巧,Morgan 的书里包含了大量大数据集的实践方法。

数据预处理

我必须再次强调确认并检查你数据的重要性。数据预处理除了能将数据转换成算法更易识别或处理的模式还能防止将输入数据错误。推荐书籍如下:

  • Data Preparation for Data Mining by Dorian Pyle.
  • Mining Imperfect Data: Dealing with Contamination and Incomplete Records by Pearson.
  • Exploratory Data Mining and Data Cleaning by Johnson and Dasu.

了解陷阱

有太多的统计误用与偏差的示例会影响你的分析工作,特别是当你没有意识到这个问题的时候。这在我身边的各种情况下发生。实际上,这个博客包含了一系列我试图高度强调的由于自然数据带来的统计附庸。大数据的需要注意的技能是可信度。例如:

  • Statistical Truisms in the Age of Big Data
  • The Hidden biases of Big Data.

下面Quara关于该问题的问答:

  • Quora Question : What are common fallacies or mistakes made by beginners in Statistics / Machine Learning / Data Analysis.
  • Identifying and Overcoming Common Data Mining Mistakes by SAS Institute.

推荐以下书籍:

  • Common Errors in Statistics (and how to avoid them) by P. Good and J. Harding.

假如你在研究财政预测,我强烈建议你读一读 Evidence-Based Technical Analysis by David Aronson 该书关注的是数据挖掘偏差对数据分析的影响。

理解常用机器学习与统计算法工作机制

你需要理解每个算法的优点与缺点。算法是够可以处理数据噪声?算法的适应的数据规模?算法可以采用什么优化方法?算法是否需要对数据进行变换?下面是一个微调 SVM 回归模型的一个示例:

  • Practical Selection of SVM Parameters and Noise Estimation for SVM Regression.

另外一本值得注意的书是:

  • Applied Predictive Modelling by Khun. Johnson 通过 caret R包给出了大量的实例,该宏包增强了参数优化能力。

当需要了解机器学习与统计算法时,我推荐以下书籍:

  • Data Mining : Practical Machine Learning Tools and Techniques by Witten and Frank.
  • The Elements of Statistical Learning by Friedman, Hasting, Tibishirani.

时间序列预测

在很多情况下,我们需要确定并预测时间序列数据的趋势。

  • Forecasting : Principles and Practice by Hyndman and Athanasopoulos 是一本介绍预测的优秀数据。
  • Time Series Analysis and its Applications with R Examples by Shumway and Stoffer 是另一本关于时间序列预测 R 实践的书籍。
  • 假设你对时间序列非常感兴趣,那么我还会推荐 ForeCA 的 R宏包,该宏包会告诉你如何预测时间序列。

编程能力

编程能力是另一项必要的技巧。它可以帮助你是用许多书籍科学工具或者是编程接口,通常是 Java 与 Python. Scala 也正在成为数据科学的重要编程语言,R 语言通常来说是必须的。 具有程序经验通常会让你在学习其他新的程序语言时变得很容易。你应当经常了解数据科学对程序语言的要求 (见Finding the Right Skillset for Big Data Jobs). 从当前看来 Java 是目前最流行的程序语言,然后是 Python 和 SQL. 另外,从谷歌的趋势来看也是非常有用的途径,但有趣的是 Python 不是当前值得学习的程序语言。

数据库知识

以我的经验来看数据库知识是非常重要的一项技能。通常数据库管理员或者其他 IT 工程师会因为太忙而没有时间帮你提取数据。这意味着你需要掌握如何连接数据库,优化查询以及执行一些查询或变化来获取你想要的数据格式等技巧。

网络爬虫

网页爬虫是非常有用的一项技能,如果你知道如何编写网络爬虫,你可以从网络上爬取并提取许多有价值的信息。你应当了解 HTML 元素以及 XPath 。下面是一些可以用于构建爬虫的工具:

  • Scrapy
  • Apache Nutch
  • Jsoup

文本数据

文本数据包含了许多非常有用的信息,如:顾客意见、情绪以及意愿。信息提取与文本分析是数据科学家需要掌握的重要技能。 信息提取:

  • GATE
  • UIMA 文本分析:
  • “tm” R 包
  • LingPipe
  • NLTK

推荐以下书籍:

  • Introduction to Information Retrieval by Manning, Raghavan and Schütze.
  • Handbook of Natural Language Processing by Indurkhya, Damerau (Editors).
  • The Text Mining HandBook – Advanced Approaches in Analyzing Unstructured Data by Feldman and Sanger. 结语 最后,这里还有一些数据科学家不该错过的书籍:
  • Data Mining and Statistics for Decision Making by Stéphane Tufféry (A personal favorite).
  • Introduction to Data Mining by Tan, Steinbach, Kumar. Applied Predictive Modelling by Khun, Johnson.
  • Data Mining with R – Learning with Case Studies by Torgo. Principles of Data Mining by Bramer.

本文译自 Becoming a Data Scientist : A RoadMap

原文发布于微信公众号 - 数据科学与人工智能(DS_AI_shujuren)

原文发表时间:2015-11-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

从冷战到深度学习:一篇图文并茂的机器翻译史

选自Vas3k.com 作者:Ilya Pestov 英语版译者:Vasily Zubarev 中文版译者:Panda 实现高质量机器翻译的梦想已经存在了很多年...

3316
来自专栏牛客网

谷歌,微软,阿里,美团实习生面经

3085
来自专栏AI2ML人工智能to机器学习

拉近似

法国18世纪3L三杰,我们前面介绍了拉格朗日Lagrange(在“一步一步走向锥规划 - QP”有部分介绍)和勒让德Legendre (“Legendre变变变...

501
来自专栏华章科技

数据分析的基本思想是什么

用数据说话,就是用真实的数据说真实的话!真实也可以理解为求真务实。那么,数据分析就是不断地求真,进而持续地务实的过程!用一句话表达就是用数据说话,用真实的数据说...

1813
来自专栏大数据文摘

Nature | 我的研究对后人毫无用途:21%的学术论文自发布后从未被引用

2036
来自专栏大数据挖掘DT机器学习

R语言学习路线和常用数据挖掘包

对于初学R语言的人,最常见的方式是:遇到不会的地方,就跑到论坛上吼一嗓子,然后欣然or悲伤的离去,一直到遇到下一个问题再回来。当然,这不是最好的学习方式...

3556
来自专栏PPV课数据科学社区

一条通往数据科学家的必经之路!

经常有人问我“要成为数据挖掘工程师或者数据科学家应该读什么书?”类似的问题。下面是一份建议书单,同时也是成为数据科学家的指南,当然,这不包括取得合适大学学位的要...

3526
来自专栏大数据挖掘DT机器学习

R语言学习路线和常用数据挖掘包

对于初学R语言的人,最常见的方式是:遇到不会的地方,就跑到论坛上吼一嗓子,然后欣然or悲伤的离去,一直到遇到下一个问题再回来。当然,这不是最好的学习...

3336
来自专栏机器学习算法与Python学习

干货 | 自然语言处理入门资料推荐

关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第一 【Python】:排名第三 【算法】:排名第四 源 | AI深入浅出 最近几个月小编...

5425
来自专栏大数据挖掘DT机器学习

R语言学习路线和常用数据挖掘包

对于初学R语言的人,最常见的方式是:遇到不会的地方,就跑到QQ群、论坛上吼一嗓子,然后欣然or悲伤的离去,一直到遇到下一个问题再回来。当然,这不是最好的学习方...

3714

扫码关注云+社区

领取腾讯云代金券