首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

10 本大数据必读书籍,过年长肉长知识!

机器学习和数据分析是一对复杂且相互关联的概念。为了跟上潮流,你需要做足准备,花时间研究并且更新知识。即使每天都在这个行业工作,仍然有可能落后于当前的趋势。

为了不落人后(并且在每逢佳节胖三斤的节奏下,能让脑袋也补充点养分),最好的方式是继续跟新自己的知识储备,同时保持上手操作的经验和习惯。在这行业中要能成功,需要完美组合项目经验和技能。因此尽管网上有大量的资源,我们仍要专门推荐一些好的实体书籍,陪你过年,让你无论在哪里,不孤单!

1. 《Machine Learning Yearning》 by 吴恩达

由现代数据,大数据和数据科学开发并生产出的机器学习系统已经不是什么秘密。虽然它们不一定是同义词,但却是互相关联的,因此如果你在数据行业工作,那么提高对机器学习的理解和认识是个不错的想法。

从本书中你可以学到一些洞察能力,例如你应该多长时间收集一次训练数据集,如何使用端到端的深度学习,以及如何利用你正在创建的系统来共享数据和统计信息。

2. 《Hadoop:权威指南》 by Tom White

Apache Hadoop是用于处理和管理大量数据的主要框架。任何从事编程或数据科学工作的人都一定要熟悉这个平台。事实上,这是开发可扩展系统最有效的方法之一。

身为Hadoop顾问和Apache软件基金会成员的Tom White写了这本标准指南,其中包罗作者的个人见解和一些有用的资源。更重要的是,它将引导你完成Hadoop的设置并且过一遍整体流程。

Apache Spark是你可能需要花时间学习的另一个重要平台。

3.《预测分析》 by Eric Siegel

本书详细解释了如何获取多种形式的数据和信息,并将其转化为可实施的预测或见解的方法。本书的核心目的是帮助专业人员更好地了解他们的受众。你将学会如何识别他们购买的产品和服务,访问的地点,与他们产生共鸣的内容等等。

众所周知,数据科学家的工作是查看未经过滤的原始数据,并发现可用的趋势和模式。本书不仅可以帮助你做到这一点,而且还提出必要的预测算法来改进未来的操作和流程。本书可以算是预测分析的圣经。

4. 《用数据讲故事》 by Kole Nussbaumer Knaflic

《用数据讲故事:商业专业人士的数据可视化指南》是业内的重要读物,甚至对与商业不怎么相关的人士也极为重要。为什么呢?

简而言之,本书涉及大量数据的管理和提取工作。其中包含:去除过多且不明确的数据,改进数据收集流程,并产出相关且实际的数据可视化结果。

这是一本权威指南,旨在帮助你了解应该如何处理收集到所有有用的数据,以及如何实际去做的方式。许多见解适用于科技产业,但对于非科技领域的专业人员同样适用。

5. 《大拐点》 by Scott Stawski

本书对于了解当前数据分析和云计算行业的发展势头十分有帮助。特别值得注意的是,Stawski主要关注原始数据存储和挖掘系统、如何部署以及在现实世界中的使用情况。

它不仅是一个理论指南,还揭示了实际的工作系统,并且提到如何把相应模式套用到你的企业或公司。更重要的一点是,你可以从本书中清楚了解如何在组织内部署这些工具和平台。

6. 《统计学习导论·基于R应用》 by Gareth James等人

统计学习和相关的方法是数据科学工作所必需的概念。这本教科书旨在帮助每个人——从本科到博士,了解这些统计概念。

当然,它也提供了一些很好的R-lab与练习,其中有详细的解释和攻略。你可以在学习阶段直接用它来练习数据科学。他还能在你的日常应用中作为工具书反复查阅。

7. 《商业中的数据分析》 by Foster Provost, Tom Fawcett

本书由著名数据科学专家Foster Provost和Tom Fawcett撰写,介绍了数据科学的基本原理,让你从收集的数据中提取有用的知识和业务价值所需的“数据分析思维”,并可帮助你了解当今使用的许多数据挖掘技术。

这本书有趣的地方,是会特别标记出较困难的技术部分,并深入浅出的介绍数据挖掘中的重要的几个概念:分类,聚类和回归。更重要的是书中包含了这些概念在商务上的的直接应用。

8. 《数据科学实战》 by Cathy O'Neil, Rachel Schutt

这本以哥伦比亚大学的数据科学入门课为基础,包含了Google,Microsoft和eBay等公司的数据科学家的经验,通过介绍案例研究和他们使用的代码的经历,分享了新的算法,方法和模型。

如果你熟悉线性代数,概率和统计,并具有编程经验,本书是你对数据科学的理想介绍。主题包括:统计推断、探索性数据分析(EDA)和数据科学过程算法、垃圾邮件过滤器、朴素贝叶斯和数据处理逻辑回归、财务建模、推荐引擎和因果关系数据可视化、社交网络和数据新闻、数据工程、和MapReduce等主题。

9. 《Show Me the Numbers》 by Stephen Few

在BI产业有30多年的经验之后,Stephen Few并不针对哪一种可视化工具进行钻研,而是从更高层次的去讨论,什么图形该怎么使用,来传达什么样的讯息是最有效的,以及数据分析产业的发展与趋势。

这本书中,他介绍了可视化的起源和背后的应用,为读者提供实际的设计指导,针对不同数据使用者的不同使用场景给出建议,在一些现在流行却有潜在问题的可视化设计上做出改进。

10. 《精益数据分析》 by Alistair Croll / Benjamin Yoskovitz

本书延续了新创企业文化中MVP(Most Valuable Product)概念和商业画布架构,展示了如何利用数据的方式,分析六个产业中(电子商务、SaaS、免费移动应用、媒体网站、用户生成内容与双边市场)的数据,验证创业者自己的设想、找到真正的客户、打造能赚钱的产品,以及提升企业知名度。

有趣的地方是,就算新创企业的数据没有成熟企业来的多,作者认为每种不同的产业仍有必须关注的指标数字。根据这些数字新创公司可以更有效的管理和拓展生意。

作/Kayla Matthews

译/ DY

RS Lab: A Group of Data Journalists

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190202G063EI00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券