大数据学习过程中需要看些什么书?学习路线

很多朋友对大数据行业心向往之,却苦于不知道该如何下手。作为一个零基础大数据入门学习者该看哪些书?今天给大家推荐一位知乎网友挖矿老司机的指导贴,作为参考。

就目前公司招聘和其他所了解到的大数据专业的工作内容,偏重方向和技术选型有所不同。挖矿老司机就不同职业学习的书籍进行了分类推荐。

大数据学习可以加群:71658加1014

1. 大数据工程师

在互联网公司广泛招聘,偏平台业务方向,ETL和OLTP等,主要是基于Hadoop技术栈来处理大数据,算法要求不是特别高。

经典图书推荐:

《Hadoop权威指南》《Hive编程指南》《Hbase权威指南》《大数据技术全解》、《大数据挑战NoSql》《Mahout实战》


2. 数据分析师:

在拥有行业数据的电商、金融、电信、咨询等行业里做业务咨询,商务智能,出分析报告,互联网公司的产品经理差不多类型了,统计学能力要求高,SPSS、SAS、R、SQL。

经典图书推荐:

《概率论与数理统计》、《统计学》推荐David Freedman版、《业务建模与数据挖掘》、《数据挖掘导论》、《SAS编程与数据挖掘商业案例》、《Clementine数据挖掘方法及应用 》、《IBM SPSS Statistics 19 Statistical Procedures Companion》等。


3. 数据挖掘工程师:

在互联网、电商、搜索、社交等大数据相关行业里做机器学习算法实现和分析,基本数据结构算法、机器学习等都要求较高。Hadoop、spark技术栈,Java、Python、C++、Scala、Shell。

经典图书推荐:

《数据挖掘概念与技术》、《数据挖掘导论》、《数据挖掘-实用机器学习技术》;《机器学习》Tom Michael 、《机器学习导论》、周志华《机器学习》、《机器学习实战》、《集体智慧编程》、《统计学习方法》ESL 《Elements of Statistical Learning》 ISL 《An Introduction to Statistical Learning》PRML 《Pattern Recognition and Machine Learning》《数据库系统概论》、《算法导论》、《Web数据挖掘》、《推荐系统》、《数据可视化》《Thinking in Java》、《Python核心编程》、《Thinking in C++》等。


4. 科学研究方向:

在高校、科研单位、企业研究院等高大上科研机构研究新算法效率改进及未来应用,还有现在很多计算机视觉的创业公司的算法研究。

经典图书推荐:

《机器学习》《模式分类》《统计学习理论的本质》《统计学习方法》《数据挖掘实用机器学习技术》《R语言实践》,《人工智能及其应用》、《概率图模型》英文素质是科研人才必备的《Machine Learning: A Probabilistic Perspective》《Scaling up Machine Learning : Parallel and Distributed Approaches》《Data Mining Using SAS Enterprise Miner : A Case Study Approach》《Python for Data Analysis》等。

当然还有一步很重要就是不断练习、练习、练习,将学到的知识与实际应用场景相结合,学会写代码也很重要哦。大数据学科是一门综合学科,对于教授该专业的老师也是一项很大的挑战。

但是对于零基础的朋友来说,光是看这些书籍是远远不够的,可能看不懂。所以个人建议还是找一家培训机构,边学边看边练,学完课程后才能找到高薪好工作!如果想要找大数据培训机构,参考下加米谷大数据。

学习大数据的话,看下面这个大纲,入门可以参考。

一般的学习方法如下:

1、Linux 命令基础实战

大数据架构体系结构及开源组件介绍 (要掌握)

Linux 基本操作 (常见的 Linux 命令需要会)

2:Hadoop 基础

Hadoop 基础,对 Hadoop 架构、核心组件 HDFS/YARN 做了深入浅出的介绍,让你

快速把握 Hadoop 的核心技术和工作原理,逐渐形成分布式思维;

Hadoop 介绍

Hadoop 运行模式

3:Hadoop 集群搭建

Hadoop 集群搭建——安装 Linux 虚拟机

Hadoop 集群搭建——远程连接

Hadoop 集群搭建(on Linux)——Hadoop(上)

Hadoop 集群搭建(on Linux)——Hadoop(下)

Hadoop 集群搭建(on Mac)——Hadoop

4:HDFS 原理

番外篇-课程体系

HDFS 架构原理

FS Shell 命令介绍及实践

5:YARN 工作原理

YARN 的产生背景

YARN 的设计思想

YARN 的基本架构

YARN 的工作流程(小结)

6:Sqoop

Sqoop,作为关系型数据库与 Hadoop 之间的桥梁,批量传输数据,让你自然的从

关系型数据库过度到 Hadoop 平台,在关系型数据库与 Hadoop 之间游刃有余的进

行数据导入导出;

Sqoop & Hive 课程内容介绍

Sqoop 介绍与安装

Sqoop 的基本使用

Sqoop 导入参数详解

Sqoop 导入实战

Sqoop 增量导入(上)

Sqoop 增量导入(下)

Sqoop 导出实战(上)

Sqoop 导出实战(下)

Sqoop Job

7:Hive

Hive,基于 Hadoop 大数据平台的数据仓库,可以让你实现传统数据仓库中的绝

大部分数据处理、统计分析,让你在 Hadoop 大数据平台上感受到 Hive QL 带来

的便利的交互式查询体验;Mars 将以日志分析或其他示例带大家熟练掌握 Hive

的应用;

Hive 架构介绍(一)

Hive 架构介绍(二)

Hive 环境搭建(一)

Hive 环境搭建(二)

Hive CLI 初探

Beeline 介绍

Hive 数据类型

Hive 表一——标准建表语句解析&内、外表

Hive 表二——文件及数据格式

Hive 分区&桶&倾斜概念

Hive 表——Alter

Hive 视图&索引简介

Hive 表——show & Desc 命令

Hive 数据导入--load

Hive 数据导入--insert

Hive 分区表实战

Hive 复杂数据类型的嵌套实例

Hive 源码阅读环境

Hive 执行原理

Hive 查询优化

UDF 函数实例

Hive 终极实例——日志分析

(1)网站日志分析的术语、架构介绍

(2)建表及数据准备

(3)数据处理及统计分析

(4)数据采集到统计分析结果的 crontab 定时调度

8:HBase

HBase,列式存储数据库,提供了快速的查询方式,是 Apache Kylin 的默认数据

存储结果;

HBase 介绍及架构

HBase 安装

HBase 操作实战

Hive 与 HBase 集成实战

9:Kylin

Kylin,基于 Hadoop 的 OLAP 分析引擎,在 Kylin 中可以实现传统 OLAP 的各种操

作,直接读取 Hive 的数据或流式数据作为数据源,把这些数据根据业务模型构

建成 Cube,Kylin 提供了基于 Hadoop(MapReduce)的 Cube 构建,Build 完成的

Cube 数据直接存储于 HBase 中。Kylin 提供了 Web UI 供查询,包括一些图表展

现,是基于大数据的完美 OLAP 工具;

维度建模

Kylin 背景及原理架构

Kylin 环境搭建

维度建模知识

Kylin Cube Build 步骤解析

Kylin Cube 实战

Kylin 增量 Cube

Kylin 优化

10:Spark

Spark,基于内存计算的大数据计算引擎,提供了 Spark SQL、Spark MLlib(基

于 Spark 的机器学习)、SparkR 等框架适应不同的应用需求,Spark 专题将和大

家一起实践操作各种应用和算法;

Spark 集群搭建

Spark Core

Spark WordCount(Spark-shell/pyspark..)

IDEA IntelliJ 搭建 Spark 开发环境

Spark 编程实例

Spark SQL 及 DataFrame

Spark SQL 实例

Spark Streaming

Spark Streaming 实例

Spark MLlib

Spark MLlib 应用实例

Spark R 介绍

更多知识干货分享,在这里相信有许多想要学习大数据的同学,大家可以+下大数据学习裙:716加上【五8一】最后014,即可免费领取一整套系统的大数据学习教程

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CSDN技术头条

Cloudera旨在以Spark取代MapReduce作为默认Hadoop框架

Apache Spark内存计算框架更接近于Apache Hadoop,Cloudera今天宣布它正努力地使Spark取代默认的Hadoop数据处理框架。 “虽...

2139
来自专栏灯塔大数据

大数据赛道上的单挑:MapReduce与Spark到底谁快?

? 通常人们认为Spark的性能和速度全面优于MapReduce,但最新的对决显示MapReduce在某些方面也有胜场,而且数据规模越大优势越大。 Apach...

3716
来自专栏CDA数据分析师

大数据分析师为什么需要学习Spark?

作者 CDA 数据分析师 Spark这套速度极快的内存分析引擎与以往的大数据处理框架相比具有诸多优势,从而能够轻松地为大数据应用企业带来理想的投资回报。Sp...

2705
来自专栏腾讯大数据的专栏

飞起来的大象-Hadoop从离线到在线

时代在变迁,市场在变化,周边的软硬件环境也突飞猛进般的发展,同时企业的业务需求也不断升级,从规模到成本都有较高的要求,这刺激Hadoop生态圈的变革。据AMR研...

2888
来自专栏PPV课数据科学社区

技术丨从Hadoop到Spark,看大数据框架发展之路

谈到大数据框架,不得不提Hadoop和 Spark,今天我们进行历史溯源,帮助大家了解Hadoop和Spark的过去,感应未来。 在Hadoop出现前人们采用什...

3099
来自专栏CDA数据分析师

Spark为什么能成为大数据分析主流工具?

一.Spark是什么 Spark是伯克利大学2009年开始研发的一个项目,它是大数据时代下的一个快速处理数据分析工作的框架。spark发展十分迅速,2014年,...

4805
来自专栏PPV课数据科学社区

【学习】如何从菜鸟成长为Spark大数据高手?

Spark采用一个统一的技术堆栈解决了云计算大数据的如流处理、图技术、机器学习、NoSQL查询等方面的所有核心问题,具有完善的生态系统,这直接奠定了其一统云计算...

36310
来自专栏华章科技

Uber的大数据之道

原文网址:http://mp.weixin.qq.com/s?__biz=MzA3NTM4NDE2Mw==&mid=2649545686&idx=1&sn=4a...

982
来自专栏加米谷大数据

Spark适用场景以及与Hadoop MapReduce优势对比

3593
来自专栏风火数据

教你如何成为Spark大数据高手

Spark目前被越来越多的企业使用,和Hadoop一样,Spark也是以作业的形式向集群提交任务,那么如何成为Spark大数据高手?下面就来个深度教程。

1321

扫码关注云+社区

领取腾讯云代金券