前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大数据学习过程中需要看些什么书?学习路线

大数据学习过程中需要看些什么书?学习路线

原创
作者头像
用户2292346
发布2018-07-08 17:52:26
2.3K0
发布2018-07-08 17:52:26
举报

很多朋友对大数据行业心向往之,却苦于不知道该如何下手。作为一个零基础大数据入门学习者该看哪些书?今天给大家推荐一位知乎网友挖矿老司机的指导贴,作为参考。

就目前公司招聘和其他所了解到的大数据专业的工作内容,偏重方向和技术选型有所不同。挖矿老司机就不同职业学习的书籍进行了分类推荐。

大数据学习可以加群:71658加1014

1. 大数据工程师

在互联网公司广泛招聘,偏平台业务方向,ETL和OLTP等,主要是基于Hadoop技术栈来处理大数据,算法要求不是特别高。

经典图书推荐:

《Hadoop权威指南》《Hive编程指南》《Hbase权威指南》《大数据技术全解》、《大数据挑战NoSql》《Mahout实战》


2. 数据分析师:

在拥有行业数据的电商、金融、电信、咨询等行业里做业务咨询,商务智能,出分析报告,互联网公司的产品经理差不多类型了,统计学能力要求高,SPSS、SAS、R、SQL。

经典图书推荐:

《概率论与数理统计》、《统计学》推荐David Freedman版、《业务建模与数据挖掘》、《数据挖掘导论》、《SAS编程与数据挖掘商业案例》、《Clementine数据挖掘方法及应用 》、《IBM SPSS Statistics 19 Statistical Procedures Companion》等。


3. 数据挖掘工程师:

在互联网、电商、搜索、社交等大数据相关行业里做机器学习算法实现和分析,基本数据结构算法、机器学习等都要求较高。Hadoop、spark技术栈,Java、Python、C++、Scala、Shell。

经典图书推荐:

《数据挖掘概念与技术》、《数据挖掘导论》、《数据挖掘-实用机器学习技术》;《机器学习》Tom Michael 、《机器学习导论》、周志华《机器学习》、《机器学习实战》、《集体智慧编程》、《统计学习方法》ESL 《Elements of Statistical Learning》 ISL 《An Introduction to Statistical Learning》PRML 《Pattern Recognition and Machine Learning》《数据库系统概论》、《算法导论》、《Web数据挖掘》、《推荐系统》、《数据可视化》《Thinking in Java》、《Python核心编程》、《Thinking in C++》等。


4. 科学研究方向:

在高校、科研单位、企业研究院等高大上科研机构研究新算法效率改进及未来应用,还有现在很多计算机视觉的创业公司的算法研究。

经典图书推荐:

《机器学习》《模式分类》《统计学习理论的本质》《统计学习方法》《数据挖掘实用机器学习技术》《R语言实践》,《人工智能及其应用》、《概率图模型》英文素质是科研人才必备的《Machine Learning: A Probabilistic Perspective》《Scaling up Machine Learning : Parallel and Distributed Approaches》《Data Mining Using SAS Enterprise Miner : A Case Study Approach》《Python for Data Analysis》等。

当然还有一步很重要就是不断练习、练习、练习,将学到的知识与实际应用场景相结合,学会写代码也很重要哦。大数据学科是一门综合学科,对于教授该专业的老师也是一项很大的挑战。

但是对于零基础的朋友来说,光是看这些书籍是远远不够的,可能看不懂。所以个人建议还是找一家培训机构,边学边看边练,学完课程后才能找到高薪好工作!如果想要找大数据培训机构,参考下加米谷大数据。

学习大数据的话,看下面这个大纲,入门可以参考。

一般的学习方法如下:

1、Linux 命令基础实战

大数据架构体系结构及开源组件介绍 (要掌握)

Linux 基本操作 (常见的 Linux 命令需要会)

2:Hadoop 基础

Hadoop 基础,对 Hadoop 架构、核心组件 HDFS/YARN 做了深入浅出的介绍,让你

快速把握 Hadoop 的核心技术和工作原理,逐渐形成分布式思维;

Hadoop 介绍

Hadoop 运行模式

​大数据学习流程图?学习大数据的流程是什么?【四川优就业】
​大数据学习流程图?学习大数据的流程是什么?【四川优就业】

3:Hadoop 集群搭建

Hadoop 集群搭建——安装 Linux 虚拟机

Hadoop 集群搭建——远程连接

Hadoop 集群搭建(on Linux)——Hadoop(上)

Hadoop 集群搭建(on Linux)——Hadoop(下)

Hadoop 集群搭建(on Mac)——Hadoop

4:HDFS 原理

番外篇-课程体系

HDFS 架构原理

FS Shell 命令介绍及实践

5:YARN 工作原理

YARN 的产生背景

YARN 的设计思想

YARN 的基本架构

YARN 的工作流程(小结)

​大数据学习流程图?学习大数据的流程是什么?【四川优就业】
​大数据学习流程图?学习大数据的流程是什么?【四川优就业】

6:Sqoop

Sqoop,作为关系型数据库与 Hadoop 之间的桥梁,批量传输数据,让你自然的从

关系型数据库过度到 Hadoop 平台,在关系型数据库与 Hadoop 之间游刃有余的进

行数据导入导出;

Sqoop & Hive 课程内容介绍

Sqoop 介绍与安装

Sqoop 的基本使用

Sqoop 导入参数详解

Sqoop 导入实战

Sqoop 增量导入(上)

Sqoop 增量导入(下)

Sqoop 导出实战(上)

Sqoop 导出实战(下)

Sqoop Job

7:Hive

Hive,基于 Hadoop 大数据平台的数据仓库,可以让你实现传统数据仓库中的绝

大部分数据处理、统计分析,让你在 Hadoop 大数据平台上感受到 Hive QL 带来

的便利的交互式查询体验;Mars 将以日志分析或其他示例带大家熟练掌握 Hive

的应用;

Hive 架构介绍(一)

Hive 架构介绍(二)

Hive 环境搭建(一)

Hive 环境搭建(二)

Hive CLI 初探

Beeline 介绍

Hive 数据类型

​大数据学习流程图?学习大数据的流程是什么?【四川优就业】
​大数据学习流程图?学习大数据的流程是什么?【四川优就业】

Hive 表一——标准建表语句解析&内、外表

Hive 表二——文件及数据格式

Hive 分区&桶&倾斜概念

Hive 表——Alter

Hive 视图&索引简介

Hive 表——show & Desc 命令

Hive 数据导入--load

Hive 数据导入--insert

Hive 分区表实战

Hive 复杂数据类型的嵌套实例

Hive 源码阅读环境

Hive 执行原理

Hive 查询优化

UDF 函数实例

Hive 终极实例——日志分析

(1)网站日志分析的术语、架构介绍

(2)建表及数据准备

(3)数据处理及统计分析

(4)数据采集到统计分析结果的 crontab 定时调度

8:HBase

HBase,列式存储数据库,提供了快速的查询方式,是 Apache Kylin 的默认数据

存储结果;

HBase 介绍及架构

HBase 安装

HBase 操作实战

Hive 与 HBase 集成实战

9:Kylin

Kylin,基于 Hadoop 的 OLAP 分析引擎,在 Kylin 中可以实现传统 OLAP 的各种操

作,直接读取 Hive 的数据或流式数据作为数据源,把这些数据根据业务模型构

建成 Cube,Kylin 提供了基于 Hadoop(MapReduce)的 Cube 构建,Build 完成的

Cube 数据直接存储于 HBase 中。Kylin 提供了 Web UI 供查询,包括一些图表展

现,是基于大数据的完美 OLAP 工具;

维度建模

Kylin 背景及原理架构

Kylin 环境搭建

维度建模知识

Kylin Cube Build 步骤解析

Kylin Cube 实战

Kylin 增量 Cube

Kylin 优化

10:Spark

Spark,基于内存计算的大数据计算引擎,提供了 Spark SQL、Spark MLlib(基

于 Spark 的机器学习)、SparkR 等框架适应不同的应用需求,Spark 专题将和大

家一起实践操作各种应用和算法;

Spark 集群搭建

Spark Core

Spark WordCount(Spark-shell/pyspark..)

IDEA IntelliJ 搭建 Spark 开发环境

Spark 编程实例

Spark SQL 及 DataFrame

Spark SQL 实例

Spark Streaming

Spark Streaming 实例

Spark MLlib

Spark MLlib 应用实例

Spark R 介绍

更多知识干货分享,在这里相信有许多想要学习大数据的同学,大家可以+下大数据学习裙:716加上【五8一】最后014,即可免费领取一整套系统的大数据学习教程

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档