很多朋友对大数据行业心向往之,却苦于不知道该如何下手。作为一个零基础大数据入门学习者该看哪些书?今天给大家推荐一位知乎网友挖矿老司机的指导贴,作为参考。
就目前公司招聘和其他所了解到的大数据专业的工作内容,偏重方向和技术选型有所不同。挖矿老司机就不同职业学习的书籍进行了分类推荐。
大数据学习可以加群:71658加1014
1. 大数据工程师
在互联网公司广泛招聘,偏平台业务方向,ETL和OLTP等,主要是基于Hadoop技术栈来处理大数据,算法要求不是特别高。
经典图书推荐:
《Hadoop权威指南》《Hive编程指南》《Hbase权威指南》《大数据技术全解》、《大数据挑战NoSql》《Mahout实战》
2. 数据分析师:
在拥有行业数据的电商、金融、电信、咨询等行业里做业务咨询,商务智能,出分析报告,互联网公司的产品经理差不多类型了,统计学能力要求高,SPSS、SAS、R、SQL。
经典图书推荐:
《概率论与数理统计》、《统计学》推荐David Freedman版、《业务建模与数据挖掘》、《数据挖掘导论》、《SAS编程与数据挖掘商业案例》、《Clementine数据挖掘方法及应用 》、《IBM SPSS Statistics 19 Statistical Procedures Companion》等。
3. 数据挖掘工程师:
在互联网、电商、搜索、社交等大数据相关行业里做机器学习算法实现和分析,基本数据结构算法、机器学习等都要求较高。Hadoop、spark技术栈,Java、Python、C++、Scala、Shell。
经典图书推荐:
《数据挖掘概念与技术》、《数据挖掘导论》、《数据挖掘-实用机器学习技术》;《机器学习》Tom Michael 、《机器学习导论》、周志华《机器学习》、《机器学习实战》、《集体智慧编程》、《统计学习方法》ESL 《Elements of Statistical Learning》 ISL 《An Introduction to Statistical Learning》PRML 《Pattern Recognition and Machine Learning》《数据库系统概论》、《算法导论》、《Web数据挖掘》、《推荐系统》、《数据可视化》《Thinking in Java》、《Python核心编程》、《Thinking in C++》等。
4. 科学研究方向:
在高校、科研单位、企业研究院等高大上科研机构研究新算法效率改进及未来应用,还有现在很多计算机视觉的创业公司的算法研究。
经典图书推荐:
《机器学习》《模式分类》《统计学习理论的本质》《统计学习方法》《数据挖掘实用机器学习技术》《R语言实践》,《人工智能及其应用》、《概率图模型》英文素质是科研人才必备的《Machine Learning: A Probabilistic Perspective》《Scaling up Machine Learning : Parallel and Distributed Approaches》《Data Mining Using SAS Enterprise Miner : A Case Study Approach》《Python for Data Analysis》等。
当然还有一步很重要就是不断练习、练习、练习,将学到的知识与实际应用场景相结合,学会写代码也很重要哦。大数据学科是一门综合学科,对于教授该专业的老师也是一项很大的挑战。
但是对于零基础的朋友来说,光是看这些书籍是远远不够的,可能看不懂。所以个人建议还是找一家培训机构,边学边看边练,学完课程后才能找到高薪好工作!如果想要找大数据培训机构,参考下加米谷大数据。
学习大数据的话,看下面这个大纲,入门可以参考。
一般的学习方法如下:
1、Linux 命令基础实战
大数据架构体系结构及开源组件介绍 (要掌握)
Linux 基本操作 (常见的 Linux 命令需要会)
2:Hadoop 基础
Hadoop 基础,对 Hadoop 架构、核心组件 HDFS/YARN 做了深入浅出的介绍,让你
快速把握 Hadoop 的核心技术和工作原理,逐渐形成分布式思维;
Hadoop 介绍
Hadoop 运行模式
3:Hadoop 集群搭建
Hadoop 集群搭建——安装 Linux 虚拟机
Hadoop 集群搭建——远程连接
Hadoop 集群搭建(on Linux)——Hadoop(上)
Hadoop 集群搭建(on Linux)——Hadoop(下)
Hadoop 集群搭建(on Mac)——Hadoop
4:HDFS 原理
番外篇-课程体系
HDFS 架构原理
FS Shell 命令介绍及实践
5:YARN 工作原理
YARN 的产生背景
YARN 的设计思想
YARN 的基本架构
YARN 的工作流程(小结)
6:Sqoop
Sqoop,作为关系型数据库与 Hadoop 之间的桥梁,批量传输数据,让你自然的从
关系型数据库过度到 Hadoop 平台,在关系型数据库与 Hadoop 之间游刃有余的进
行数据导入导出;
Sqoop & Hive 课程内容介绍
Sqoop 介绍与安装
Sqoop 的基本使用
Sqoop 导入参数详解
Sqoop 导入实战
Sqoop 增量导入(上)
Sqoop 增量导入(下)
Sqoop 导出实战(上)
Sqoop 导出实战(下)
Sqoop Job
7:Hive
Hive,基于 Hadoop 大数据平台的数据仓库,可以让你实现传统数据仓库中的绝
大部分数据处理、统计分析,让你在 Hadoop 大数据平台上感受到 Hive QL 带来
的便利的交互式查询体验;Mars 将以日志分析或其他示例带大家熟练掌握 Hive
的应用;
Hive 架构介绍(一)
Hive 架构介绍(二)
Hive 环境搭建(一)
Hive 环境搭建(二)
Hive CLI 初探
Beeline 介绍
Hive 数据类型
Hive 表一——标准建表语句解析&内、外表
Hive 表二——文件及数据格式
Hive 分区&桶&倾斜概念
Hive 表——Alter
Hive 视图&索引简介
Hive 表——show & Desc 命令
Hive 数据导入--load
Hive 数据导入--insert
Hive 分区表实战
Hive 复杂数据类型的嵌套实例
Hive 源码阅读环境
Hive 执行原理
Hive 查询优化
UDF 函数实例
Hive 终极实例——日志分析
(1)网站日志分析的术语、架构介绍
(2)建表及数据准备
(3)数据处理及统计分析
(4)数据采集到统计分析结果的 crontab 定时调度
8:HBase
HBase,列式存储数据库,提供了快速的查询方式,是 Apache Kylin 的默认数据
存储结果;
HBase 介绍及架构
HBase 安装
HBase 操作实战
Hive 与 HBase 集成实战
9:Kylin
Kylin,基于 Hadoop 的 OLAP 分析引擎,在 Kylin 中可以实现传统 OLAP 的各种操
作,直接读取 Hive 的数据或流式数据作为数据源,把这些数据根据业务模型构
建成 Cube,Kylin 提供了基于 Hadoop(MapReduce)的 Cube 构建,Build 完成的
Cube 数据直接存储于 HBase 中。Kylin 提供了 Web UI 供查询,包括一些图表展
现,是基于大数据的完美 OLAP 工具;
维度建模
Kylin 背景及原理架构
Kylin 环境搭建
维度建模知识
Kylin Cube Build 步骤解析
Kylin Cube 实战
Kylin 增量 Cube
Kylin 优化
10:Spark
Spark,基于内存计算的大数据计算引擎,提供了 Spark SQL、Spark MLlib(基
于 Spark 的机器学习)、SparkR 等框架适应不同的应用需求,Spark 专题将和大
家一起实践操作各种应用和算法;
Spark 集群搭建
Spark Core
Spark WordCount(Spark-shell/pyspark..)
IDEA IntelliJ 搭建 Spark 开发环境
Spark 编程实例
Spark SQL 及 DataFrame
Spark SQL 实例
Spark Streaming
Spark Streaming 实例
Spark MLlib
Spark MLlib 应用实例
Spark R 介绍
更多知识干货分享,在这里相信有许多想要学习大数据的同学,大家可以+下大数据学习裙:716加上【五8一】最后014,即可免费领取一整套系统的大数据学习教程
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。