大数据初学或Java工程师怎么转大数据？大数据基础技术学习路线图

原创

用户2292346

修改于 2018-06-06 09:44:10

8710

修改于 2018-06-06 09:44:10

文章被收录于专栏：大数据技术学习

最近好多人都在问我，大数据怎么学，java怎么转大数据，今天就给大家分享一下。

大数据初学者怎样学习或Java工程师怎么转大数据

大数据学习群：199427210

大数据现在很火很热，但是怎么学习呢？下面我给大家分享一下：

首先给大家普及一下大数据相关知识大数据的4大特征：

1.数据在体量方面很大，比如说文字，有各种各样的来源，有电子书|实体书|杂志|报刊等，它们的数据大吧。

2.数据的类型多种多样，有些是结构化的数据，像存在Oracle,MySQL这些传统的数据库里的数据，一般都是结构化，可以是还有非结构化，比如HTML,WORD，execl等格式。

3.它们的价值密度低，这样说吧，你比如说观看一条数据好像价值也不大，但是分析所有的数据之后呢？总会挖掘出一些重要的东西。

4.处理这些数据的速度要快。比如像Hadoop技术的MapReduce计算框架，相比传统的数据库处理速度要快，它的吞吐量特别的大，再比如Spark，Spark在内存方面计算比Hadoop快100倍，在磁盘方面计算快10倍。

大数据的方向的工作有大数据运维工程师、大数据开发工程师、数据分析、数据挖掘、架构师等。

大数据的技术有

Hadoop HDFS文件系统 MR计算模型
Hive数据仓库
HBase数据库
Flume日志收集
Kafka消息系统
Storm流式计算
Spark生态圈：Spark Core、Spark SQL、Spark Streaming、MLLib和GraphX
Zookeeper协调系统
NOSQL数据库：Redis、MongoDB
机器学习：Mahout

看到这么多技术是不是有点晕呢？该怎么学习呢？

先学Hadoop Hadoop框架中由两大模块组成，一个HDFS(Hadoop Distributed File System)，是用来存储需要处理的数据，另外一个是MapReduce，是Hadoop的处理数据的计算模型。
学习一门数据库，像MySQL学点SQL吧

Hive 只要你会SQL，你就会使用它。hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。
HBase HBase即Hadoop DataBase，Hadoop的数据库，HBase是一种 "NoSQL" 数据库,即不是RDBMS ，不支持SQL作为主要访问手段。
Sqoop Sqoop是迁移数据工具，可以在很多数据库之间来迁移，
Flume Flume是一个分布式的海量日志采集和传输框架，一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。
Kafka 使用Kafka完成数据的一次收集，多次消费。它是一个分布式、支持分区的（partition）、多副本的（replica），基于zookeeper协调的分布式消息系统。
Spark基于内存计算的框架 Spark Core最为重要再学SparkSQL、Spark Streaming、图计算、机器学习
Storm实时的流计算框架。

后期可以学习机器学习Mahout

基本就是这样的学习顺序。加油学习吧。

大数据基础技术学习路线图

一． Python学习路线图

1. 基础语法结构（语句块、程序输入输出、文档字符串、日期和时间函数等）

2. 变量和赋值、数字、字符串、列表、元组、字典

3. 代码块及缩进对齐

4. if语句、判断条件

5. Python流程控制语句：while循环、for循环与range()内建函数列表解析

6. 文件对象：文件打开方法、文件输入输出

7. 函数：函数创建、参数等

8. 模块：模块的导入及加载等

9. 语句和语法

10. 数字对象详解，数字运算符及其内建函数等

11. 字符串详解：字符串切片、相关方法

12. 列表：更新、访问及相关函数

13. 元组操作符及内建函数应用

14. 字典详解：创建、更新及相关方法等

15. 集合：可变与不可变集合以及其关内建函数

16. 操作mysql数据库

17. XML解析

18. 熟悉os模块：访问文件系统的主要方法

19. 异常：捕获异常、处理异常

20. 函数高级应用：闭包、装饰器

21. 函数式编程：偏函数、递归函数应用

22. 模块和包：创建及使用方法

23. 面向对象编程

二．Hadoop学习路线图

1. 了解Hadoop生态系统概述以及版本演化

2. HDFS文件系统原理、特性与基本架构

3. HDFS文件系统API编程

a) 使用 FileSystem API 操作 HDFS 中内容

b) 了解 Configuration，Path ，FileStatus，FSDataInputStream,FSDataOutputStream等API类的使用

4. HDFS文件系统命令行操作（hdfs fs -help操作命令）

4. YARN应用场景、基本架构与资源调度

5. Map-Reduce原理、体系架构和工作机制

6. Map-Reduce 编程实践（java python等多语言编程）

7. Map-Reduce高级编程实践

a) 重要的组件了解

i. InputFormat 输入格式(FileInputFormat,TextInputFormat，SequenceInputFormat等)

ii. OutputFormat 输出格式（FileOutputFormat,TextOutputFormat等）

iii. 多种输入与输出使用（MultipleInputs 多种输入,MultipleOututs 多种输出）

iv. Combiner

v. Partitioner

vi. RecordReader

vii. Writable 接口

viii. WritableComparable 接口与 RawComparator 接口

ix. 如何自定义的 Writable 类

b) 计数器（内置计数器,如何自定义计数器）

i. MapReduce 任务计数器:TaskCounter

ii. 文件系统计数器:FileSystemCounter

iii. 输入文件计数器:FileInputFormatCounter

iv. 输出文件计数器:FileOutputFormatCounter

v. 任务计数器:JobCounter

c) join(Map端Join,Reduce)

d) 排序（全排序,部分排序,二次排序）

8. Hadoop运维工具学习

 dfsadmin/mradmin/balancer/distcp/fsck/job等

三．Hive学习路线图

1. hive体系架构

2. hive的访问方式（CLI, Hive Server2, HWI等）

3. HQL

a) 基础语法：DDL,DML

b) 数据类型

c) Hive高级查询语句（group by操作,Join操作,Order by和Sort by,Union all等）

4. 存储类型

a) TextFile

b) Sequence File

c) RCFile

d) ORCFile

5. 函数

a) 自带函数

b) 自定义函数（UDF,UDTF,UDAF）

四．Spark学习路线图

1.Spark基本架构

2.Spark工作机制

3.Spark计算模型

4. scala语言的学习

5.Spark编程

a) 掌握基本实例（wordcount join mapjoin 排序）

6.了解Spark sql 交互式查询

a) 运行架构

b) 基本使用

7.Spark Streaming

a) 基本架构

b) 运行原理

c) 运用场景

d) 编程模型DStream

e) 程序调优方式

8.机器学习

a) 定义

b) 分类

c) 常用算法

d) Mllib（概要，构成，运行架构，了解具体实例）

大数据基础入门学习图

大数据学习群：199427210

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

大数据

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

大数据

登录后参与评论

0 条评论

热度