大数据初学 或Java工程师怎么转大数据?大数据基础技术学习路线图

最近好多人都在问我,大数据怎么学,java怎么转大数据,今天就给大家分享一下。

大数据初学者怎样学习 或Java工程师怎么转大数据

大数据学习群:199427210

大数据现在很火很热,但是怎么学习呢?下面我给大家分享一下:

首先给大家普及一下大数据相关知识大数据的4大特征:

1.数据在体量方面很大,比如说文字,有各种各样的来源,有电子书|实体书|杂志|报刊等,它们的数据大吧。

2.数据的类型多种多样,有些是结构化的数据,像存在Oracle,MySQL这些传统的数据库里的数据,一般都是结构化,可以是还有非结构化,比如HTML,WORD,execl等格式。

3.它们的价值密度低,这样说吧,你比如说观看一条数据好像价值也不大,但是分析所有的数据之后呢?总会挖掘出一些 重要的东西。

4.处理这些数据的速度要快。比如像Hadoop技术的MapReduce计算框架,相比传统的数据库处理速度要快,它的吞吐量 特别的大,再比如Spark,Spark在内存方面计算比Hadoop快100倍,在磁盘方面计算快10倍。

大数据的方向的工作有 大数据运维工程师、大数据开发工程师、数据分析、数据挖掘、架构师等。

大数据的技术有

  • Hadoop HDFS文件系统 MR计算模型
  • Hive数据仓库
  • HBase数据库
  • Flume日志收集
  • Kafka消息系统
  • Storm流式计算
  • Spark生态圈:Spark Core、Spark SQL、Spark Streaming、MLLib和GraphX
  • Zookeeper协调系统
  • NOSQL数据库:Redis、MongoDB
  • 机器学习:Mahout

看到这么多技术是不是有点晕呢?该怎么学习呢?

  1. 先学Hadoop Hadoop框架中由两大模块组成,一个HDFS(Hadoop Distributed File System),是用来存储需要处理的数据,另外一个是MapReduce,是Hadoop的处理数据的计算模型。
  2. 学习一门数据库,像MySQL学点SQL吧

  1. Hive 只要你会SQL,你就会使用它。hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。
  2. HBase HBase即Hadoop DataBase,Hadoop的数据库,HBase是一种 "NoSQL" 数据库,即不是RDBMS ,不支持SQL作为主要访问手段。
  3. Sqoop Sqoop是迁移数据工具,可以在很多数据库之间来迁移,
  4. Flume Flume是一个分布式的海量日志采集和传输框架,一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。
  5. Kafka 使用Kafka完成数据的一次收集,多次消费。它是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统。
  6. Spark基于内存计算的框架 Spark Core最为重要再学SparkSQL、Spark Streaming、图计算、机器学习
  7. Storm实时的流计算框架。

后期可以学习机器学习Mahout

基本就是这样的学习顺序。加油学习吧。

大数据基础技术学习路线图

一. Python学习路线图

1. 基础语法结构(语句块、程序输入输出、文档字符串、日期和时间函数等)

2. 变量和赋值、数字、字符串、列表、元组、字典

3. 代码块及缩进对齐

4. if语句、判断条件

5. Python流程控制语句:while循环、for循环与range()内建函数列表解析

6. 文件对象:文件打开方法、文件输入输出

7. 函数:函数创建、参数等

8. 模块:模块的导入及加载等

9. 语句和语法

10. 数字对象详解,数字运算符及其内建函数等

11. 字符串详解:字符串切片、相关方法

12. 列表:更新、访问及相关函数

13. 元组操作符及内建函数应用

14. 字典详解:创建、更新及相关方法等

15. 集合:可变与不可变集合以及其关内建函数

16. 操作mysql数据库

17. XML解析

18. 熟悉os模块:访问文件系统的主要方法

19. 异常:捕获异常、处理异常

20. 函数高级应用:闭包、装饰器

21. 函数式编程:偏函数、递归函数应用

22. 模块和包:创建及使用方法

23. 面向对象编程

二.Hadoop学习路线图

1. 了解Hadoop生态系统概述以及版本演化

2. HDFS文件系统原理、特性与基本架构

3. HDFS文件系统API编程

a) 使用 FileSystem API 操作 HDFS 中内容

b) 了解 Configuration,Path ,FileStatus,FSDataInputStream,FSDataOutputStream等API类的使用

4. HDFS文件系统命令行操作(hdfs fs -help操作命令)

4. YARN应用场景、基本架构与资源调度

5. Map-Reduce原理、体系架构和工作机制

6. Map-Reduce 编程实践(java python等多语言编程)

7. Map-Reduce高级编程实践

a) 重要的组件了解

i. InputFormat 输入格式(FileInputFormat,TextInputFormat,SequenceInputFormat等)

ii. OutputFormat 输出格式(FileOutputFormat,TextOutputFormat等)

iii. 多种输入与输出使用(MultipleInputs 多种输入,MultipleOututs 多种输出)

iv. Combiner

v. Partitioner

vi. RecordReader

vii. Writable 接口

viii. WritableComparable 接口与 RawComparator 接口

ix. 如何自定义的 Writable 类

b) 计数器(内置计数器,如何自定义计数器)

i. MapReduce 任务计数器:TaskCounter

ii. 文件系统计数器:FileSystemCounter

iii. 输入文件计数器:FileInputFormatCounter

iv. 输出文件计数器:FileOutputFormatCounter

v. 任务计数器:JobCounter

c) join(Map端Join,Reduce)

d) 排序(全排序,部分排序,二次排序)

8. Hadoop运维工具学习

 dfsadmin/mradmin/balancer/distcp/fsck/job等

三.Hive学习路线图

1. hive体系架构

2. hive的访问方式(CLI, Hive Server2, HWI等)

3. HQL

a) 基础语法:DDL,DML

b) 数据类型

c) Hive高级查询语句(group by操作,Join操作,Order by和Sort by,Union all等)

4. 存储类型

a) TextFile

b) Sequence File

c) RCFile

d) ORCFile

5. 函数

a) 自带函数

b) 自定义函数(UDF,UDTF,UDAF)

四.Spark学习路线图

1.Spark基本架构

2.Spark工作机制

3.Spark计算模型

4. scala语言的学习

5.Spark编程

a) 掌握基本实例(wordcount join mapjoin 排序)

6.了解Spark sql 交互式查询

a) 运行架构

b) 基本使用

7.Spark Streaming

a) 基本架构

b) 运行原理

c) 运用场景

d) 编程模型DStream

e) 程序调优方式

8.机器学习

a) 定义

b) 分类

c) 常用算法

d) Mllib(概要,构成,运行架构,了解具体实例)

大数据基础入门学习图

大数据学习群:199427210

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏牛客网

Java面经:去哪儿四轮面试真题分享

废话不多说,前几天参加去哪网面试,面经如下: 去哪网java实习生面总共分为四轮(我也不知道为什么这么多)。 一面(技术面) 1.自我介绍,并分析简历上的项目,...

3726
来自专栏Albert陈凯

借助 Redis ,让 Spark 提速 45 倍!

一些内存数据结构比其他数据结构来得更高效;如果充分利用Redis,Spark运行起来速度更快。 Apache Spark已逐渐俨然成为下一代大数据处理工具的典...

4493
来自专栏算法+

WebRTC 音频算法 附完整C代码

AEC是声学回声消除(Acoustic Echo Canceller for Mobile)

5695
来自专栏美图数据技术团队

一览美图数据开发与SQL解析

感谢阅读「美图数据技术团队」的第 16 篇原创文章,关注我们持续获取美图最新数据技术动态。

1282
来自专栏扎心了老铁

hadoop streaming编程小demo(python版)

大数据团队搞数据质量评测。自动化质检和监控平台是用django,MR也是通过python实现的。(后来发现有orc压缩问题,python不知道怎么解决,正在改成...

4414
来自专栏斑斓

我们的技术实践

本文是我在中生代技术群分享的话题《创业一年经历的技术风雨》中的第三部分《研发团队总结的技术实践》。若要阅读第二部分《技术团队的管理》,请移步中生代技术群公众号。...

3335
来自专栏about云

Spark利用Project Tungsten将硬件性能提升到极限

我们将为你介绍性能提升的下一阶段——Tungsten。在2014年,我们目睹了Spark缔造大规模排序的新世界纪录,同时也看到了Spark整个引擎的大幅度提升—...

4087
来自专栏CSDN技术头条

Apache Spark作为编译器:深入介绍新的Tungsten执行引擎

《Spark 2.0技术预览:更容易、更快速、更智能》文中简单地介绍了Spark 2.0相关技术, 本文将深入介绍新的Tungsten执行引擎。Apache S...

2585
来自专栏人工智能LeadAI

专业工程师看过来~ | RDD、DataFrame和DataSet的细致区别

RDD、DataFrame和DataSet是容易产生混淆的概念,必须对其相互之间对比,才可以知道其中异同。 RDD和DataFrame 上图直观地体现了Data...

3437
来自专栏FreeBuf

Python工具分析风险数据

小安前言 随着网络安全信息数据大规模的增长,应用数据分析技术进行网络安全分析成为业界研究热点,小安在这次小讲堂中带大家用Python工具对风险数据作简单分析,主...

2729

扫码关注云+社区

领取腾讯云代金券