常用的大数据技术有哪些?hadoop学习总结

大数据技术为决策提供依据,在政府、企业、科研项目等决策中扮演着重要的角色,在社会治理和企业管理中起到了不容忽视的作用,很多国家,如中国、美国以及欧盟等都已将大数据列入国家发展战略,微软、谷歌、百度以及亚马逊等大型企业也将大数据技术列为未来发展的关键筹码,可见,大数据技术在当今乃至未来的重要性!

大数据技术,简而言之,就是提取大数据价值的技术,是根据特定目标,经过数据收集与存储、数据筛选、算法分析与预测、数据分析结果展示等,为做出正确决策提供依据,其数据级别通常在PB以上,以下是常用的大数据技术:

一、大数据基础阶段

大数据学习qun: 716581014

大数据基础阶段需掌握的技术有:Linux、Docker、KVM、MySQL基础、Oracle基础、MongoDB、redis以及hadoopmapreduce hdfs yarn等。

二、大数据存储阶段

大数据存储阶段需掌握的技术有:hbase、hive、sqoop等。

三、大数据架构设计阶段

大数据架构设计阶段需掌握的技术有:Flume分布式、Zookeeper、Kafka等。

四、大数据实时计算阶段

大数据实时计算阶段需掌握的技术有:Mahout、Spark、storm。

五、大数据数据采集阶段

大数据数据采集阶段需掌握的技术有:Python、Scala。

六、大数据商业实战阶段

大数据商业实战阶段需掌握的技术有:实操企业大数据处理业务场景,分析需求、解决方案实施,综合技术实战应用。

在拥有Java编程语言基础的前提下,可以学习以上大数据技术,大数据是未来的发展方向,正在挑战我们的分析能力及对世界的认知方式,因此,我们与时俱进,迎接变化,并不断的成长!

Hadoop是在分布式服务器集群上存储海量数据并运行分布式分析应用的一个平台,其核心部件是HDFS与MapReduce。HDFS是一个分布式文件系统,可对数据系统进行分布式储存读取;MapReduce是一个计算框架,通过对计算任务的拆分,再根据任务调度器,对任务进行分布式计算。

Hadoop是大数据开发必不可少的框架技术,因此,想要学好大数据,必须要掌握Hadoop相关知识,那么,hadoop主要学什么呢?

一、Hadoop环境搭建

1. Hadoop生态环境介绍

2. Hadoop云计算中的位置和关系

3. 国内外Hadoop应用案例介绍

4. Hadoop概念、版本、历史

5. Hadoop核心组成介绍及hdfs、mapreduce体系结构

6. Hadoop独立模式安装和测试

7. Hadoop的集群结构

8. Hadoop伪分布的详细安装步骤

9. 通过命令行和浏览器观察Hadoop

10. Hadoop启动脚本分析

11. Hadoop完全分布式环境搭建

12. Hadoop安全模式、回收站介绍

二、HDFS体系结构和Shell以及Java操作

1. HDFS底层工作原理

2. HDFSdatanode,namenode详解

3. 单点故障(SP0F)和高可用(HA)

4. 通过API访问HDFS

5. 常用压缩算法介绍和安装使用

6. Maven介绍和安装,eclipse中使用Maven,搭建Maven本地仓库

三、Mapreduce学习

1. Mapreduce四个阶段介绍

2. Job、Task介绍

3. 默认工作机制

4. 创建MR应用开发,获取年度的最高气温

5. 在Windows上运行MR作业

6. Mapper、Reducer

7. InputSplit和OutputSplit

8. Shuffle:Sort,Partitioner,Group,Combiner

9. 通过计数器调试程序

10. 在Windows安装Hadoop

11. 在eclipse安装Hadoop插件,访问Hadoop资源

12. 在eclipse中编写ant脚本

13. YARN调度框架事件分发机制

14. 远程调试资源管理器

15. Hadoop的底层google ProtoBuf的协议分析

16. Hadoop底层IPC原理和RPC

四、Hadoop高可用-HA

1. Hadoop2.x集群结构体系介绍

2. Hadoop2.x集群搭建

3. NameNode的高可用性(HA)

4. HDFS Federation

5. ResourceManager的高可用性(HA)

6. Hadoop集群常见问题和解决办法

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏祝威廉

Transformer架构解析

数据的变换依赖于数据的流转,只有流转的数据才能够被变换。基于这个理念,我们提出了Transformer架构。

8810
来自专栏杨建荣的学习笔记

浅谈Hadoop (r4笔记第81天)

大数据的概念炒了好多年了,很显然这项技术经受住了时间的考验,不是有些人想的那样华而不实,多年来总是伴随着Hadoop的身影越发壮大。 这些年来数据的增长量真是发...

37860
来自专栏祝威廉

用机器学习流程去建模我们的平台架构

spark.ml 在一开始就提出了五个概念。这五个概念也完全可以对一个通用的service platform进行建模和抽象。我们来看看。

9310
来自专栏about云

Hadoop是从Lucene中独立出来的子项目--Hadoop产生背景

问题导读 我们在学习一项新知识,可能不太关注它的产生背景,但是任何故事如果脱离了它的时代,就不会在有意义。如果想了解Hadoop,我们需要知道 1.它是如何产生...

32080
来自专栏腾讯大数据的专栏

飞起来的大象-Hadoop从离线到在线

时代在变迁,市场在变化,周边的软硬件环境也突飞猛进般的发展,同时企业的业务需求也不断升级,从规模到成本都有较高的要求,这刺激Hadoop生态圈的变革。据AMR研...

30280
来自专栏JAVA高级架构

从0到1,成为大数据行业领袖

目前最火的大数据,很多人想往大数据方向发展,想问该学哪些技术,学习路线是什么样的,觉得大数据很火,就业很好,薪资很高。如果自己很迷茫,为了这些原因想往大数据方向...

28770
来自专栏恰童鞋骚年

Hadoop学习笔记系列文章导航

  这是一个信息爆炸的时代。经过数十年的积累,很多企业都聚集了大量的数据。这些数据也是企业的核心财富之一,怎样从累积的数据里寻找价值,变废为宝炼数成金成为当务之...

9520
来自专栏大数据

使用Hadoop分析大数据

大数据由于其庞大的规模而显得笨拙,并且大数据需要工具进行高效地处理并从中提取有意义的结果。Hadoop是一个用于存储,分析和处理数据的开源软件框架和平台。本文是...

21620
来自专栏Albert陈凯

《Hadoop大数据技术体系:原理、内幕与项目实践》课程体系

《Hadoop大数据技术体系:原理、内幕与项目实践》课程体系 课程特色: 本课程以 “互联网日志分析系统”这一大数据应用案例为主线,依次介绍相关的大数据技...

43650
来自专栏CSDN技术头条

大数据分析工具大汇总

大数据分析Storm:Apache Storm是一种开源的分布式实时计算系统。Storm加速了流数据处理的过程,为Hadoop批处理提供实时数据处理。 Spar...

30770

扫码关注云+社区

领取腾讯云代金券