专栏首页大数据技术学习常用的大数据技术有哪些?hadoop学习总结
原创

常用的大数据技术有哪些?hadoop学习总结

大数据技术为决策提供依据,在政府、企业、科研项目等决策中扮演着重要的角色,在社会治理和企业管理中起到了不容忽视的作用,很多国家,如中国、美国以及欧盟等都已将大数据列入国家发展战略,微软、谷歌、百度以及亚马逊等大型企业也将大数据技术列为未来发展的关键筹码,可见,大数据技术在当今乃至未来的重要性!

大数据技术,简而言之,就是提取大数据价值的技术,是根据特定目标,经过数据收集与存储、数据筛选、算法分析与预测、数据分析结果展示等,为做出正确决策提供依据,其数据级别通常在PB以上,以下是常用的大数据技术:

一、大数据基础阶段

大数据学习qun: 716581014

大数据基础阶段需掌握的技术有:Linux、Docker、KVM、MySQL基础、Oracle基础、MongoDB、redis以及hadoopmapreduce hdfs yarn等。

二、大数据存储阶段

大数据存储阶段需掌握的技术有:hbase、hive、sqoop等。

三、大数据架构设计阶段

大数据架构设计阶段需掌握的技术有:Flume分布式、Zookeeper、Kafka等。

四、大数据实时计算阶段

大数据实时计算阶段需掌握的技术有:Mahout、Spark、storm。

五、大数据数据采集阶段

大数据数据采集阶段需掌握的技术有:Python、Scala。

六、大数据商业实战阶段

大数据商业实战阶段需掌握的技术有:实操企业大数据处理业务场景,分析需求、解决方案实施,综合技术实战应用。

在拥有Java编程语言基础的前提下,可以学习以上大数据技术,大数据是未来的发展方向,正在挑战我们的分析能力及对世界的认知方式,因此,我们与时俱进,迎接变化,并不断的成长!

Hadoop是在分布式服务器集群上存储海量数据并运行分布式分析应用的一个平台,其核心部件是HDFS与MapReduce。HDFS是一个分布式文件系统,可对数据系统进行分布式储存读取;MapReduce是一个计算框架,通过对计算任务的拆分,再根据任务调度器,对任务进行分布式计算。

Hadoop是大数据开发必不可少的框架技术,因此,想要学好大数据,必须要掌握Hadoop相关知识,那么,hadoop主要学什么呢?

一、Hadoop环境搭建

1. Hadoop生态环境介绍

2. Hadoop云计算中的位置和关系

3. 国内外Hadoop应用案例介绍

4. Hadoop概念、版本、历史

5. Hadoop核心组成介绍及hdfs、mapreduce体系结构

6. Hadoop独立模式安装和测试

7. Hadoop的集群结构

8. Hadoop伪分布的详细安装步骤

9. 通过命令行和浏览器观察Hadoop

10. Hadoop启动脚本分析

11. Hadoop完全分布式环境搭建

12. Hadoop安全模式、回收站介绍

二、HDFS体系结构和Shell以及Java操作

1. HDFS底层工作原理

2. HDFSdatanode,namenode详解

3. 单点故障(SP0F)和高可用(HA)

4. 通过API访问HDFS

5. 常用压缩算法介绍和安装使用

6. Maven介绍和安装,eclipse中使用Maven,搭建Maven本地仓库

三、Mapreduce学习

1. Mapreduce四个阶段介绍

2. Job、Task介绍

3. 默认工作机制

4. 创建MR应用开发,获取年度的最高气温

5. 在Windows上运行MR作业

6. Mapper、Reducer

7. InputSplit和OutputSplit

8. Shuffle:Sort,Partitioner,Group,Combiner

9. 通过计数器调试程序

10. 在Windows安装Hadoop

11. 在eclipse安装Hadoop插件,访问Hadoop资源

12. 在eclipse中编写ant脚本

13. YARN调度框架事件分发机制

14. 远程调试资源管理器

15. Hadoop的底层google ProtoBuf的协议分析

16. Hadoop底层IPC原理和RPC

四、Hadoop高可用-HA

1. Hadoop2.x集群结构体系介绍

2. Hadoop2.x集群搭建

3. NameNode的高可用性(HA)

4. HDFS Federation

5. ResourceManager的高可用性(HA)

6. Hadoop集群常见问题和解决办法

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 大数据划重点,你必须掌握的三大关键技能

    因为数据时代全面来临,大数据、人工智能等技术引领科技创新潮流,获得国家政策大力支持,前景广阔。

    用户2292346
  • Storm与Spark、Hadoop三种框架对比

    Storm与Spark、Hadoop这三种框架,各有各的优点,每个框架都有自己的最佳应用场景。所以,在不同的应用场景下,应该选择不同的框架。

    用户2292346
  • 0基础怎么学习大数据?成为大数据构架师入门到精通的学习路线

    近几年我们经常听到AI人工智能、大数据、机械进修等等,似乎良多企业都已经涉足这些行业停止研究,那么想体味、想进入这些行业我们应该怎样做呢?科多大数据带你来进修一...

    用户2292346
  • Hadoop架构——云计算的具体实现

    Hadoop是IT行业一个新的热点,是云计算的一个具体实现、Hadoop本身具有很高的技术含量,是IT工程师学习的首选!下面我们来详细讲讲什么是Hadoop。 ...

    猿人谷
  • 分布式计算Hadoop简介

    Hadoop是什么:Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量...

    猿人谷
  • 初识Hadoop

    Hadoop这个名字并不是什么具有实际意义的单词,而是Hadoop项目作者的孩子给一个棕黄 色大象玩具的命名

    端碗吹水
  • 瞎扯 Hadoop 的历史

    在大数据领域里,Hadoop 是谁都绕不开的话题,它基本上已经成为了事实上的标准,无论是什么企业或者是个人,闭源开始开源,都不得不兼容Hadoop生态圈,即使是...

    哒呵呵
  • Hadoop如何通过IT审计(下)?

    大数据文摘
  • Hadoop简介

    Apache Hadoop软件库是一个允许使用简单的编程模型跨计算机集群分布式处理大型数据集的框架。它旨在从单个服务器扩展到数千台计算机,每台计算机都提供本地计...

    汐楓
  • Hadoop已死?Hadoop万岁!

    各种博客文章、杂志投稿中,“Hadoop已死”的说法死灰复燃,且又开始甚嚣尘上。近年来,Cloudera不再满足于Hadoop开源平台的身份,转而以企业数据公司...

    昱良

扫码关注云+社区

领取腾讯云代金券