前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大数据入门到进阶:Hadoop学习路线规划

大数据入门到进阶:Hadoop学习路线规划

作者头像
成都加米谷大数据
修改2021-06-08 18:19:53
8460
修改2021-06-08 18:19:53
举报

在大数据处理的各项技术当中,Hadoop的地位无疑是得到充分肯定的,做大数据,避不开Hadoop,学大数据,当然也必学Hadoop。而对于很多零基础学习者,学Hadoop不知道该从何着手,那么今天的大数据入门到及进阶,我们来分享一下Hadoop学习路线规划。

大数据的核心支持思想,就是分布式技术,面对大规模数据处理任务,通过分布式架构才能真正实现对大批量数据的有序处理,而大数据处理技术成熟的标志,也是因为分布式技术架构的成熟。

Hadoop零基础入门到进阶
Hadoop零基础入门到进阶

Hadoop作为分布式技术架构的典型代表,是学习当中必须掌握的重点,理解和掌握分布式理念是入门学习的第一步。

Hadoop框架集存储(hdfs)、计算(mr计算模型)、资源管理(yarn)等于一体,可以实现分布式存储和分布式计算。

分布式系统当中,其实还有一个隐含的问题是要计算必须有数据,必然涉及到存储,所以存储才是根本。

那么如何使用分布式存储系统(hdfs)就必须了解其的组成部分(如什么是块、文件系统、分布式文件系统)、使用方式(读写HDFS),但由于大部分同学都是相对熟悉关系型数据库及它的使用方式SQL,这些都是应用层面的事情具体底层的各种情况并不了解,或者没有参与数据库软件的开发、对于文件类的学习工作经验相对较少,对其中提到的文件IO操作、序列化、压缩、内置或自定义文件读写格式、读写方式有种陌生,因为hdfs本质是文件系统。

数据仓库,重点主要是面向分析,会产生大量的查询,一般很少涉及增删改操作,MapReduce计算模型的map操作和reduce操作是我们经常遇到的需求,map操作负责数据清洗、转换,reduce操作负责数据聚合,同时sql里的select子句和group by子句也对应了这类实际需求,只是方式方法不同而已。

了解了理论框架,建议以分布式系统的角度来看待大数据中的各类框架,了解下分布式理论如CAP理论、主从架构方式等等。

技术架构:

数据采集:flume、logstash

数据存储:hdfs、hbase、alluxio、es、neo4j、janusGraph、redis、mongodb、tidb

数据计算:hive、impala、spark、flink、druid

数据通道:kafka、pulsar

任务调度:azkaban、airflow

多维数据模型:kylin

数据同步:sqoop、datax、canal

数据格式:parquet、orc、csv、json

协调服务:zookeeper

监控:zabbix、prometheus

关于大数据入门到进阶,以上就是今天为大家分享的Hadoop学习路线规划,Hadoop在大数据处理框架当中仍然占据着重要地位,所以学习大数据,Hadoop仍然是不能忽视的一部分。

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系转载前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据处理套件 TBDS
腾讯大数据处理套件(Tencent Big Data Suite,TBDS)依托腾讯多年海量数据处理经验,基于云原生技术和泛 Hadoop 生态开源技术对外提供的可靠、安全、易用的大数据处理平台。 TBDS可在公有云、私有云、非云化环境,根据不同数据处理需求组合合适的存算分析组件,包括 Hive、Spark、HBase、Flink、presto、Iceberg、Alluxio 等,以快速构建企业级数据湖、数据仓库。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档