前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >让你秒懂hadoop各组件

让你秒懂hadoop各组件

作者头像
希望的田野
发布2019-09-24 17:12:37
3.5K0
发布2019-09-24 17:12:37
举报
文章被收录于专栏:信息化漫谈

经常在提到大数据处理框架hadoop,但大家对各组件的用途还是很迷糊,在给客户讲方案时觉得hadoop很高深。其实没有这么难,今天我们来简述一下用途。通过本短文的查阅,至少你知道组件的作用、他所处的层次。

1、Hadoop是Apache公司的大数据处理套件,是所有大数据组件的总称。目前Hadoop已从1.0发展至2.0时代。

2、HDFS把所有廉价的pc服务器组成了一个超级大硬盘,且通过多副本保证了数据安全。

3、MapReduce用于把一个超级大的数据文件分解至不同的廉价pc服务器进行处理,并最终返回数据处理结果。

4、Yarn用于优化mapreduce的处理框架,是一个资源调度组件,让mapreduce处理更加稳健、高效。

5、Zookeeper是一个协调组件,很多组件都依赖于它的运行。如选择HA领导、实现Mysql的高可用。它相当于是一个领导角色,负责协调资源的高可用运行。

6、Sqoop是一个ETL工具,负责各类数据库(Mysql等)与hadoop存储之间的互相倒换。

7、Hive是一个mapreduce之上的神器,你通过sql命令就可以代替mapreduce的编程。

8、Spark是MapReduce的升级替换组件,基于内存计算,数据处理速度提高10-100倍。

9、Kafka是一个队列工具,数据、消息的排队全靠它,有了它的帮助,数据的堵塞问题不再是个事。

10、Flume是一个前端日志采用工具,部署在web等前端服务器,将日志数据源源不断进行采集。

11、HBase是数据的海量存储仓库,是一个Nosql数据库,可以保障数据的海量存储。

12、Pig是另一个简化版的Mapreduce上层处理工具,通过简单的脚本即可生成Mapreduce程序进行快速的数据处理。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-01-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 信息化漫谈 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
云数据库 SQL Server
腾讯云数据库 SQL Server (TencentDB for SQL Server)是业界最常用的商用数据库之一,对基于 Windows 架构的应用程序具有完美的支持。TencentDB for SQL Server 拥有微软正版授权,可持续为用户提供最新的功能,避免未授权使用软件的风险。具有即开即用、稳定可靠、安全运行、弹性扩缩等特点。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档