前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大数据入门:Hadoop是如何工作的?

大数据入门:Hadoop是如何工作的?

作者头像
成都加米谷大数据
修改2021-07-06 18:18:42
4370
修改2021-07-06 18:18:42
举报
文章被收录于专栏:大数据开发大数据开发

海量数据价值的挖掘,需要大数据技术框架的支持,在目前的大数据平台搭建上,Hadoop是主流的选择之一,而精通Hadoop的大数据人才,也是企业竞相争取的专业技术人才。大数据技术Hadoop所得到的重视,也带来了大家对Hadoop的学习热情。今天我们就从大数据入门的角度,来分享一下Hadoop是如何工作的。

Hadoop最初由雅虎的Doug Cutting创建,其核心的灵感,就是MapReduce,当然,到现在MapReduce也是Hadoop的核心组件。

大数据技术Hadoop
大数据技术Hadoop

MapReduce最初被设计用来处理分布在多个并行节点的PB级和EB级数据,在廉价的服务器集群上,就能实现快速准确的数据处理,将大数据分成多个部分,每个部分都可以被同时处理和分析,数据处理的效率和规模都得到了提升。

而在Hadoop系统框架当中,MapReduce仍然负责关键性的分布式计算,对于结构化、非结构化的数据,都能实现很好的处理。而进行分布式计算的前提,是先将数据进行分布式存储。

这就是Hadoop的分布式文件系统HDFS。HDFS将大数据打碎成“部分”,载入到PC硬件的多个节点当中,各“部分”被复制多次,并加载到文件系统。这样,如果一个节点失效,另一个节点包含失效节点数据的副本,大大提升了数据存储的可靠性。

一旦数据被加载到集群中,它就准备好通过MapReduce框架进行分析。

当客户提交一个“匹配”的任务,HDFS给到一个被称为作业跟踪器的节点。该作业跟踪器引用名称节点,以确定完成工作需要访问哪些数据,以及所需的数据在集群的存储位置。MapReduce在每个节点同时、并行处理数据,当每个节点处理完指定的作业,它会存储结果。

客户通过任务追踪器启动“Reduce”任务,总map阶段存储在各个节点上的结果数据,然后得到最终数据结果,对整体结果进行输出。

总体来说,大数据技术Hadoop在面对大规模数据处理任务时,尤其是不要求高时效性的数据处理任务上,是完全能够满足需求的,并且不会给企业带来更大的成本压力。

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系转载前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据处理套件 TBDS
腾讯大数据处理套件(Tencent Big Data Suite,TBDS)依托腾讯多年海量数据处理经验,基于云原生技术和泛 Hadoop 生态开源技术对外提供的可靠、安全、易用的大数据处理平台。 TBDS可在公有云、私有云、非云化环境,根据不同数据处理需求组合合适的存算分析组件,包括 Hive、Spark、HBase、Flink、presto、Iceberg、Alluxio 等,以快速构建企业级数据湖、数据仓库。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档