开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

社区首页 >专栏 >大数据入门：Hadoop是如何工作的？

大数据入门：Hadoop是如何工作的？

作者头像

成都加米谷大数据

修改于 2021-07-06 18:18:42

4370

修改于 2021-07-06 18:18:42

举报

文章被收录于专栏：大数据开发大数据开发

海量数据价值的挖掘，需要大数据技术框架的支持，在目前的大数据平台搭建上，Hadoop是主流的选择之一，而精通Hadoop的大数据人才，也是企业竞相争取的专业技术人才。大数据技术Hadoop所得到的重视，也带来了大家对Hadoop的学习热情。今天我们就从大数据入门的角度，来分享一下Hadoop是如何工作的。

Hadoop最初由雅虎的Doug Cutting创建，其核心的灵感，就是MapReduce，当然，到现在MapReduce也是Hadoop的核心组件。

大数据技术Hadoop

MapReduce最初被设计用来处理分布在多个并行节点的PB级和EB级数据，在廉价的服务器集群上，就能实现快速准确的数据处理，将大数据分成多个部分，每个部分都可以被同时处理和分析，数据处理的效率和规模都得到了提升。

而在Hadoop系统框架当中，MapReduce仍然负责关键性的分布式计算，对于结构化、非结构化的数据，都能实现很好的处理。而进行分布式计算的前提，是先将数据进行分布式存储。

这就是Hadoop的分布式文件系统HDFS。HDFS将大数据打碎成“部分”，载入到PC硬件的多个节点当中，各“部分”被复制多次，并加载到文件系统。这样，如果一个节点失效，另一个节点包含失效节点数据的副本，大大提升了数据存储的可靠性。

一旦数据被加载到集群中，它就准备好通过MapReduce框架进行分析。

当客户提交一个“匹配”的任务，HDFS给到一个被称为作业跟踪器的节点。该作业跟踪器引用名称节点，以确定完成工作需要访问哪些数据，以及所需的数据在集群的存储位置。MapReduce在每个节点同时、并行处理数据，当每个节点处理完指定的作业，它会存储结果。

客户通过任务追踪器启动“Reduce”任务，总map阶段存储在各个节点上的结果数据，然后得到最终数据结果，对整体结果进行输出。

总体来说，大数据技术Hadoop在面对大规模数据处理任务时，尤其是不要求高时效性的数据处理任务上，是完全能够满足需求的，并且不会给企业带来更大的成本压力。

本文系转载，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

大数据处理套件 TBDS

本文系转载，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

大数据处理套件 TBDS

评论

登录后参与评论

0 条评论

热度

最新

LV.

相关产品与服务

大数据处理套件 TBDS

腾讯大数据处理套件（Tencent Big Data Suite，TBDS）依托腾讯多年海量数据处理经验，基于云原生技术和泛 Hadoop 生态开源技术对外提供的可靠、安全、易用的大数据处理平台。 TBDS可在公有云、私有云、非云化环境，根据不同数据处理需求组合合适的存算分析组件，包括 Hive、Spark、HBase、Flink、presto、Iceberg、Alluxio 等，以快速构建企业级数据湖、数据仓库。

产品介绍产品文档

精选特惠用云无忧