前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大数据开发:Hadoop数据写入和数据读取流程

大数据开发:Hadoop数据写入和数据读取流程

作者头像
成都加米谷大数据
修改2021-07-14 18:08:44
3160
修改2021-07-14 18:08:44
举报
文章被收录于专栏:大数据开发大数据开发

基于Hadoop开发自己的企业大数据平台,这是现如今很多企业刚开始做大数据的选择,而在Hadoop系统框架当中,Hadoop实现数据处理的原理和技术,更是很多同学在学习上的难点。今天,我们就基于Hadoop生成数据、写入数据和读取数据的流程,来给大家做一个简单的分解。

Hadoop系统框架当中,实现数据生成写入的核心组件,就是HDFS。HDFS就是基于Hadoop的分布式文件存储,为数据处理提供底层支持。

Hadoop生成数据
Hadoop生成数据

Hadoop生成数据不像是往磁盘当中拷贝数据那么简单,HDFS基于数据写入和读取,需要遵循数据安全性和数据写入的高效性。

第一步,是文件拆分。将要写入HDFS的文件进行拆分,分成HDFS规定设置的block size的大小,一般默认是64M,这也是HDFS当中文件储存的基本单位。

第二步,是分配DataNode。文件被拆分成规定的block size之后,要将这些文件写入到datanode,因为HDFS采取的是冗余备份,每个block会在三个不同的datanode上面存储起来。

第三步,是写入DataNode。分配好Block和datanode的对应关系之后,namenode写入datanode1,datanode1写入datanode2,datanode2在写入datanode3。

如果在写入过程中出现翠玉,比如说因为某台机器断电、宕机等原因没有成功写入,那么将文件写入这个datanode的节点会通知namenode写入失败,请求namenode重新分配datanode写入。

数据写入完毕之后,下一步如果要进行数据计算,那么就需要进入读取数据的流程——

首先,client发出要读取文件的要求;向namenode请求这个文件的几个块都放在哪个datanode上面;获知datanode信息后,client去相应的机器上读取文件块;依次读取这个文件的所有文件块,组成完整的文件,实现HDFS的文件读取流程。

Hadoop生成数据,在效率和安全性上都做了考虑,既不只用内存(效率高但是安全性差),也不只用磁盘(效率低但是安全性好),一般是读/写数据直接面向内存,内存达到一定限值后写入磁盘。

关于Hadoop数据写入与读取流程,以上为大家做了一个简单的过程分解,将这些流程分解开来之后,我们会发现,Hadoop框架是数据处理上是考虑非常周全的,这也是现如今Hadoop被主流运用的原因之一。

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系转载前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据处理套件 TBDS
腾讯大数据处理套件(Tencent Big Data Suite,TBDS)依托腾讯多年海量数据处理经验,基于云原生技术和泛 Hadoop 生态开源技术对外提供的可靠、安全、易用的大数据处理平台。 TBDS可在公有云、私有云、非云化环境,根据不同数据处理需求组合合适的存算分析组件,包括 Hive、Spark、HBase、Flink、presto、Iceberg、Alluxio 等,以快速构建企业级数据湖、数据仓库。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档