作者:张子良
声明:版权所有,转载请注明出处
一、概述
基于任何平台实现的云盘系统,面临的首要的技术问题就是客户端上传和下载效率优化问题。基于Hadoop实现的云盘系统,受到Hadoop文件读写机制的影响,采用Hadoop提供的API进行HDFS文件系统访问,文件读取时默认是顺序、逐block读取;写入时是顺序写入。
二、读写机制
首先来看文件读取机制:尽管DataNode实现了文件存储空间的水平扩展和多副本机制,但是针对单个具体文件的读取,Hadoop默认的API接口并没有提供多DataNode的并行读取机制。基于Hadoop提供的API接口实现的云盘客户端也自然面临同样的问题。Hadoop的文件读取流程如下图所示:
这里需要注意的关键点是:多个Datanode顺序读取。
其次再看文件的写入机制:
关键词:开发库把packet以流的方式写入第一个datanode,该datanode将其传递给pipeline中的下一个datanode,知道最后一个Datanode,这种写数据的方式呈流水线方式。
三、解决方案
1.下载效率优化
通过以上读写机制的分析,我们可以发现基于Hadoop实现的云盘客户段下载效率的优化可以从两个层级着手:
1.文件整体层面:采用并行访问多线程(多进程)份多文件并行读取。
2.Block块读取:改写Hadoop接口扩展,多Block并行读取。
2.上传效率优化
上传效率优化只能采用文件整体层面的并行处理,不支持分Block机制的多Block并行读取。