前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >痛并快乐着:浅谈大数据时代的分布式存储架构

痛并快乐着:浅谈大数据时代的分布式存储架构

作者头像
企鹅号小编
发布2018-01-23 10:36:05
1.7K0
发布2018-01-23 10:36:05
举报
文章被收录于专栏:存储

从全球知名咨询公司麦肯锡宣称“大数据”时代的到来,时至今日,数据量已经几何倍数的翻增,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。

大数据的第一个特征是数据量大,大数据的起始计量单位至少是P、E甚至ZB级别;第二个特征是数据类型繁多,包括网络日志、音频、视频、图片、地理位置信息等等。同时,海量多类型的数据对数据的处理能力提出了更高的要求,不仅要提供海量的数据存储空间,又要满足多种类文件的高效存储。

目前,解决这种需求最常用的方式就是采用分布式存储系统。

分布式存储存放的数据,包含数据和元数据信息,那么什么是数据和元数据呢?

ü用户需要存放到存储设备的文件,就是数据

数据有很多种类,日志、音频、视频、图片等,不同的文件大小是不同的。

ü存储设备为了存放用户文件而生成的数据记录,就是元数据

如果用户数据比喻成一本书,元数据就是这本书的目录。

分布式存储依照存放数据和元数据的方式不同,分为全对称和非对称模式。

全对称:所有的节点都会处理元数据,各个节点间实时同步元数据信息;

非对称:我有元数据节点,元数据节点单独处理元数据信息,所有信息必须通过元数据节点进行管理。

思考一个问题:当不同类型、不同大小的海量数据需要实时存储时,这两种架构会有怎样的情况发生?

û全对称:海量文件带来的海量元数据在各个节点间同步,带来了性能和带宽等瓶颈问题;

û非对称:元数据采用独立的节点,处理能力有限,不能很好的满足海量小文件的性能问题。

如何解决这种问题呢?我做了一个大胆的设想,提出一种新的逆向思维解决方式,我把它叫做集群元数据后处理架构

通常情况下,海量数据的写入和读取是不需要高度同步的,不妨分开来考虑,首先,要解决混合数据流写入的性能问题,海量小文件的数据处理瓶颈主要集中在元数据上,能否跳过这个瓶颈写入数据呢?

首先,每个存储节点管理一个虚拟磁盘MD,虚拟磁盘MD由多个存储节点的磁盘块按照一定的规律组合而成,几个存储节点形成一个冗余群组,群组内部统一元数据信息,单个节点采用SSD加速缓存,并在自身的存储空间中,保留一份元数据备份。

其次,客户端进行数据写入时,不再经过集群元数据节点,而是直接采用轮询方式写入存储节点,存储节点负责客户端元数据的建立、存储和同步。

ü本地用户文件读取:客户端自身存放的文件,可以通过直接访问数据节点的方式,获取数据,避免元数据节点瓶颈和减轻元数据节点压力;

其他用户文件读取:通过元数据集群,获取目录信息后访问数据节点。

图示可以看到,元数据通过这种方式,进行统一模式的集中处理,并可以根据应用需求进行数据索引,提升访问效率。

总结:

我把这种模式称为:分布式存储 – 集群元数据分层处理架构

本文来自企鹅号 - 门边看数据媒体

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文来自企鹅号 - 门边看数据媒体

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档