前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >纠删码优势分析

纠删码优势分析

作者头像
用户4700054
发布2022-08-17 12:32:04
1.6K0
发布2022-08-17 12:32:04
举报
文章被收录于专栏:存储内核技术交流

纠删码概述

  • 存储节点或者存储介质失效已经成为经常的事情,提高存储可靠性以及保障数据可用性已经变得非常重要,纠删码具有高存储效率和高容错能力。在体量非常大的存储中纠删码存储方式相比副本方式存在编码开销,又由于其特有的IO访问路径,其改进空间比较大
  • 保障数据可用性的常用方法就是数据冗余,传统的数据冗余方式就是副本和纠删码方式,副本是将每个原始数据分块都镜像复制到其他设备上来保证原始数据丢失或者失效时有副本可恢复;副本方式不涉及数据变换,而纠删码会对数据进行变换和运算,得到支持数据冗余的编码数据,比如k+r(k个数据块,r个校验块)纠删码为例,将一个原始数据分为k个数据块,然后将其编码成为k+r个编码分块,并将编码分块分布存储多个节点或者存储介质上。
  • 副本机制是一种最简单的冗余策略,也称为镜像方法,其基本思想是将数据文件按照固定大小切成分块,每个数据分块在不同的多个位置保存副本。数据的可靠性与副本数目成正比,副本数目越多,数据的可靠性就越好。然而存储效率是存储系统一个最重要的衡量指标,它的计算公式存储效率 = 数据空间/(数据空间+校验空间年),.其次还有存储冗余度和存储开销两项指标,存储冗余度计算方法为存储冗余度=(数据空间+校验空间)/数据空间,存储开销计算方式为存储开销=校验空间/数据空间。三副本中数据空间为1(一份数据),校验空间为2(两份冗余副本),那么三副本的存储效率就为33%,存储冗余度就是3,存储开销是200%,多副本出了冗余度高外,存储效率低,存储开销大。纠删码具有相对三副本,具有冗余度高,存储效率不低,同时存储开销不大的特点,但是纠删码会涉及编解码数据块。
  • 纠删码要达到三副本相同的容错能力(容忍2个节点失效,假设存储数据块D1和D2),对数据块进行编码,一共需要4个数据块,原始的是2个数据块,存储效率为50%。纠删码技术在高存储效率特点外还能显著降低网络中数据流量,因此纠删码用于集群存储能节约网络带宽和存储空间。纠删码起源于通信林领域,最后应用于存储系统中的数据检错和纠错的问题上,在编码参数为k+m(k个数据块,m个校验块)存储系统中,纠删码策略将文件数据分割为k个数据块,然后用编码算法得到k+m个编码块,通过这些数据分块和冗余块分布到不同的节点上,达到容错的目的。

总结

  • 相对三副本方式,纠删码具有存储效率高、冗余度高、存储开销低的特点,随着数据体量越来越大,存储成本是非常大的开销,这也是一个企业的成本。三副本在数据冗余度上能保证的非常好,但是需要非常大的存储成本、网络带宽等资源,这些都是企业不可忽视的成本。纠删码存储数据方式可以有效的解决存储成本和网络资源等问题,同时还能提高存储效率,唯一不足的就是需要编解码,这个问题可以从借助CPU中特殊指令进行EC编码效率提高,同时也可以借助FPGA把编码码算法固化到硬件上,这样节省CPU资源,让FPGA专门来做EC编解码的事情。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-11-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 存储内核技术交流 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 纠删码概述
  • 总结
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档