EC 策略设置

最近更新时间:2025-02-19 10:26:32

我的收藏
EC(Erasure Coding)策略设置是实例的高级配置,可以通过开启 EC策略降低数据副本数,进而降低资源成本。
说明:
EC策略可按需开启或关闭,默认关闭,开启后新增数据按照 RS-6-3-1024k 策略进行存储。

EC 原理介绍

为了保证数据的可靠性,HDFS 的默认数据存储策略是3副本,即在写入数据的时候,会占用该数据大小3倍的空间。这样就造成了大量的空间浪费。对此,HDFS 引入在 RAID 磁盘阵列中已应用成熟的技术:EC(Erasure Coding,纠删码)。
EC 是一种数据保护技术,通过将原始数据分割成多个片段,并添加一定数量的校验片段,使得在部分数据丢失的情况下仍能恢复原始数据。与传统的 RAID 技术相比,EC 具有更高的存储效率和更低的冗余度。

RS-6-3-1024k 策略

不同的EC编解码算法、数据块大小、数据块和校验块个数,可以构成不同的EC策略。RS-6-3-1024k策略相对3副本可以节省50%的存储空间,每份数据最多允许丢失3个数据块,数据写入和恢复时减少50%的网络传输量。
RS-6-3-1024k策略的定义:
1. 使用 RS(Reed Solomon)编解码算法。
2. 有6个DN用于存储数据块。
3. 有3个DN存储校验块。
4. 最大可以容忍3个块丢失的异常情况。
5. 每个文件块的大小为1024k(即1MB)。
6. 如果使用该EC策略存储的文件为100MB,则写入DataNode中的总数据量为(1+3/6) * 100MB=150MB。其中:
数据块总大小为文件大小100MB。
校验块总大小为3/6 * 100MB=50MB。

操作步骤

1. 登录 EMR Serverless HBase 控制台,从实例列表中找到需要销毁的实例,单击实例 ID 进入实例信息页
2. 高级设置中找到 EC 策略,单机开关打开 EC 策略设置弹框。
3. 在 EC 策略设置弹框中,确认开启或关闭策略的风险后,单机确认或确认关闭进行操作确认。
注意:
仅支持使用的 EC 策略为 RS-6-3-1024k,策略开启需满足实例节点数不低于10个。