有奖捉虫:行业应用 & 管理与支持文档专题 HOT

基础设置

基础设置限制自定义伸缩功能的扩缩容节点数范围,配置弹性资源类型,配置弹性伸缩是否支持优雅缩容;展示当前集群弹性节点资源数量,并支持一键释放弹性实例。
参数设置
描述
最小节点数
自动缩容策略触发时,集群最少保留弹性伸缩的 task 节点数。
最大节点数
自动扩容策略触发时,集群最多保留弹性伸缩的 task 节点数,单条或多条规格累计扩容数不能超过最大节点数。
全部释放
是指一键清除自动伸缩扩容出来的全部节点,非自动伸缩的节点不受影响。
释放竞价实例
是指仅一键清除自动伸缩扩容出来的竞价实例节点,非竞价实例资源节点不受影响。
释放按量计费实例
是指一键清除自动伸缩扩容出来的按量计费实例节点,非自动伸缩出的按量计费节点不受影响。
优雅缩容全局开关
默认关闭,优雅缩容全局开启后,所有缩容规则启用优雅缩容策略;单条缩容规则支持设置关闭优雅缩容策略。
注意:全局优雅缩容和单条缩容规则同时开启时,优雅缩容生效
资源类型
HOST 资源类型支持按量计费和竞价实例计费,POD 资源仅支持按量计费且 POD 资源仅可用于部署 Yarn 的 NodeManager 角色。
注意
当资源类型切换时对应伸缩规格及节点选择策略一起切换生效。
编辑基础设置:

释放伸缩实例:



伸缩规格管理

伸缩规格是指通过自定义伸缩指定扩容节点规格及节点付费策略,为了保持集群负载的线性变化,建议尽量使伸缩规格的 CPU 和内存保持一致。
节点选择策略:支持“按量计费”和“竞价实例优先”两种策略。


按量计费:扩容规则触发时,全部添加按量计费节点补充算力。
竞价实例优先:扩容规则触发时优先添加竞价实例补充算力,当竞价实例资源不足时,由按量计费资源补足算力。 按量计费最小占比:保证单次扩容按量计费节点所占扩容数量的最小比例。
例如:
单次扩容10台节点,按量计费节点最小占比例为20%,则扩容规则触发时按量计费节点最少补充2台节点,剩余8台节点由竞价实例补充,当竞价实例资源不足8台节点时,由按量计费节点资源补充。
伸缩规格中的节点支持增、删、改、查,可按需调整伸缩规格优先级;规则优先级顺序由高低依次(1>2>3>4>5)。
注意
当基础设置中预设“资源类型为:POD”时,节点付费策略仅支持按量计费。


伸缩规则管理

伸缩规则是配置扩缩容动作触发条件以及变化节点数量的业务策略,支持按负载伸缩和时间伸缩两种伸缩策略。根据业务需要选择对应策略设置伸缩规则,也支持时间伸缩和负载伸缩混合弹性规则设置,规则触发遵循“先触发先执行,同时触发根据规则优先顺序执行”

设置负载伸缩

无法准确的预估集群计算的波峰和波谷时,为确保重要作业按时完成,可使用按负载伸缩进行策略配置。负载主要基于预设 YARN 的指标统计规则,触发预设条件时自动调整 task 节点。
注意
集群队列负载指标详情请参见 队列负载指标对应关系
单击添加规则,在“新建规则”页面策略类型选择“按负载”,进行规则设置,如下内容:


配置项
描述
规则类型
扩容/缩容
策略类型
按负载
规则名称
伸缩规则的名称,在一个集群中,伸缩规则名称不允许重复(包括扩容规则和缩容规则)
有效时间
仅在有效时间内触发负载伸缩规则;默认时间范围选择不限制,支持自定义时间段按负载进行伸缩规则配置。
统计规则
根据选定的集群负载指标,设置单规则或多规则同时触发阈值;最多设置5个统计规则;支持根据子队列进行规则统计
规则:指定队列及负载指标,设置触发阈值的条件规则,此处指 YARN 的负载指标
统计周期:所选负载指标在一个统计周期内,按照选定的聚合维度(平均值、最大值、最小值),达到触发阈值为一次触发;目前支持三个统计周期分别为:300秒、600秒、900秒
重复次数:负载指标聚合后达到阈值触发的次数,达到该次数后触发集群弹性伸缩的动作
扩容/缩容方式
支持选择节点、内存、核数三种方式;三种方式仅支持整数非0值输入;当方式选择核数和内存时,扩容保证最大算力进行扩容节点数量换算;缩容保证业务正常按最小台数进行缩容节点数量换算,按时间倒序缩容且保证最少一台缩容。
扩容服务
扩容组件默认继承集群维度配置,且扩容节点将归属该节点类型默认配置组。如需调整扩容组件配置,可通过指定配置设置。
Node Label
默认为空扩容资源后将放到 Default Label,设置后扩容的资源将放入指定的 Label。
资源补足重试
自动扩容在高峰下单时可能由于资源争抢导致实际扩容机器数量达不到弹性目标数量,当您开启资源补足重试策略后,如果配置的伸缩规格资源充足,系统会自动重试申请资源,直到满足或接近目标数量。较常出现资源不足导致自动扩容不及预期可尝试打开此配置,开启后如果触发重试可能使自动扩容时间延长,请关注策略调整后对业务的影响。
冷却时间
当前规则执行成功后,再次启动执行下一次自动伸缩动作的间隔时间(冷却时间的范围0 - 43200秒)。
优雅缩容
开启优雅缩容模式后,如果缩容动作触发时节点正在执行任务,节点不会立即释放,而是在自定义时间内等待任务执行完成后进行缩容;若自定义时间结束时任务未执行完成也将进行缩容。

设置时间伸缩

集群计算量存在一定周期内的明显波峰和波谷,为确保重要作业按时完成,可以使用时间伸缩进行策略配置。时间伸缩策略可以设置在每天、每周或每月的固定时间段添加或减少 task 节点。 单击添加规则,在“新建规则”页面策略类型选择“按时间”,进行规则设置,如下内容:


配置项
描述
规则类型
扩容/缩容
策略类型
按时间
规则名称
伸缩规则的名称,在一个集群中,伸缩规则名称不允许重复(包括扩容规则和缩容规则)
执行类型
执行一次:指特定的时间进行触发伸缩动作,精确到分钟
重复执行:指设定每个时间段或特定的时间触发伸缩动作,分别支持“每日”、“每周”、“每月”
执行时间:具体到每天执行伸缩动作时间
规则有效期:重复执行单条规则触发最长有效期
扩容/缩容方式
支持选择节点、内存、核数三种方式;三种方式仅支持整数非0值输入;当方式选择核数和内存时,扩容保证最大算力进行扩容节点数量换算;缩容保证业务正常按最小台数进行缩容节点数量换算,按时间倒序缩容且保证最少一台缩容
扩容服务
扩容组件默认继承集群维度配置,且扩容节点将归属该节点类型默认配置组。如需调整扩容组件配置,可通过指定配置设置
Node Label
默认为空扩容资源后将放到 Default Label,设置后扩容的资源将放入指定的 Label
资源补足重试
自动扩容在高峰下单时可能由于资源争抢导致实际扩容机器数量达不到弹性目标数量,当您开启资源补足重试策略后,如果配置的伸缩规格资源充足,系统会自动重试申请资源,直到满足或接近目标数量。较常出现资源不足导致自动扩容不及预期可尝试打开此配置,开启后如果触发重试可能使自动扩容时间延长,请关注策略调整后对业务的影响。
过期重试时间
弹性伸缩在到达指定时间时可能由于各种原因不能执行,通过设置重试过期时间,系统会在该时间范围内每隔 一段时间尝试执行一次,直到在满足条件时执行伸缩
冷却时间
当前规则执行成功后,再次启动执行下一次自动伸缩动作的间隔时间(冷却时间的范围0 - 43200秒)
定时销毁
指定扩容资源使用时长,且缩容规则触发时当前批次节点不受缩容规则影响;默认选择“不限制”,支持自定义销毁时长,输入数值且为整数,输入值范围(1-24)小时。
使用场景说明:固定时段需要补充算力且维持算力时间在一天范围内,并且其他缩容规则不影响此批资源时使用
优雅缩容
开启优雅缩容模式后,如果缩容动作触发时节点正在执行任务,节点不会立即释放,而是在自定义时间内等待任务执行完成后进行缩容;若自定义时间结束时任务未执行完成也将进行缩容