容器服务容器服务高危操作

业务部署或运行过程中，用户可能会触发不同层面的高危操作，导致不同程度上的业务故障。为了能够更好地帮助用户预估及避免操作风险，本文将从集群、网络与负载均衡、日志、云硬盘多个维度出发，为用户展示哪些高危操作会导致怎样的后果，以及为用户提供相应的误操作解决方案。
集群
分类
高危操作
导致后果
误操作解决方案
master 及 etcd 节点
修改集群内节点安全组
可能导致 master 节点无法使用
按照官网推荐配置放通 安全组﻿
﻿
节点到期或被销毁
该 master 节点不可用
不可恢复
﻿
重装操作系统
master 组件被删除
不可恢复
﻿
自行升级 master 或者 etcd 组件版本
可能导致集群无法使用
回退到原始版本
﻿
删除或格式化节点 /etc/kubernetes 等核心目录数据
该 master 节点不可用
不可恢复
﻿
更改节点 IP 
该 master 节点不可用
改回原 IP 
﻿
自行修改核心组件（etcd、kube-apiserver、docker 等）参数
可能导致 master 节点不可用
按照官网推荐配置参数
﻿
自行更换 master 或 etcd 证书
可能导致集群不可用
不可恢复
worker 节点
修改集群内节点安全组
可能导致节点无法使用
按照官网推荐配置放通安全组
﻿
调整节点实例规格
机器强制关机，节点不可用
节点移出再加入集群
﻿
节点到期或被销毁
该节点不可用
不可恢复
﻿
重装操作系统
节点组件被删除
节点移出再加入集群
﻿
自行升级节点组件版本
可能导致节点无法使用
回退到原始版本
﻿
更改节点 IP 
节点不可用
节点移出再加入集群
﻿
自行修改核心组件（etcd、kube-apiserver、docker 等）参数
可能导致节点不可用
按照官网推荐配置参数
﻿
修改操作系统配置
可能导致节点不可用
尝试还原配置项或删除节点重新购买
其他
在 CAM 中执行权限变更或修改的操作
集群部分资源如负载均衡可能无法创建成功
恢复权限
网络与负载均衡
高危操作
导致后果
误操作解决方案
修改内核参数 net.ipv4.ip_forward=0
网络不通
修改内核参数为 net.ipv4.ip_forward=1
修改内核参数 net.ipv4.tcp_tw_recycle = 1
导致 nat 异常
修改内核参数 net.ipv4.tcp_tw_recycle = 0
节点安全组配置未放通容器 CIDR 的53端口 udp 
集群内 DNS 无法正常工作
按照官网推荐配置放通安全组
修改或者删除 TKE 添加的 LB 的标签
购买新的 LB 
恢复 LB 的标签
通过 LB 的控制台在 TKE 管理的 LB 创建自定义的监听器
所做修改被 TKE 侧重置
通过 service 的 yaml 来自动创建监听器
﻿
通过 LB 的控制台在 TKE 管理的 LB 绑定自定义的后端 rs 
禁止手动绑定后端 rs 
﻿
通过 LB 的控制台修改 TKE 管理的 LB 的证书
通过 ingress 的 yaml 来自动管理证书
﻿
通过 LB 的控制台修改 TKE 管理的 LB 监听器名称
禁止修改 TKE 管理的 LB 监听器名称
日志
高危操作
导致后果
误操作解决方案
备注
删除宿主机 /tmp/ccs-log-collector/pos 目录
日志重复采集
无
 Pos 里面的文件记录了文件的采集位置
删除宿主机 /tmp/ccs-log-collector/buffer 目录
日志丢失
无
 Buffer 里面是待消费的日志缓存文件
云硬盘
高危操作
导致后果
误操作解决方案
控制台手动解挂 CBS 
 Pod 写入报 io error 
删掉 node上mount 目录，重新调度 Pod 
节点上 umount 磁盘挂载路径
 Pod 写入本地磁盘
重新 mount 对应目录到 Pod 中
节点上直接操作 CBS 块设备
 Pod 写入本地磁盘
无
﻿

分类	高危操作	导致后果	误操作解决方案
master 及 etcd 节点	修改集群内节点安全组	可能导致 master 节点无法使用	按照官网推荐配置放通安全组
		节点到期或被销毁	该 master 节点不可用	不可恢复
		重装操作系统	master 组件被删除	不可恢复
		自行升级 master 或者 etcd 组件版本	可能导致集群无法使用	回退到原始版本
		删除或格式化节点 /etc/kubernetes 等核心目录数据	该 master 节点不可用	不可恢复
		更改节点 IP	该 master 节点不可用	改回原 IP
		自行修改核心组件（etcd、kube-apiserver、docker 等）参数	可能导致 master 节点不可用	按照官网推荐配置参数
		自行更换 master 或 etcd 证书	可能导致集群不可用	不可恢复
worker 节点	修改集群内节点安全组	可能导致节点无法使用	按照官网推荐配置放通安全组
		调整节点实例规格	机器强制关机，节点不可用	节点移出再加入集群
		节点到期或被销毁	该节点不可用	不可恢复
		重装操作系统	节点组件被删除	节点移出再加入集群
		自行升级节点组件版本	可能导致节点无法使用	回退到原始版本
		更改节点 IP	节点不可用	节点移出再加入集群
		自行修改核心组件（etcd、kube-apiserver、docker 等）参数	可能导致节点不可用	按照官网推荐配置参数
		修改操作系统配置	可能导致节点不可用	尝试还原配置项或删除节点重新购买
其他	在 CAM 中执行权限变更或修改的操作	集群部分资源如负载均衡可能无法创建成功	恢复权限

容器服务高危操作

本页目录：

集群

网络与负载均衡

日志

云硬盘