前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >得物容器SRE探索与实践

得物容器SRE探索与实践

原创
作者头像
得物技术
发布2023-03-22 11:42:33
5760
发布2023-03-22 11:42:33
举报
文章被收录于专栏:得物技术

0.前言

关于什么是SRE,以及在业务上有哪些具体的输出,网上资料众多但都只是对基本概念做描述。那容器SRE究竟要怎么结合业务,得物容器SRE又有哪些最佳实践,本文就得物容器SRE的一些事情向大家做介绍。

1.SRE定义

稳定性工程师,用软件工程解决复杂的运维问题,50%的时间用于运维琐事,50%的时间用于软件工程保障业务的稳定性和可扩展性,包括开发监控,日志,告警系统,业务性能调优等

640.jpg
640.jpg

2.对于SRE的理解

2.1 SRE的监控和Oncall应急响应

2.1.1 一个团队 Oncall 至多需要两个人 (另外一个是新手 shadow),oncall人员需要具备以下能力:

(a)清晰的问题升级路线 (b)清晰定义的应急事件处理步骤 (c) 监控巡检,如下:

  1. 查看监控,分析服务可用性下降或者耗时增加等影响服务质量的问题的根部原因。
  2. 整理以上事件的数据
  3. 分析根本原因,优化并且解决(运维手段,代码,或者脚本 / 代码自动化运维手段)

2.1.2 遇到重大故障时的各种重要角色

IC(Incident Commander):故障指挥官,这个角色是整个指挥体系的核心,最重要的职责是组织和协调,而非执行,下面所有角色都要接受他的指令并严格执行。

CL(Communication Lead):沟通引导,负责对内和对外的信息收集及通报,这个角色一般相对固定,由技术支持、QA或者是某个SRE来承担,要求沟通表达能力要比较好。

OL(Operations Lead):运维指挥,负责指挥或指导各种故障预案的执行和业务恢复。

IR(Incident Responders):即所有需要参与到故障处理中的各类人员,真正的故障定位和业务恢复都是他们来完成的,如具体执行的SRE、运维、业务开发、平台开发、DBA,甚至是QA

2.2 SLO和SLA制定和保障

100%稳定的系统是不存在的 服务质量指标 SLI(indicator):量化指标,包括延迟、吞吐量、错误率、可用性、持久性等

指标不宜过多,应关注用户的真实需求

常用的指标度量应该尽量标准化(如时间间隔、频率等)

服务质量目标 SLO(Objective):对特定 SLI 的目标值

服务质量协议 SLA(Aggrement):与用户间的明确协议,一般伴随着代价

维护服务可用性的成本不是线性增长的,到一定程度,增加一个9可能需要10倍100倍的成本,通过SLO让成本和收益取得很好的平衡,假设一个业务增加SLO等级,可以计算一下需要的成本和带来的收益,如果得不偿失就可以不用增加SLO等级

2.3 变更管理

SRE的经验大概 70% 的生产事故由某种部署的变更而触发

变更管理的最佳实践:

  1. 采用渐进式发布机制
  2. 迅速而准确地检测到问题的发生
  3. 当出现问题时,安全迅速地回退改动

2.4 容量规划

容量规划必需步骤:

必须有一个准确的自然增长需求预测模型,需求预测的时间应该超过资源获取的时间。

规划中必须有准确的非自然增长的需求来源的统计。

必须有周期性压力测试,以便准确地将系统原始资源信息与业务容量对应起来

2.5 监控系统

SRE的四个黄金指标是构建成功的监控和告警系统的一些基本原则和最佳实践

  • 延迟:延迟是信息发送方和接收方之间的时间延迟,以毫秒(ms)为单位。而原因往往是由于数据包丢失网络拥塞和网络抖动造成的,称为“数据包延迟差异”延迟对客户体验有直接影响,转化为成功请求的延迟和失败请求的延迟。
  • 流量:流量是系统工作量带来的压力。它通过每秒查询数(QPS)或每秒事务数(TPS)来衡量。企业通过数量来衡量这一点:关键绩效指标(KPI)是在给定时间来到站点的人数。这与商业价值有直接关系。
  • 错误:错误是根据整个系统中发生的错误来衡量的。被认为是服务错误率的重要指标!有两类错误:显式错误,如失败的HTTP请求(500个错误代码,例如);隐含错误是成功的响应,但内容错误或响应时间长。
  • 饱和度:饱和度定义了服务的过载程度。它衡量系统利用率,强调服务的资源和整体容量。这通常适用于CPU利用率、内存使用、磁盘容量和每秒操作数等资源。仪表板和监控警报是帮助你密切关注这些资源并帮助你在容量饱和之前主动调整容量的理想工具

2.6 可靠性衡量

可靠性是MTTF(平均失败时间)和MTTR(平均恢复时间)的函数。评价一个团队将系统恢复到正常情况的最有效指标,就是MTTR。

任何需要人工操作的事情都只会延长恢复时间。一个可以自动恢复的系统即使有更多的故障发生,也要比事事都需要人工干预的系统可用性更高

640.png
640.png

3.得物容器SRE的实践

3.1 Oncall应急响应的总结

Oncall是直接体现SRE价值所在,能够直接影响MTTR时间的主要核心系数,一个好的Oncall甚至可以帮助公司挽回很多资损甚至是公司的形象,所以Oncall是每个SRE最重要的工作。

我们有自己的Oncall机制、适用范围、人员构成、复盘跟进、不同场景会邀请不同队员参与排障。有基本的故障处理原则,事故处理后的闭环。下图为整个Oncall流程的进行方式:

6401.png
6401.png

当然每次都只是处理故障,恢复后不做总结归纳是不会有任何沉淀的,容器SRE会记录每次有意义的故障进行文案撰写并在故障中总结现有系统存在的工具类、平台类、代码类隐患点,分等级高中低进行推进push帮助业务,基架不断完善系统健壮性;

3.2 一次容器故障的分享

3.2.1 延迟问题背景:

某天下午SRE侧开始陆续接到业务研发反馈redisRT 增长导致超时,其中某服务有多个 pod 存在redis RT 突增导致部分请求超时(截图如下)

6402.png
6402.png

经过了一系列的驱逐与资源规整等止血操作后,该故障在30分钟后恢复。在这种场景下排查根因通常是一个很辣手的问题,因为第一现场很难在短时间内再进行模拟、恢复,第二在生产环境下不易做太多的测试工作。这种背景下就要发挥SRE的价值了。下面是叙述我们整个问题的排查思路与过程,希望能给大家一些借鉴。

3.2.2 问题排查思路:

排障过程描述只是说了一个思路,部分时间点可能和故障产生的时间重合

先排查是否是网络问题引起的,当问题发现解决后后我们梳理了对应的宿主机的信息,想发现一些规律来确认故障的根因;

6403.png
6403.png

图上可见,这三台并不是一个网段的,唯一相同的也就是同一个区域,这个范围较大,不像是一个局部事件。所以我优先想到了云商故障;

为了进一步确认问题,我将对故障的 ecs ID 给到了阿里并进行了一个授权,随后还拉群做了语音讨论

接下来是整个根因排查分析:

1、排除链路问题

翻阅故障时的监控发现,网络耗时在故障时间点附近比较平稳、经过和阿里内部监控的核对,当时问题宿主机网络延迟在故障时间点延迟仅从 2ms 增加到 4ms 所以可以排除是由于网络问题导致的

2、发现异常现象

node监控有大量的异常包,drop 计数异常,常规情况下应该为0(上图),我们对这些drop 包做了分析(下图)发现Drop 的统计数非常高,同时tcpofo,tcprcvq这两个指标指向了TCP内存限制,需要扩充内存空间。

6401.jpg
6401.jpg
6404.png
6404.png

为了更进一步知道根因所在,我们又去观察了对应的 io夯、调度(任务等待)、 夯住(应用进程锁)、用户态内存等待、网络 (系统 5状态分类左图) (这里第一步已经排除了“网络”故障所以这里做了删除线处理),可以看到排查到io等待时间过长(下图)

6405.png
6405.png
6406.png
6406.png
6407.png
6407.png

3、深挖排查到IO平均等待时间上存在问题

IO平均等待时间在秒级以上,远超了正常范围,故开始排查percpu iowait 状况。经过一系列的操作最终我们使用sls 导入tidb 的方法数据做了一个可视化;

代码语言:javascript
复制
select * from cpus where time > now() - 4h and host = 'i-bp11f8g5h7oofu5pqgr8' and iowait > 50.0
6408.png
6408.png

我们对那些 CPU iowait 比较高的筛选出来,看看能不能找到对应的业务(当时就怀疑是不是由于混部原因导致的)但是找了一圈没有发现什么问题。

3.2.3 最终根因定位:

绕了一圈发现线索又断了,还是回到那个TCP 内存限制的问题,为什么会判断tcpofodrop 指标会与tcp_mem 有关呢?可以直接看代码逻辑

内核源码网站推荐https://lxr.missinglinkelectronics.com/linux+v4.19/net/ipv4/tcp_input.c#L4459 (一个展示源代码存储库的软件工具集)

6409.png
6409.png
64010.png
64010.png

上面的逻辑简单叙述:TCP的核心预分配缓存额度函数为tcp_try_rmem_schedule,如果无法分配缓存额度,将首先调用tcp_prune_queue函数尝试合并sk_receive_queue中的数据包skb以减少空间占用,如果空间仍然不足,最后调用tcp_prune_ofo_queue函数清理乱序数据包队列 (out_of_order_queue)。简单说:如果内存分配失败,对应drop计数就会递增

另外当时我们也发现了dmesg日志里tcp oom的日志,如下图所示

64011.png
64011.png

于是就搜了一些实践准备将线上连接数比较高的那几台机器做一个替换处理试试

代码语言:javascript
复制
#命令查看方法
sysctl -a|grep -i tcp_mem|tcp_rmem|tcp_wmem

当时想准备替换的配置(当时这个调整低于线上目前的值)

代码语言:javascript
复制
# 扩大TCP 总内存大小
# 扩大到 32G  最小值不动  中间数为max 的 70%  
echo  "net.ipv4.tcp_mem = 1104864 5872026 8388608">> /etc/sysctl.conf  
#单个 socket 读分配最大内存 
#原先16MB 扩大到 32MB (中间数为最佳实践推荐)
echo "net.ipv4.tcp_rmem = 4096 25165824 33554432">> /etc/sysctl.conf
#单个 socket 写分配最大内存 
#原先16MB 扩大到 32MB (中间数为最佳实践推荐)
echo "net.ipv4.tcp_wmem = 4096 25165824 33554()432">> /etc/sysctl.conf

当时线上内存

代码语言:javascript
复制
cat /proc/sys/net/ipv4/tcp_mem
6169920        8226561        12339840,这里是最小值24G 压力值32G 最大值48G

在check这些参数的过程中突然就发现了一个问题,我们线上的参数换算成内存值是48G左右,已经算大了,可以想象一下 tcp 链接总的内存已经用了48G!这部分还不光是网络开销只是一个 TCP 链接,我们就有 ss 看了下当时的链接情况:

64012.png
64012.png

通常出现这种情况的原因有以下两种:1、应用没有正确close他的socket进程 2、没有处理异常情况下的socket🔗

64013.png
64013.png

感兴趣的同学可以看下这个文档(推荐) https://stackoverflow.com/questions/38837724/linux-too-many-closed-connections

然后我们怎么找到是谁呢?通常情况下可以这么理解,一个 soket 就是一个 fd (句柄),对应soket 大必然fd 也大!(因为linux 一切皆文件)随后我们用了 for 循环查找对应的/proc 下的文件数量,结果如下:

64014.png
64014.png

附上命令参考:

代码语言:javascript
复制
#看进程对应哪个容器
for i in `docker ps |grep Up|awk '{print $1}'`;do echo \ &&docker top $i &&echo ID=$i; done |grep -A 15 4078683
#看FD谁占用的多
for pid in `ls -1 /proc/|grep -Eo '[0-9]{1,}'`; do pnum=$(ls -1 /proc/${pid}/fd/|wc -l); if [ $pnum -gt 1000 ];then echo "${pid} ${pnum}"; fi; done

为了确认又去容器中查看,确认无疑!

64015.png
64015.png
6402.jpg
6402.jpg

拉了对应引用的负责人后将结果反馈,业务得到信息后立即响应并将自己的应用做了下线处理,随后观察指标立马恢复了 - 破案~

64016.png
64016.png

这次故障我们深刻反省,同事建议将我们的系统参数的监控覆盖完全,所以之后我们立即就成立了一个项目,优化推进监控覆盖

3.3 容器底层对于内核参数监控与优化

继上文说到的故障后,我们意识到了容器监控上的不足故成立了专项来做内核参数上的监控。但是内核参数上千个我们怎么来做?

3.3.1 圈定监控指标范围

所以第一步就是完成内核指标罗列范围。我们对以往的故障和反馈分析来看,网络故障发生较为频繁,所以范围圈定为宿主机网络指标为主;网络指标在系统中主要由/proc/net/netstat提供,所以我们罗列了他所提供的所有指标;(如图是netstat的所有指标)

64017.png
64017.png

3.3.2 内核指标的采集实现

有了范围我们要制定采集方案有些是node-export需要特殊配置才能采集到的具体方案;比如下面要增加netstat的监控是需要启用node-export对应的扩展包

第二个就是通过开源的采集组件监控不到的数据比如tcp.socket.mem这部分只能靠自己开发完成。如下图通常采用截取字段方式将os的状态指标采集到

64018.png
64018.png
64019.png
64019.png

3.3.3 指标的展示可视化

有了采集后就是完成指标的展示与统计,我们通过/proc/net/netstat获取到了46个网络指标,同时也借鉴了业内的最佳实践总共55个指标的罗列与代表的意义,并将各内核常见参数 含义及公式形成文档,解决了很多参数不目的不明确的问题,下图是我们展示这些指标的案例截图

64020.png
64020.png

3.3.4 场景分类逐个优化

完成了展示后,我们就需要对这些核心内核指标参数进行分类(这些指标存在问题可能会影响业务正常运行)

以上55个指标大多为辅助定位的指标,作为业务类型不同,关注的指标与内核参数的调整是有区别的

通用类型default资源池模型;(注重并发,多链接,多请求的场景)监控参考如下:监控统计可以看到资源使用比较平均,需要均衡的参数配置

64021.png
64021.png

![截屏20230209 11.42.18.png](https://cdn.poizon.com/ctoo/020911/截屏2023-02-09 11.42.18.png)

算法类型高密度计算类型资源池;(主动睡眠,被动睡眠,看调度延时,cpu消耗在用户态还是内核态)监控参考如下:监控统计可以看到 cpu大多使用率较高

64022.png
64022.png

![截屏20230209 11.42.45.png](https://cdn.poizon.com/ctoo/020911/截屏2023-02-09 11.42.45.png)

大数据类型 专有集群资源池;(关注网络IO,磁盘IO,文件系统cache,网络开销大)监控参考如下:监控统计可以看到网络上开销较大

64023.png
64023.png

![截屏20230209 11.43.28.png](https://cdn.poizon.com/ctoo/020911/截屏2023-02-09 11.43.28.png)

3.3.5 参数优化管理与兜底保障

然后我们就对这三个类型的主机分别做了参数调整和铺平,由于文章长度关系亲,就不做详细描述了。完成了调整后我们怎么去维护和管理这些内核参数呢?这里我们对内核参数管理也做了一个方案,保障这次治理后是长久有效的。具体的流程如下:

64024.png
64024.png

有整理出的内核指标后还会通过日常的监控、巡检对某些需要调整的内核参数做出修改,由于是wget统一拉取的,所以在update的时候只要通过修改oss里面的批量类型init.sh就可以做到了,不需要修改每一个资源池配置

64025.png
64025.png

为了更安全起见,我们还做了内核初始化兜底保障功能,当然我们在以往的经历中发现,有些节点会因为网络变更等原因拉不到oss的初始化文件,且Ali没有这块初始化的提示,所以kube-node会有一个初始化的兜底,如果节点启动初始化失败会检测到对应的错误数据并将其修改为正常值

64026.png
64026.png

整套上线后,我们配置了7个监控告警项,在实际运行中发现5次以上隐患问题提前在故障发生前就预先进行了处理,保障了产线的稳定性运行。至此,整个故障算是画上了圆满的句号

3.4 容器安全的一些保障

上面正好说到兜底保障,其实我们在整个容器集群里部署有多个保护系统,下面我就举例一个防误删场景的方案。

3.4.1 简介业内防控体系

首先我们来参考下某知名大厂的防控体系

64027.png
64027.png

从架构看来,大致分为三大块:权限、风控、流控

权限管控: 2018年某大厂整体架构开始往社区K8S方向迁移。迁移是个非常漫长的过程,需要考虑很多的细节。最开始自然是K8S权限体系管控问题,不同BU、不同平台、基础组件,都要跟新的ASI对接,第一件事情就是 申请项目专用账号 。当时SRE开了个Git仓库,专门用于各个 基础业务方 提交 账号申请信息,格式是按照 K8S标准权限资源 进行提交。 除了 RBAC,SRE还管控 CRD、WebHook 、Kubeconfig 等核心资源

风险控制Webhook风控:

不同平台方、业务方一般在自己的前端或者后端都有对应的逻辑进行风险控制。但是也搞不好业务方在逻辑上存在Bug或者不够完善的地方,因此在最基础的底层上,需要有个SRE的WebHook对所有请求进行拦截校验兜底。

流量控制K8S-Defender

阿里搞的 K8S防火墙主要针对于API流量风控,早期是Webhook机制实现,但是K8S-Webhook天然存在一些缺陷,比如无法站起全局视角进行精准流控,因此后面是独立出来了。做成了C/S模型,但需要强制让所有接入ASI的基础组件在关键的位置统一使用Defender做K8S流量风制,这个目前在得物这个阶段很难推得动,所以可以降级到Webhook机制去实现。

他山之石,可以攻玉。我们可以参考

3.4.2 得物现在防护具备的功能

3.4.2.1 Namespace 防误删:

这里分为硬性软性两种方式。

对于核心的Namespace,例如 kube-system、monitoring。不应该以任何理由删除,这类Namespace可以 普通账号直接锁死,即便你RBAC里面拥有删除NS的权限,就不允许删除

对于 Addons 或者 纯业务类型的Namespace,因为可能出现调试场景,比如:调试或者测试某个复杂的Addons组件,因为牵涉到太多的配置和资源,过程中已经混乱不堪,想彻底干净地重装一遍,回到初始状态。这种情况下是需要利用K8S级联删除特性,把该Namespace包括下面所有资源清理一次。如果锁死该Namespace,业务方遇到这种情况,就会很麻烦,所以这个场景走硬性防删就不是明智之举。

相对于硬性防删,我们引入了软性防删策略。也就是对于非核心的Namespace,在一定的时间内,我们对删除的请求做计数统计,在没达到阀值之前,会一直拒绝删除。并在返回的结果上给予风险提示,如果N秒内再提交X次,则真的执行删除动作。这种方式对业务方明显会更加友好一些,一方面起到了一定防误删效果,另一方面也不至于在你真正想删除的时候删不掉。

另外我们还开发了一种策略,专门针对批量删除Namespace的场景。对于我们目前Namespace的使用方式是不合理的,说不定哪天可能会对Namespace做治理,以域的方式来确定Namespace。这个时候就会涉及到大量Namespace的清理工作。这种合法的删除,如果不断地被Webhook拦截中断,这不是个合理的设计。所以我们支持以管控标降级策略,也就是给对应的Namespace打一个管控标,则Webhook对这类Namespace就主动做降级处理,不再校验拦截。这样运维就可以正常地做批量删除动作。

3.4.2.2 NS-CRD|CR 防误删:

K8S WebHook 机制,是可以对任意带Namespace的CRD|CR进行拦截。其拦截逻辑是可以共享的,只是资源类型不一样。所以我们可以动态配置,拦截逻辑对哪些资源生效。 支持Ingress、WorkLoad、Service、ConfigMap、Secret、Pod… 类型资源,并支持标签筛选能力

3.4.2.3 高危配置校验:

对于 Ingress 规则配置比较复杂,很多初学者会犯一些低级错误。比如:rule.host 配置为 ‘*’ ,这意味着该规则匹配所有域名,所有请求都会过这条规则进行转发,显然生产环境这种配置是不合理的。而且一旦配置上可能会覆盖掉大量的rule,导致生产故障。所以这类低级错误配置一定要拦截,不允许配置。

这里就简单画下方案图,大致基本借助于webhook的能力,对一些删除动作的时候加强校验与拦截的机制。

64028.png
64028.png

4.总结

上述几个案例都是得物容器SRE团队在日常工作中真实发生的事件,覆盖的也只是多项工作中的冰山一角,写这篇文章也是想让大家认知到我们团队,了解我们容器SRE。由于篇幅有限其余细节不再展开了,大家有疑问欢迎找我讨论。同时也欢迎对容器/云原生/SRE 等领域感兴趣的同学加入我们。

我们是得物容器SRE团队。

我们团队的宗旨是为全司提供稳定、高效、安全的支撑和服务。

服务项目:业务稳定性保障,线上业务系统变更,业务性能&状态监控,容量评估;核心业务场景梳理,识别关键链路和关键接口,制定服务保障预案,对关键链路实施故障演练,确保服务的连续性。得物容器化集群维护、系统网络维护以及系统基础组件维护。保障基础环境的稳定、高效,并提供丰富的工具和平台提升系统的自动化、可视化、智能化。

加入我们请发送简历 + tech_techsecurity_sa@shizhuang-inc.com

文/Gin

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 0.前言
  • 1.SRE定义
  • 2.对于SRE的理解
    • 2.1 SRE的监控和Oncall应急响应
      • 2.1.1 一个团队 Oncall 至多需要两个人 (另外一个是新手 shadow),oncall人员需要具备以下能力:
      • 2.1.2 遇到重大故障时的各种重要角色
    • 2.2 SLO和SLA制定和保障
      • 2.3 变更管理
        • 2.4 容量规划
          • 2.5 监控系统
            • 2.6 可靠性衡量
            • 3.得物容器SRE的实践
              • 3.1 Oncall应急响应的总结
                • 3.2 一次容器故障的分享
                  • 3.2.1 延迟问题背景:
                  • 3.2.2 问题排查思路:
                  • 3.2.3 最终根因定位:
                • 3.3 容器底层对于内核参数监控与优化
                  • 3.3.1 圈定监控指标范围
                  • 3.3.2 内核指标的采集实现
                  • 3.3.3 指标的展示可视化
                  • 3.3.4 场景分类逐个优化
                  • 3.3.5 参数优化管理与兜底保障
                • 3.4 容器安全的一些保障
                  • 3.4.1 简介业内防控体系
                  • 3.4.2 得物现在防护具备的功能
              • 4.总结
              相关产品与服务
              容器服务
              腾讯云容器服务(Tencent Kubernetes Engine, TKE)基于原生 kubernetes 提供以容器为核心的、高度可扩展的高性能容器管理服务,覆盖 Serverless、边缘计算、分布式云等多种业务部署场景,业内首创单个集群兼容多种计算节点的容器资源管理模式。同时产品作为云原生 Finops 领先布道者,主导开源项目Crane,全面助力客户实现资源优化、成本控制。
              领券
              问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档