前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >混沌工程之ChaosMesh使用之一模拟CPU使用率

混沌工程之ChaosMesh使用之一模拟CPU使用率

作者头像
高楼Zee
发布2021-07-14 11:15:24
1.1K0
发布2021-07-14 11:15:24
举报
文章被收录于专栏:7DGroup

今天来玩一下混沌工程的开源工具之一的ChaosMesh。ChaosMesh的目标是要做一个通用的混沌测试工具。

ChaosMesh是要和k8s结合使用的,其中用了云原生的能力。

Chaos Mesh 的基本工作流原理图:

从原理图上可以看出大概的工作流程:

  1. 用户用yaml文件或k8s客户端创建更新Chaos对象。
  2. Chaos-mesh通过watch api server中的chaos对象创建更新或删除事件,由controller-manager/chaos-daemon和sidecar协作提供注入能力。
  3. admission-webhooks用来接收http回调,提供状态信息。

Chaos Mesh 功能点

知道这些大概的内容之后,我们来具体使用一下。

前提条件:k8s集群(包括helm3)

Chaos Mesh 安装

Chaos Mesh的安装比较简单,步骤如下:

代码语言:javascript
复制
[root@s5 ChaosMesh]# helm repo add chaos-mesh https://charts.chaos-mesh.org
[root@s5 ChaosMesh]# kubectl create ns chaos-testing
[root@s5 ChaosMesh]# helm install chaos-mesh chaos-mesh/chaos-mesh --namespace=chaos-testing

检查一下安装结果:

代码语言:javascript
复制
[root@s5 ChaosMesh]#    kubectl get pods --namespace chaos-testing -l app.kubernetes.io/instance=chaos-mesh
NAME                                        READY   STATUS    RESTARTS   AGE
chaos-controller-manager-58bc5ff9d8-bvwht   1/1     Running   0          99s
chaos-daemon-5bzjd                          1/1     Running   0          99s
chaos-daemon-jjtnb                          1/1     Running   0          99s
chaos-dashboard-5878548c46-rnz47            1/1     Running   0          99s
[root@s5 ChaosMesh]#

正常生成了几个pod。

你要是有兴趣也可以安装ChaosMesh提供的一个简单的试验示例。直接执行如下命令即可。

代码语言:javascript
复制
[root@s5 ChaosMesh]# curl -sSL https://mirrors.chaos-mesh.org/v1.2.1/web-show/deploy.sh | bash

请注意:这个示例默认安装到default的namespace。

Chaos Mesh 访问

  1. 查看chaosmesh dashboard的nodeport端口,然后访问ip:port如下:

这里是提供token生成的步骤。你如果要对整个k8s进行操作,可以选择cluster scoped,并且role可以选择manager,在下面就会生成 对应的RBAC内容,然后直接按步骤apply就行了。

2. 登录之后看到如下界面:

Chaos Mesh 使用之一模拟CPU负载

1. 点击NEW EXPERIMENT,选择STRESS TEST(注意哦,这里可不是指的性能测试中的概念)。

2. 输入个CPU worker数量以及CPU负载百分比(注意,这里纯是指CPU使用率,和chaosblade/chaostoolkit的逻辑没有本质的区别)。然后点击提交。

3. 紧接着选择试验目标。这里也和其他的混沌工具一样,使用的是label_selector。然后点两次提交。

4. 然后到相应的POD所在的Worker上查看CPU使用率,即可得到如下结果。

5. 到相应的worker中查看进程,可以看到如下信息。

代码语言:javascript
复制
top - 02:38:38 up 35 days, 12:33,  0 users,  load average: 5.07, 4.08, 2.55
Tasks:   7 total,   1 running,   6 sleeping,   0 stopped,   0 zombie
%Cpu0  : 29.2 us,  3.0 sy,  0.0 ni, 67.4 id,  0.0 wa,  0.0 hi,  0.3 si,  0.0 st
%Cpu1  : 34.0 us,  4.4 sy,  0.0 ni, 61.3 id,  0.0 wa,  0.0 hi,  0.3 si,  0.0 st
KiB Mem:   8008964 total,  7834456 used,   174508 free,    32984 buffers
KiB Swap:        0 total,        0 used,        0 free.  1203140 cached Mem

  PID USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM     TIME+ COMMAND                                                                                                                                                                   
   11 root      20   0   59088   3980   1096 S  45.3  0.0   7:45.77 stress-ng-cpu                                                                                                                                                             
    1 root      20   0    4436    652    548 S   0.0  0.0   0:00.00 sh                                                                                                                                                                        
    6 root      20   0   17984   1448   1164 S   0.0  0.0   0:00.00 run.sh                                                                                                                                                                    
    7 root      20   0   41508   2500   1476 S   0.0  0.0   0:03.83 redis-server                                                                                                                                                              
   10 root      20   0   58444   3864   3512 S   0.0  0.0   0:00.00 stress-ng                                                                                                                                                                 
   12 root      20   0   19356   3148   1488 S   0.0  0.0   0:00.01 bash                                                                                                                                                                      
   34 root      20   0   19896   1396   1004 R   0.0  0.0   0:00.00 top                                                                                                                                                                       

可以看到这个工具是直接在worker中启动了一个叫stress-ng-cpu的进程。通过这个名字,我们就能理解,这就是用stress-ng这个工具启动一个进程。

这个逻辑和chaostoolkit、chaosblade也是一样的逻辑,无非就是在worker中启动一个新的进程,把CPU消耗掉。

本篇就写到这里吧,后面没事接着整理,在整理这些东西的过程中,我觉得需要的技术栈比性能工程要小很多,所以轻松+愉快地就可以做到了。可见技术的基础知识体系是多么重要。

给你留两个思考题:

1. 在混沌工程中,用这样的逻辑模拟CPU使用率,可以覆盖什么样的生产场景?又不能覆盖什么样的生产场景?

2. 在能覆盖的场景中,由于是新启动了一个进程,那在系统级的异常反应,有什么特点?

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-06-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 7DGroup 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
容器服务
腾讯云容器服务(Tencent Kubernetes Engine, TKE)基于原生 kubernetes 提供以容器为核心的、高度可扩展的高性能容器管理服务,覆盖 Serverless、边缘计算、分布式云等多种业务部署场景,业内首创单个集群兼容多种计算节点的容器资源管理模式。同时产品作为云原生 Finops 领先布道者,主导开源项目Crane,全面助力客户实现资源优化、成本控制。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档