前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大规模集群下,如何快速实现无死角网络连通性的主动巡检

大规模集群下,如何快速实现无死角网络连通性的主动巡检

原创
作者头像
ii2day
修改2024-01-19 16:42:55
1560
修改2024-01-19 16:42:55

01 什么是巡检

集群巡检是对集群系统进行定期检查和评估的过程,其主要目的是确保集群的稳定性、性能和安全性。以下是集群巡检的几个主要用途:

  • 故障排除和问题诊断:巡检可以帮助发现集群中的故障和问题,并提供诊断和解决方案。通过检查集群的各个组件、配置和运行状况,可以及时发现潜在的故障源和性能瓶颈,并采取适当的措施进行修复。
  • 性能优化:巡检可以评估集群的性能和资源利用情况。通过分析集群的负载、资源分配和配置,可以发现性能瓶颈、资源浪费和瓶颈等问题,并提供优化建议,以提高集群的性能和效率。
  • 安全审计和合规性:巡检可以检查集群的安全性和合规性,包括访问控制、身份验证、数据保护等方面。通过审计集群的安全配置、漏洞管理和合规性规定,可以发现潜在的安全风险和合规性问题,并采取相应的措施进行修复和合规性调整。
  • 容量规划和伸缩性:通过巡检,可以评估集群的容量使用情况和伸缩性需求。这有助于预测未来的资源需求、规划扩展策略,并提供建议来确保集群具有足够的容量和伸缩性,以满足业务的增长和变化。
  • 高可用性和冗余策略:巡检可以评估集群的高可用性和冗余策略。通过检查集群的故障转移、备份和恢复机制,可以发现潜在的单点故障和可用性问题,并提供建议来增强集群的可靠性和冗余性。

02 传统网络主动巡检痛点

主动巡检多采用手工方式,通过 CLI 工具或者脚本,向集群主动注入压力,获取集群响应情况,因此存在很多不足之处。

  • 当采用手动输入命令实现巡检时,会因为集群规模大、巡检频率高或巡检流程复杂等原因而难以实施。
  • 当采用 shell 编程方式实现巡检时,提高了运维人员的巡检门槛,编程 bug 影响了巡检结论的准确性。
  • 当需要多台发压机时,以提高请求量和连接数,需要对发压机进行配置调优成本较大,提高了压测环境的准备成本。
  • 测试工具需要调优、配置经验不足等问题,使得发压能力有限,测试不能达到预期目的,产生了错误的结论。
  • 对于 k8s 的应用更多的依赖产品自身的巡检能力,通过采集应用指标、日志、状态等信息来确认集群状态,应用产生的指标信息有限,无法完整得出巡检结论。
  • 对于大规模 k8s 集群,希望确认所有节点间 POD 的网络连通性,避免某个节点存在网络故障,发现网络中是否存在偶发丢包问题,而通信渠道非常多,包括 Pod IP、ClusterIP、NodePort、Loadbalancer IP、Ingress IP, 甚至是 POD 多网卡、双栈IP,手工方式巡检的效率低下,且维护成本较高。
  • 对于不同的应用需要使用不同的工具检查,如 dns 服务、业务应用服务、磁盘等,需要运维人员对不同的巡检工具有深入了解,大大提高了运维人员的门槛。
  • 不同巡检工具的巡检报告样式不通,无法云原生式的展示出巡检结果的详细报告。

03 解决方案:kdoctor

kdoctor 通过如下设计解决传统主动巡检问题:

  • 通过下发 CRD 配置巡检任务需求,使用者只需要关注巡检目标、巡检频率、发压参数以及期望巡检结果。
  • kdoctor 通过读取任务配置,以Deployment 或 DaemonSet 的方式运行发压 agent,以达到多台发压机器的效果。
  • kdoctor 会根据任务的 spec 配置,使用 default agent 或创建新的 agent 执行任务,以达到资源重复利用和任务资源隔离。
  • kdoctor 会绑定相对应的资源目标,如 ingress 、service,每一个 agent pod 根据任务配置相互访问绑定的资源,根据请求结果得出结论 。
  • kdocotr 的发压 client 通过性能调优,大大降低了发压请求时的资源消耗。
  • kdoctor 的巡检报告通过日志、聚合 api 、文件落盘等方式输出。

04 安装与使用

  • 根据 kdoctor 的官方文档(https://github.com/kdoctor-io/kdoctor/blob/main/docs/usage/install-zh_CN.md) 安装 kdoctor。
  • 本文以 NetReach 为例,进行集群联通性巡检。
  • 下发集群连通性巡检任务 NetReach,任务将执行一轮持续 10s 的任务,每个节点的 default agent 会相互使用 http 协议访问 ClusterIP、Endpoint、NodePort、LoadBalancer 的 IPv4 地址,并立即执行。
代码语言:shell
复制
cat <<EOF | kubectl apply -f -
apiVersion: kdoctor.io/v1beta1
kind: NetReach
metadata:
  name: reach-task
spec:
  expect:
    meanAccessDelayInMs: 1500
    successRate: 1
  request:
    durationInSecond: 10
    perRequestTimeoutInMS: 1500
    qps: 10
  schedule:
    roundNumber: 1
    roundTimeoutMinute: 1
    schedule: 0 1
  target:
    clusterIP: true
    endpoint: true
    ingress: false
    ipv4: true
    loadBalancer: false
    multusInterface: false
    nodePort: true
EOF
  • 查看巡检任务
代码语言:shell
复制
~# kubectl get netreach
NAME         FINISH   EXPECTEDROUND   DONEROUND   LASTROUNDSTATUS   SCHEDULE
reach-task   true     1               1           succeed           0 1
  • 查看巡检任务报告

kdoctor controller 会将巡检任务报告聚合并通过聚合 API 的方式进行展示。

代码语言:shell
复制
~# kubectl get kdoctorreport  reach-task -oyaml
apiVersion: system.kdoctor.io/v1beta1
kind: KdoctorReport
metadata:
  creationTimestamp: null
  name: reach-task
spec:
  FailedRoundNumber: null
  FinishedRoundNumber: 1
  Report:
  - EndTimeStamp: "2023-09-21T11:30:33Z"
    NetReachTask:
      Detail:
      - MeanDelay: 50.294117
        Metrics:
          Duration: 15.004307799s
          EndTime: "2023-09-21T11:30:33Z"
          Errors: {}
          Latencies:
            Max_inMx: 0
            Mean_inMs: 50.294117
            Min_inMs: 0
            P50_inMs: 0
            P90_inMs: 0
            P95_inMs: 0
            P99_inMs: 0
          RequestCounts: 102
          StartTime: "2023-09-21T11:30:18Z"
          StatusCodes:
            "200": 102
          SuccessCounts: 102
          TPS: 6.798047691796755
          TotalDataSize: 39295 byte
        Succeed: true
        SucceedRate: 1
        TargetMethod: GET
        TargetName: AgentClusterV4IP_10.233.32.45:80
        TargetUrl: http://10.233.32.45:80
        ....
        Succeed: true
        SucceedRate: 1
        TargetMethod: GET
        TargetName: AgentPodV4IP_kdoctor-netreach-reach-task-pmndx_10.233.74.96
        TargetUrl: http://10.233.74.96:80
    NodeName: worker-node-1
    PodName: kdoctor-netreach-reach-task-lwbtk
    ReportType: agent test report
    RoundDuration: 15.049239468s
    RoundNumber: 1
    RoundResult: succeed
    StartTimeStamp: "2023-09-21T11:30:18Z"
    TaskName: netreach.reach-task
    TaskType: NetReach
  ReportRoundNumber: 1
  RoundNumber: 1
  Status: Finished
  TaskName: reach-task
  TaskType: NetReach

总结

kdoctor 定位,不是取代传统的、专业的测试工具,也不是为了实施一个完整的巡检解决方案,而是希望提供一个简单、快速、高效、云原生化的运维测试工具,弥补当前运维测试中的功能空白,降低运维负担,并把检查结果对接到产品的生态中。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 01 什么是巡检
  • 02 传统网络主动巡检痛点
  • 03 解决方案:kdoctor
  • 04 安装与使用
  • 总结
相关产品与服务
容器服务
腾讯云容器服务(Tencent Kubernetes Engine, TKE)基于原生 kubernetes 提供以容器为核心的、高度可扩展的高性能容器管理服务,覆盖 Serverless、边缘计算、分布式云等多种业务部署场景,业内首创单个集群兼容多种计算节点的容器资源管理模式。同时产品作为云原生 Finops 领先布道者,主导开源项目Crane,全面助力客户实现资源优化、成本控制。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档