暂无搜索历史
AI已然成为当今的热门话题。过去,由于私有化部署成本极高,大多数使用者仅停留在简单的问答阶段,极少有人尝试训练大模型。然而,随着DeepSeek R1的问世,...
在k8s集群的维护工作中,我们难免会遇到多节点维护的场景,如规格升级、集群迁移等,通过直接排空节点的操作将变得繁琐,且有风险,容易出现服务中断、集群抖动等情况...
黑盒监控和白盒监控,是在运维监控中常用的两种方法,黑盒主外,白盒主内,二者主要区别和应用场景为:
在k8s场景中,我们通常的做法是给多个微服务的Pod共享挂载持久化存储,用于存储OOM heapdump,这将会带来一些痛点,例如,强依赖持久化存储,如果持久...
前阵子有个兄弟求助,他们的机房遭遇了意外断电。恢复供电后,k8s集群却无法启动。经过一番“截图分析诊断法”的默契配合,最终成功解决了故障。今天通过这篇文章,和...
本次分享的是一个基于JAVA的微服务应用场景。后端使用SkyWalking进行链路监控,前端使用Sentry进行性能和异常监控。然而,在排查用户侧问题和优化站...
在k8s集群的维护工作中,我们难免会遇到多节点维护的场景,如规格升级、集群迁移等,通过打污点和排空的操作将变得繁琐,且有风险,容易出现服务中断、集群抖动等情况...
在上一篇文章《docker-mirror:神奇指令,一键把镜像拉回“家”》中,我们介绍了docker-mirror的使用,可以帮助我们拉取镜像并转存到私有的镜...
在dockerHub无法访问后,无疑给运维工作带来了不少麻烦,期间有人问我,我们是怎么应对的?很庆幸的是,我们在问题发生之前,就已经把核心服务的容器镜像转存到...
Kubernetes(k8s)是一个开源的容器编排工具,而容器调度是其非常重要的特性,所谓的调度是指将容器(Pod)分配到集群中的节点上运行的过程。为了...
在前面的文章《开源!Pod高负载自动打印JAVA线程堆栈》中我发布了k8s-java-thread-dumper的第一个版本,并获得小伙伴们通过微信和Gith...
在 Kubernetes 中,每次微服务的代码发布都意味着创建新版本的 pod 并删除旧 pod,如果部署不够优雅的话,可能出现如下两个问题:
Velero 是一个用Go语言开发的开源工具,用于 Kubernetes 集群的备份、恢复、灾难恢复和迁移。
有一个渲染应用场景,单一个工作负载(Deployment)就有数百个副本,为了降低运维成本,选择了某云商的弹性容器实例产品作为载体,其按pod数量以小时计费,相...
在 Kubernetes 集群中,自动化资源管理和伸缩是保持应用高效运行的关键。Kubernetes 提供了几种不同的机制来帮助实现这一目标:水平自动伸缩(H...
在实际的k8s维护场景中,我们时常会遇到 Pod CPU 突刺的现象。由于信息捕获依赖人工采集,有时甚至还未完成信息捕获,问题就已经恢复了,这让人非常头...
在前面的文章《k8s网络延迟排查与优化实战分享》中,我们介绍了网络延迟的排查过程,从中深刻体会到网络抓包和分析网络包在故障排查和性能优化中的重要性。因此,本期...
近日,有朋友提到他们的ingress出现了“000”状态码,我一开始是不信的,认为他们可能是打印日志的姿势不对,因为http状态码压根就没有000的说法...
在某天的下午,我们突然收到告警,埋点服务的接口报大量502,持续了大约2分钟,然后就自动恢复了,于是便开始排查问题所在。
Prometheus Alertmanager 作为 Prometheus 生态系统中的核心告警管理组件,主要专注于实时告警的接收、去重、分组和路由。然...
暂未填写公司和职称
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址