发布

运维开发故事

运维开发相关笔记
专栏成员
352
文章
591784
阅读量
65
订阅数
基于DaemonSet的Process Exporter监控实践指南
作为一名Kubernetes管理员,你是否经历过: ✅ 服务正常却找不到CPU飙升的根本原因? ✅ 容器进程异常但无法快速定位根源? ✅ 缺乏完整的进程级监控体系导致故障排查困难?
没有故事的陈师傅
2025-03-04
220
使用DaemonSet实现heapdump文件自动化管理
heapdump文件是Java应用遭遇OOM后的诊断报告,记录了某一时刻 JVM 堆中对象的详细使用情况,是 JVM 堆内存的一个快照。通过分析 heapdump 文件,我们可以深入了解到内存中究竟存在哪些对象,它们占用了多少内存空间,以及对象之间的引用关系如何。这对于定位内存泄漏问题至关重要。
没有故事的陈师傅
2025-02-07
880
深入剖析Alertmanager:解锁告警管理的核心逻辑
在当今复杂的IT系统架构中,监控体系对于保障系统的稳定运行至关重要。而Alertmanager作为监控体系里关键的一环,在处理告警信息、确保相关人员及时响应等方面发挥着无可替代的作用。它就像是一个信息枢纽,接收来自各个监控源的告警信息,经过一系列智能处理后,精准地将关键信息传递给相关人员。
没有故事的陈师傅
2025-01-22
740
2025年,SRE在企业中可以做哪些事
在当今时代,AI 浪潮正以汹涌之势席卷各行各业,深刻地改变着我们的生活与工作模式。从医疗领域的智能诊断,到金融行业的风险预测,AI 的身影无处不在,它为各个行业带来了前所未有的机遇与变革。
没有故事的陈师傅
2025-01-16
1360
使用loki+promtail+alertmanager+prometheusAlert实现自定义日志采集查看和监控告警
后面介绍部署方式都是二进制部署,这些应用都可以使用容器进行部署,思路都是一样的,本文就不再介绍了
没有故事的陈师傅
2025-01-07
1900
关注专栏作者,随时接收最新技术干货
KVM虚拟化之设备透传
会看到类似下面的输出,其中包含显卡的 PCI 地址,例如 0000:03:00.0:
没有故事的陈师傅
2024-12-27
880
[kubectl-resource-view]: 一款用于查看k8s资源使用情况的插件
一款自己编写的k8s 命令行插件,用于查看k8s node和pod资源的 cpu、 memory、 gpu的request 和limit 使用情况。
没有故事的陈师傅
2024-12-02
1030
服务器又被黑了,可咋办
作为资深老油条(Server Reinstall Enginner),对于这种安全问题,第一反应就是重装(没有什么是重装解决不了的,如果有,那就再装一次),因为病毒大概率是找不全,杀不干净,很容易对外留尾巴。
没有故事的陈师傅
2024-11-25
920
告警平台V1.0版本
随着接入监控的团队和集群越来越多,告警管理也变的异常重要。由于网络的限制,无法使用类似快猫、睿象云等SAAS告警系统,所以就自己开发一套简单的告警平台,满足日常的业务需求。
没有故事的陈师傅
2024-11-25
1140
急速Boost,让数据跑得更快 -- Ceph缓存技术全解析
缓存池通过创建一个逻辑层,将热点数据从较慢的存储介质(如 HDD)移动到更快速的存储介质(如 SSD)。当客户端请求数据时,首先在缓存池中查找,如果命中缓存,则直接返回数据,否则从后端存储池获取数据,并将数据写入缓存池以备后续访问。
没有故事的陈师傅
2024-11-25
2090
接口拨测 Plus 版本
之前写了一个《开发一个接口监控的Prometheus Exporter》,当时只是单纯的实现了一个简单的Exporter,但是基本能满足要求,最近对接口监控的需求做了升级,主要有:
没有故事的陈师傅
2024-11-25
1090
kvm安装windows虚拟机并安装virtio驱动
这里只写disk相关的块,qcow2硬盘的bus设置为virtio,引导镜像和virtio驱动的ISO的bus设置为sata,第一次安装时引导选择cdrom启动
没有故事的陈师傅
2024-11-25
4480
ceph配置缓存池
缓存池通过创建一个逻辑层,将热点数据从较慢的存储介质(如 HDD)移动到更快速的存储介质(如 SSD)。当客户端请求数据时,首先在缓存池中查找,如果命中缓存,则直接返回数据,否则从后端存储池获取数据,并将数据写入缓存池以备后续访问。
没有故事的陈师傅
2024-07-04
4310
Kubernetes中的事件收集以及监控告警
随着微服务以及云原生的发展,越来越多的企业都将业务部署运行到Kubernetes中,主要是想依托Kubernetes的可扩展、可伸缩、自动化以及高稳定性来保障业务的稳定性。
没有故事的陈师傅
2024-04-10
6610
JVM 性能调优之通过 JProfile 和 JFR 分析系统瓶颈提升系统性能
JDK飞行记录器(JFR)是一种结构化日志记录工具, 它记录广泛的系统级(system-level)事件。类似于飞机上的黑盒子,它会持续记录飞行数据,用于调查飞行事故。JFR会持续记录JVM中的 一系列事件,用于诊断问题。这种方式的优势是,它会按时间顺序,捕获导致事故的,详细系统信息。JFR被设计的,对于性能影响很小,所以 可以安全地在生产环境长时间运行。
没有故事的陈师傅
2024-04-10
5890
开发一个接口监控的Prometheus Exporter
!! 大家好,我是乔克,一个爱折腾的运维工程,一个睡觉都被自己丑醒的云原生爱好者。
没有故事的陈师傅
2024-02-27
4590
k8s informer 是如何保证事件不丢失的?
我们知道 k8s 里重要概念之一就是 声明式 API,比如 kubectl apply 就是声明式 API的实现。
没有故事的陈师傅
2024-01-10
5460
浅谈yarn的任务管理与资源管理
YARN(Yet Another Resource Negotiator)是Hadoop 2.x的一个计算框架,旨在解决Hadoop 1.x中的资源管理和任务调度问题。它的主要目的是将MR1 JobTracker 的两个主要功能(资源管理和作业调度/监控)分离,以便更好地支持多种应用程序,而不是仅支持MapReduce。
没有故事的陈师傅
2023-12-19
9000
老炮新作,大一统的监控探针采集器 cprobe 开源了
监控数据采集领域,比如 Prometheus 生态有非常多的 Exporter,虽然生态繁荣,但是无法达到开箱即用的大一统体验,Exporter 体系的核心问题有:
没有故事的陈师傅
2023-12-13
3290
Ceph RBD和QEMU块设备qos测试
Ceph,作为一个高度可扩展的分布式存储系统,已经成为云计算和大数据时代的关键基石。随着企业和组织对数据存储的需求日益增长,Ceph 通过其强大的特性,如可靠性、伸缩性和性能,满足了这些需求。然而,随着集群规模的扩大和工作负载的多样性,如何确保资源的有效分配和性能隔离成为了一个重要议题。在这个背景下,Ceph 的 Quality of Service (QoS) 功能显得尤为重要。
没有故事的陈师傅
2023-12-04
5260
点击加载更多
社区活动
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档