首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

2022 最新 线上 生产环境 故障排查 技巧 大全

2022 最新 线上 生产环境 故障排查 技巧 大全 线上故障主要会包括 CPU、磁盘、内存以及网络问题,而大多数故障可能会包含不止一个层面的问题,所以进行排查时候尽量四个方面依次排查一遍。...④GC 问题和线程 GC 问题除了影响 CPU 也会影响内存,排查思路也是一致的。...一方长期未收到另一方的确认报文,在一定时间或重传次数后发出 RST 报文 这种大多也和网络环境相关了,网络环境差可能会导致更多的 RST 报文。...我们在排查故障时候怎么确定有 RST 包的存在呢?当然是使用 tcpdump 命令进行抓包,并使用 wireshark 进行简单分析了。...tcp_tw_reuse = 1 #表示开启TCP连接中TIME-WAIT sockets的快速回收,默认为0,表示关闭 net.ipv4.tcp_tw_recycle = 1 当然我们不要忘记在 NAT 环境下因为时间戳错乱导致数据包被拒绝的坑了

12310
您找到你想要的搜索结果了吗?
是的
没有找到

线上故障排查方案

⼀般包括以下⼏项,也可以将此理解为排查顺序:业务⽇志分析排查APM分析排查物理环境排查应⽤服务排查云⼚商或运营商问题排查1.1 业务⽇志分析排查这个没啥说的,看日志不会吗?...docs.spring.io/spring-cloud-sleuth/docs/current-SNAPSHOT/reference/html/#sending-spans-to-zipkin1.3 物理环境排查物理环境是指...⼯程所依附的物理环境,⽐如服务器、宿主机、容器等,细分为服务器负载、CPU、内存、磁盘、⽹络⼏个⽅⾯。...情况,找到读写异常的进程⽹络分析使⽤dstat、vmstat等命令查看⽹络流量、TCP连接等情况,分析异常流量1.4 应⽤服务排查应⽤排查排查应⽤本身最有可能引发的问题,针对各种场景进⾏对应分析CPU...分析使⽤jstack等命令进⾏JVM分析内存分析使⽤jmap等命令分析内存使⽤情况1.5 云⼚商或运营商问题排查排查到了这⼀步的话,只需关注云⼚商或运营商官⽅公告即可。

68020

故障分析 | MySQL 无监听端口故障排查

---- 前言 最近解决了一个比较基础的问题故障,由于排查过程挺有意思,于是就以此为素材写出了本篇文章。 故障现场 防火墙什么的均正常但是无法被远程访问到。简单的使用客户端登录了一下。...ERROR 2003 (HY000): Can't connect to MySQL server on '127.0.0.1' (111) 根据以往经验大脑中浮现了几个常见的排查此类故障手法 1....排查进程存在 [root@wx ~]# ps -ef|grep [m]ysql  mysql 25973 1 1 8月30 ? ...排查端口绑定情况,居然没有绑定端口 [root@wx ~]# lsof -i:3308 [root@wx ~]# ss -nltp|grep 3308 3....本文关键字:#故障排查# ---- 文章推荐: ‍‍技术分享 | 国产麒麟 arm 上编译安装 xtrabackup8 技术分享 | MySQL 会受到“Unix千年虫“的影响吗‍ 技术分享 | MHA-MasterFailover

2.1K30

故障分析 | MySQL 无监听端口故障排查

擅长数据库故障处理。对数据库技术和 python 有着浓厚的兴趣。本文来源:原创投稿*爱可生开源社区出品,原创内容未经授权不得随意使用,转载请联系小编并注明来源。...---前言最近解决了一个比较基础的问题故障,由于排查过程挺有意思,于是就以此为素材写出了本篇文章。故障现场防火墙什么的均正常但是无法被远程访问到。简单的使用客户端登录了一下。...ERROR 2003 (HY000): Can't connect to MySQL server on '127.0.0.1' (111)根据以往经验大脑中浮现了几个常见的排查此类故障手法1.排查进程存在...mysql/data/3308/mysqld.pid --user=mysql --socket=/mysqldata/mysql/data/3308/mysqld.sock --port=33082.排查端口绑定情况...解决方案因为配置 skip-grants-tables 引起无法远程连接 mysql 服务端的故障,解决方法也是非常的简单注释重启。

79720

Linux 网络延迟故障排查

案例展示 我们需要在此演示中托管 host1 和 host2 两个主机: host1 (192.168.0.30):托管两个 Nginx Web 应用程序(正常和延迟) host2 (192.168.0.2...):分析主机 host1 准备 在 host1 上,让我们运行启动两个容器,它们分别是官方 Nginx 和具有延迟版本的 Nginx: # Official nginx $ docker run --network...network=host -itd feisky/nginx:latency b99bd136dcfd907747d9c803fdc0255e578bad6d66f4e9c32b826d75b6812724 运行以下命令以验证两个容器都在为流量提供服务...我们来做一些分析: 在 host1 中,让我们使用 tcpdump 捕获一些网络数据包: $ tcpdump -nn tcp port 8080 -w nginx.pcap 现在,在 host2 上重新运行...这里的客户端其实就是之前运行的 wrk。

2.1K10

Linux网络延迟故障排查

案例展示 我们需要在此演示中托管 host1 和 host2 两个主机: host1 (192.168.0.30):托管两个 Nginx Web 应用程序(正常和延迟) host2 (192.168.0.2...):分析主机 host1 准备 在 host1 上,让我们运行启动两个容器,它们分别是官方 Nginx 和具有延迟版本的 Nginx: # Official nginx $ docker run --network...network=host -itd feisky/nginx:latency b99bd136dcfd907747d9c803fdc0255e578bad6d66f4e9c32b826d75b6812724 运行以下命令以验证两个容器都在为流量提供服务...我们来做一些分析: 在 host1 中,让我们使用 tcpdump 捕获一些网络数据包: $ tcpdump -nn tcp port 8080 -w nginx.pcap 现在,在 host2 上重新运行...这里的客户端其实就是之前运行的 wrk。

79040

【图解】Kubernetes Deployment 故障排查指南

如果你不知道从何下手,那么在 Kubernetes 中排查故障可能会是一项艰难的任务。文本以超详细的图解说明了如何对 Kubernetes Deployment 进行故障排查,相信会对你有启发。...确保 Pod 正在运行; 着重关注让 Service 将流量路由到 Pod; 检查 Ingress 的配置是否正确。 ? 应该从最底层开始为 Deployment 做故障排查。...最后,检查 Service 和 Ingress 之间的连接 排查 Pod 故障 大多数情况下,问题出在 Pod 本身。你应该确保 Pod 已就绪并且在运行中。那么如何检查呢? ?...排查 Service 故障 如果 Pod 在运行中且已就绪,但仍无法收到应用程序的响应,就应检查 Service 的配置是否正确。 Service 会根据 Pod 的标签将流量路由到 Pod。...排查 Ingress 故障 如果已经到了这个阶段,那么意味着: Pod 在运行中且是就绪状态; Service 可以分发流量分配到 Pod。 但是你仍然看不到应用程序的响应。

2.9K30

Kubernetes 故障排查工具- Robusta 解析

Hello folks,我是 Luga,今天我们来分享一款用于 Kubernetes Cluster 故障排查的开源工具 - Robusta (罗布斯塔)。...— 01 — Robusta 概述 作为一款用于 Kubernetes Cluster 故障排查的开源平台,其本质是为了弄清楚我们当前所构建的 Kubernetes Cluster 的健康状况,并针对所出现的告警行为进行合理解释以及给予我们相关修复建议...除此之外,基于当前的运行状况,能够实时查看正在运行的 Pod、CPU 使用率、内存使用率以及有关工作负载的其他关键信息。...然而,基于 Robusta,使得我们无需在生产环境运行 Kubectl 命令或在窗口之间跳转,而直接在 Robusta 中搞定所有的一切,比如,按需获取日志、显示图形并跟踪 Pod 的状态等。...4、Web UI‍‍‍‍ 此组件为可选项,我们可以依据实际的情况,进行 Web UI 配置,基于此,能够为我们提供一个单一的管理面板来观测跨多个 K8s Cluster 的所有警报和 Pod

3.4K101
领券