首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

故障诊断:DRM导致Oracle RAC节点Hang

故障现象 在我们维护的一套系统上,某一时刻业务部反应业务无法正常进行,系统hang。 当时查看alert日志,结果如下: ? 在01:19的时候实例1连接中断,01:29实例1恢复正常。...从收集的信息资料来看,数据库实例因为DRM而hang的现象和BUG12998795基本匹配。但是SR中并没有明确给出确定的BUG号。...为什么checkpoint没有完成从而造成了数据库hang? 抓取了1点到2点的AWR报告,发现两个节点的topevents都是“enq: SQ - contention”如下图所示: ?...数据库hang的时候session 8248 正在执行SQL 8mg6v1raxhay9 SQL文本如下: SELECTLPAD(SEQ_FINANCING_TCK_ORDER.NEXTVAL, 8,...ID 12998795.8) SR中最终迟迟没有定论,需要等到下次数据库hang的时候,做hang anlyze然后分析dmp文件才能下结论。

1.7K40

按图索骥:Oracle数据库无响应故障的处理思路和方法

还有值得注意的是,即使是少部分会话Hang,也要及时处理,否则极有可能会扩散到整个系统。 2. 单个数据库实例Hang 这种情况造成的影响非常大。...Oracle数据库的Bug 几乎每个版本都存在着会导致数据库系统Hang的Bug,这些Bug会在一些特定的条件下触发,特别是在RAC数据库中,引起数据库Hang的Bug比较多。 4....那么,在数据库Hang的情况下,如何去分析并发现导致问题的根源?...对于数据库Hang故障的处理,首先是尽可能地收集到系统Hang时的状态数据,然后尽快地恢复业务,恢复业务后分析收集到的数据,找到数据库系统Hang的真正原因,然后再进行相应的处理。...有时一个细小的变动就可能导致出现数据库Hang这样严重的故障。曾经遇到一个库,应用只是修改了一个SELECT语句就导致了数据库Hang。 2.

1.9K80

故障排查难?xpu_timer 让大模型训练无死角!

时,需要在 torch 超时前完成所有栈的打印再去分析,面对大规模任务时很难再 torch 超时内完成在大规模分布式训练作业中,可观测的能力对于问题排查和性能提升显得尤为重要。...检测,hang 栈分析等功能,设计上支持多种异构平台。...设计方案首先,针对训练 hang/性能下降的问题,我们设计了一个常驻的 kernel 计时:大部分场景下训练 hang 是 nccl 操作导致,通常情况只需要记录矩阵乘与集合通讯即可;针对单机出现性能下降...如果还不确定,使用 --dry-runxpu_timer_dump_timeline \ --host worker \ --rank 0-3 \ --delay 3 --dump-path /nas...hang栈分析用 pip 安装好包后,可以通过命令行工具进行分析,默认 kernel 超过 300 秒后会打印具体的栈信息,svg 图拖到 chrome 中即可观看,分别使用 pstack/py-spy

10410

故障分析 | MySQL 通过 systemd 启动时 hang 住了……

询问了自动化测试的同事后,得到结论: 场景为偶发问题,执行 4 次用例,2 次成功,2 次失败 每次执行均为同一台宿主机,同一份容器镜像 失败时 hang 的容器为同一个 既然有成功执行的结果,这里就先忽略硬件问题导致的...会话。...[ssh seesion B] 在另一个会话窗口,start 命令 hang 时,检查 mysqld.pid 文件,一旦文件被创建后,立刻执行 sudo -S kill -9 $(cat /opt/mysql...此时观察 systemctl status,表现与预期一致 6解决方式 先 kill 掉 hang 的 systemctl start 命令,执行 systemctl stop mysqld_11690...虽然文章跟 MySQL 没太大关系,但重要的是分析偶发故障的思考过程 :) 本文关键字:#LInux# #systemd# #进程#

14510

分布式 | DBLE 3.21.10.0 来了!

连接创建失败时,连接数统计的问题导致的连接泄漏 mysql 实例从 disable 到 active 状态后,dble 不可用 有时复杂的查询可能会导致内存泄漏 3.20.10.7 执行 dbGroup...@@disable name ='dbGroup1';偶现 hang 连接创建失败时,连接数统计的问题导致的连接泄漏 mysql 实例从 disable 到 active 状态后,dble 不可用...=true 的问题 管理端口执行 show @@connection.sql 报错 集群环境下 dble 执行 ddl 语句 hang show @@dbInstance 命令,READ_LOAD...和 WRITE_LOAD 始终显示为 0 3.21.06.2 执行 dbGroup @@disable name ='dbGroup1';偶现 hang 连接创建失败时,连接数统计的问题导致的连接泄漏...[#2873]set autocommit=true 的问题 管理端口执行 show @@connection.sql 报错 集群环境下 dble 执行 ddl 语句 hang show @@dbInstance

37220
领券