首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    故障诊断:DRM导致Oracle RAC节点Hang

    故障现象 在我们维护的一套系统上,某一时刻业务部反应业务无法正常进行,系统hang。 当时查看alert日志,结果如下: ? 在01:19的时候实例1连接中断,01:29实例1恢复正常。...从收集的信息资料来看,数据库实例因为DRM而hang的现象和BUG12998795基本匹配。但是SR中并没有明确给出确定的BUG号。...为什么checkpoint没有完成从而造成了数据库hang? 抓取了1点到2点的AWR报告,发现两个节点的topevents都是“enq: SQ - contention”如下图所示: ?...数据库hang的时候session 8248 正在执行SQL 8mg6v1raxhay9 SQL文本如下: SELECTLPAD(SEQ_FINANCING_TCK_ORDER.NEXTVAL, 8,...ID 12998795.8) SR中最终迟迟没有定论,需要等到下次数据库hang的时候,做hang anlyze然后分析dmp文件才能下结论。

    1.8K40

    按图索骥:Oracle数据库无响应故障的处理思路和方法

    还有值得注意的是,即使是少部分会话Hang,也要及时处理,否则极有可能会扩散到整个系统。 2. 单个数据库实例Hang 这种情况造成的影响非常大。...Oracle数据库的Bug 几乎每个版本都存在着会导致数据库系统Hang的Bug,这些Bug会在一些特定的条件下触发,特别是在RAC数据库中,引起数据库Hang的Bug比较多。 4....那么,在数据库Hang的情况下,如何去分析并发现导致问题的根源?...对于数据库Hang故障的处理,首先是尽可能地收集到系统Hang时的状态数据,然后尽快地恢复业务,恢复业务后分析收集到的数据,找到数据库系统Hang的真正原因,然后再进行相应的处理。...有时一个细小的变动就可能导致出现数据库Hang这样严重的故障。曾经遇到一个库,应用只是修改了一个SELECT语句就导致了数据库Hang。 2.

    2.1K80

    故障排查难?xpu_timer 让大模型训练无死角!

    时,需要在 torch 超时前完成所有栈的打印再去分析,面对大规模任务时很难再 torch 超时内完成在大规模分布式训练作业中,可观测的能力对于问题排查和性能提升显得尤为重要。...检测,hang 栈分析等功能,设计上支持多种异构平台。...设计方案首先,针对训练 hang/性能下降的问题,我们设计了一个常驻的 kernel 计时:大部分场景下训练 hang 是 nccl 操作导致,通常情况只需要记录矩阵乘与集合通讯即可;针对单机出现性能下降...如果还不确定,使用 --dry-runxpu_timer_dump_timeline \ --host worker \ --rank 0-3 \ --delay 3 --dump-path /nas...hang栈分析用 pip 安装好包后,可以通过命令行工具进行分析,默认 kernel 超过 300 秒后会打印具体的栈信息,svg 图拖到 chrome 中即可观看,分别使用 pstack/py-spy

    23010

    【香菇带你学Linux】基于Linux香橙派开发板搭建无线随身NAS

    正好最近正在研究如何部署一个本地无随身线NAS网络服务,因为若单独购买一套NAS存储设备费用过于高昂,用本地电脑搭建的话体积占地过大,不方便携带和移动,这块小巧精致的香橙派AIpro开发板正好可以满足我的需求...NAS搭建 NAS,全称为网络附加存储(Network Attached Storage),是一种可以直接连接到网络的特殊设备,实现数据的集中存储和管理。...基本上就配置完成了,下面我们进行终端访问测试 4.3 NAS移动网盘访问配置 在windows终端中,我们可以通过在文件夹中访问地址的方式查看NAS共享文件夹,在Linux系统中,我们可以通过挂载磁盘的方式访问...当以后需要使用NAS网络时,只需要给香橙派AIpro开发板开机即可,不需要连接其他接口。 6....使用体验和总结 在使用香橙派AIpro作为随身NAS的过程中,由于其体积较小,和传统的NAS相比,占地小,风扇在使用过程中几乎没有出现高速运转的情况。

    8800

    故障分析 | MySQL 通过 systemd 启动时 hang 住了……

    询问了自动化测试的同事后,得到结论: 场景为偶发问题,执行 4 次用例,2 次成功,2 次失败 每次执行均为同一台宿主机,同一份容器镜像 失败时 hang 的容器为同一个 既然有成功执行的结果,这里就先忽略硬件问题导致的...会话。...[ssh seesion B] 在另一个会话窗口,start 命令 hang 时,检查 mysqld.pid 文件,一旦文件被创建后,立刻执行 sudo -S kill -9 $(cat /opt/mysql...此时观察 systemctl status,表现与预期一致 6解决方式 先 kill 掉 hang 的 systemctl start 命令,执行 systemctl stop mysqld_11690...虽然文章跟 MySQL 没太大关系,但重要的是分析偶发故障的思考过程 :) 本文关键字:#LInux# #systemd# #进程#

    23610

    分布式 | DBLE 3.21.10.0 来了!

    连接创建失败时,连接数统计的问题导致的连接泄漏 mysql 实例从 disable 到 active 状态后,dble 不可用 有时复杂的查询可能会导致内存泄漏 3.20.10.7 执行 dbGroup...@@disable name ='dbGroup1';偶现 hang 连接创建失败时,连接数统计的问题导致的连接泄漏 mysql 实例从 disable 到 active 状态后,dble 不可用...=true 的问题 管理端口执行 show @@connection.sql 报错 集群环境下 dble 执行 ddl 语句 hang show @@dbInstance 命令,READ_LOAD...和 WRITE_LOAD 始终显示为 0 3.21.06.2 执行 dbGroup @@disable name ='dbGroup1';偶现 hang 连接创建失败时,连接数统计的问题导致的连接泄漏...[#2873]set autocommit=true 的问题 管理端口执行 show @@connection.sql 报错 集群环境下 dble 执行 ddl 语句 hang show @@dbInstance

    41020
    领券