首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    故障诊断:DRM导致Oracle RAC节点Hang住

    故障现象 在我们维护的一套系统上,某一时刻业务部反应业务无法正常进行,系统hang住。 当时查看alert日志,结果如下: ? 在01:19的时候实例1连接中断,01:29实例1恢复正常。...从收集的信息资料来看,数据库实例因为DRM而hang住的现象和BUG12998795基本匹配。但是SR中并没有明确给出确定的BUG号。...为什么checkpoint没有完成从而造成了数据库hang住? 抓取了1点到2点的AWR报告,发现两个节点的topevents都是“enq: SQ - contention”如下图所示: ?...数据库hang的时候session 8248 正在执行SQL 8mg6v1raxhay9 SQL文本如下: SELECTLPAD(SEQ_FINANCING_TCK_ORDER.NEXTVAL, 8,...ID 12998795.8) SR中最终迟迟没有定论,需要等到下次数据库hang的时候,做hang anlyze然后分析dmp文件才能下结论。

    2K40

    按图索骥:Oracle数据库无响应故障的处理思路和方法

    还有值得注意的是,即使是少部分会话Hang住,也要及时处理,否则极有可能会扩散到整个系统。 2. 单个数据库实例Hang住 这种情况造成的影响非常大。...Oracle数据库的Bug 几乎每个版本都存在着会导致数据库系统Hang住的Bug,这些Bug会在一些特定的条件下触发,特别是在RAC数据库中,引起数据库Hang住的Bug比较多。 4....那么,在数据库Hang住的情况下,如何去分析并发现导致问题的根源?...对于数据库Hang故障的处理,首先是尽可能地收集到系统Hang住时的状态数据,然后尽快地恢复业务,恢复业务后分析收集到的数据,找到数据库系统Hang住的真正原因,然后再进行相应的处理。...有时一个细小的变动就可能导致出现数据库Hang住这样严重的故障。曾经遇到一个库,应用只是修改了一个SELECT语句就导致了数据库Hang住。 2.

    2.2K80

    故障排查难?xpu_timer 让大模型训练无死角!

    住时,需要在 torch 超时前完成所有栈的打印再去分析,面对大规模任务时很难再 torch 超时内完成在大规模分布式训练作业中,可观测的能力对于问题排查和性能提升显得尤为重要。...检测,hang 栈分析等功能,设计上支持多种异构平台。...设计方案首先,针对训练 hang/性能下降的问题,我们设计了一个常驻的 kernel 计时:大部分场景下训练 hang 住是 nccl 操作导致,通常情况只需要记录矩阵乘与集合通讯即可;针对单机出现性能下降...如果还不确定,使用 --dry-runxpu_timer_dump_timeline \ --host worker \ --rank 0-3 \ --delay 3 --dump-path /nas...hang住栈分析用 pip 安装好包后,可以通过命令行工具进行分析,默认 kernel 超过 300 秒后会打印具体的栈信息,svg 图拖到 chrome 中即可观看,分别使用 pstack/py-spy

    55610

    【香菇带你学Linux】基于Linux香橙派开发板搭建无线随身NAS

    正好最近正在研究如何部署一个本地无随身线NAS网络服务,因为若单独购买一套NAS存储设备费用过于高昂,用本地电脑搭建的话体积占地过大,不方便携带和移动,这块小巧精致的香橙派AIpro开发板正好可以满足我的需求...NAS搭建 NAS,全称为网络附加存储(Network Attached Storage),是一种可以直接连接到网络的特殊设备,实现数据的集中存储和管理。...基本上就配置完成了,下面我们进行终端访问测试 4.3 NAS移动网盘访问配置 在windows终端中,我们可以通过在文件夹中访问地址的方式查看NAS共享文件夹,在Linux系统中,我们可以通过挂载磁盘的方式访问...当以后需要使用NAS网络时,只需要给香橙派AIpro开发板开机即可,不需要连接其他接口。 6....使用体验和总结 在使用香橙派AIpro作为随身NAS的过程中,由于其体积较小,和传统的NAS相比,占地小,风扇在使用过程中几乎没有出现高速运转的情况。

    29900

    Linux(Ubuntu)通过NFS服务挂载群晖NAS为虚拟磁盘

    前言 由于服务器存储空间有限,但是如果有个外置的NAS存储服务就能够很好的解决服务器的磁盘问题。下面就简单介绍一下如何将NAS挂载在服务器上,简介的扩充磁盘。 1....设置NAS,共享目录 1.1 文件服务 设置 首先进入NAS服务,打开 [控制面板] ,在控制面版包含** 文件服务 ** 功能如图所示。...异步:勾选此选项可让您的 Synology NAS 在完成对文件的更改之前回复来自 NFS 客户端的请求,以获得更好的性能。...sudo mkdir /data/nas_data 其中/data/nas_data就是要在服务器上存放nas文件的文件路径,可自定义。...参考链接:Linux(Ubuntu)通过NFS服务挂载群晖NAS为虚拟磁盘

    13.2K20

    故障分析 | MySQL 通过 systemd 启动时 hang 住了……

    询问了自动化测试的同事后,得到结论: 场景为偶发问题,执行 4 次用例,2 次成功,2 次失败 每次执行均为同一台宿主机,同一份容器镜像 失败时 hang 住的容器为同一个 既然有成功执行的结果,这里就先忽略硬件问题导致的...住会话。...[ssh seesion B] 在另一个会话窗口,start 命令 hang 住时,检查 mysqld.pid 文件,一旦文件被创建后,立刻执行 sudo -S kill -9 $(cat /opt/mysql...此时观察 systemctl status,表现与预期一致 6解决方式 先 kill 掉 hang 住的 systemctl start 命令,执行 systemctl stop mysqld_11690...虽然文章跟 MySQL 没太大关系,但重要的是分析偶发故障的思考过程 :) 本文关键字:#LInux# #systemd# #进程#

    28610

    分布式 | DBLE 3.21.10.0 来了!

    住 连接创建失败时,连接数统计的问题导致的连接泄漏 mysql 实例从 disable 到 active 状态后,dble 不可用 有时复杂的查询可能会导致内存泄漏 3.20.10.7 执行 dbGroup...@@disable name ='dbGroup1';偶现 hang 住 连接创建失败时,连接数统计的问题导致的连接泄漏 mysql 实例从 disable 到 active 状态后,dble 不可用...=true 的问题 管理端口执行 show @@connection.sql 报错 集群环境下 dble 执行 ddl 语句 hang 住 show @@dbInstance 命令,READ_LOAD...和 WRITE_LOAD 始终显示为 0 3.21.06.2 执行 dbGroup @@disable name ='dbGroup1';偶现 hang 住 连接创建失败时,连接数统计的问题导致的连接泄漏...[#2873]set autocommit=true 的问题 管理端口执行 show @@connection.sql 报错 集群环境下 dble 执行 ddl 语句 hang 住 show @@dbInstance

    42520
    领券