首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

故障诊断:DRM导致Oracle RAC节点Hang

故障现象 在我们维护的一套系统上,某一时刻业务部反应业务无法正常进行,系统hang。 当时查看alert日志,结果如下: ? 在01:19的时候实例1连接中断,01:29实例1恢复正常。...从收集的信息资料来看,数据库实例因为DRM而hang的现象和BUG12998795基本匹配。但是SR中并没有明确给出确定的BUG号。...为什么checkpoint没有完成从而造成了数据库hang? 抓取了1点到2点的AWR报告,发现两个节点的topevents都是“enq: SQ - contention”如下图所示: ?...ID 12998795.8) SR中最终迟迟没有定论,需要等到下次数据库hang的时候,做hang anlyze然后分析dmp文件才能下结论。...from v$policy_history wherepolicy_event = 'initiate_affinity'; 案例总结 1、应用连接到数据库的方式改为负载均衡:案例为11g RAC系统

1.7K40

Oracle datapump expdpimpdp 导入导出数据库时hang

最近在导出schema级别的数据时被hang,不得不停止当前的导出作业,如果你有类似的问题,请继续往下看。...1、问题描述     导出整个schema时数据库被hang,如下所示     符号">"是由SecureCRT设定的每300秒发送一次 oracle@Dev-DB-04:~> expdp goex_admin... [ID 563171.1] goex_admin@GOBO2> show parameter fixed     NAME                                 TYPE...FIXED_DATE参数可以定义当前的日期为一个常量而不随系统日期的变化而变化,通常用于测试目的使用     对于使用datapump进行导入导出的情形,应考虑将该参数设置为none来避免导入导出hang...的问题     该参数影响的版本Version 10.1.0.2 to 11.2.0.3

1.1K20

按图索骥:Oracle数据库无响应故障的处理思路和方法

在一个多应用系统的数据库上面,如果Hang的会话比较多,则影响的可能是其中的一个应用系统。...这里有一个例外,如果Hang的进程是系统后台进程,如pmon、smon等,则影响的范围就非常大了,最终甚至会影响整个数据库及所有应用系统。...还有值得注意的是,即使是少部分会话Hang,也要及时处理,否则极有可能会扩散到整个系统。 2. 单个数据库实例Hang 这种情况造成的影响非常大。...Oracle数据库的Bug 几乎每个版本都存在着会导致数据库系统Hang的Bug,这些Bug会在一些特定的条件下触发,特别是在RAC数据库中,引起数据库Hang的Bug比较多。 4....对于数据库Hang故障的处理,首先是尽可能地收集到系统Hang时的状态数据,然后尽快地恢复业务,恢复业务后分析收集到的数据,找到数据库系统Hang的真正原因,然后再进行相应的处理。

1.8K80

一个“扛100亿次请求”的春晚红包系统

前言 前几天,偶然看到了 《扛100亿次请求——如何做一个“有把握”的春晚红包系统”》(url)一文,看完以后,感慨良多,收益很多。...确定目标 在一切系统开始以前,我们应该搞清楚我们的系统在完成以后,应该有一个什么样的负载能力。...发放红包: 文中提到系统以5万个每秒的下发速度,那么单机每秒下发速度50000/600 =83个/秒,也就是单机系统应该保证每秒以83个的速度下发即可。...最后考虑到系统的真实性,还至少有用户登录的动作,拿红包这样的业务。真实的系统还会包括聊天这样的服务业务。...和现有系统区别:和大部分高QPS测试的不同,本系统的侧重点有所不同。我对2者做了一些对比。

48440

Linux系统|Linux系统应急响应

目录 排查用户相关的信息 排查进程端口相关的信息 查找恶意程序并杀掉 斩草除根 判断入侵方式,修复漏洞 当我们被告知一台Linux服务器被黑客入侵,黑客利用该服务器进行挖矿...w #显示已经登陆系统的用户列表,并显示用户正在执行的指令 users #显示当前登录系统的所有用户的用户列表 last #查看最近登录成功的用户及信息...,查看的是 /var/log/wtmp 文件 lastb #查看最近登录失败的用户及信息,查看的是 /var/log/btmp 文件 lastlog #显示系统中所有用户最近一次登录信息...#查看爆破用户名字典 总的来说,黑客入侵主机有下列几种情况: 通过 redis 未授权漏洞入侵(好多挖矿程序是通过这个) ssh 弱口令暴力破解 Web 程序漏洞入侵 参考文章: 记一次Linux...木马清除过程 相关文章:Redis未授权访问漏洞 Linux挖矿病毒的清除与分析 Linux下性能监控、守护进程与计划任务管理 来源:

9.4K20

日常Bug排查-消息不消费日常Bug排查-消息不消费总结

开发突然找到笔者,线上某个系统突然消费不了queue了。Queue不消费也算是日常问题了。淡定的先把流量切到另一个机房,让问题先恢复再说。...linux下默认的内核参数为: /proc/sys/net/ipv4/tcp_keepalive_time 7200 两小时 /proc/sys/net/ipv4/tcp_keepalive_probes...如果是DB进程宕or重启 如果不是mha切换,而是DB进程重启或者宕的话,由于Linux内核没宕还存在着。内核会自动将DB进程所属的socket进行close也就是发FIN报文回去。...这是因为,线下没有加上IO hang导致SQL处理时间过长这一条件。SQL很快就返回了,所以我们线下的线程只有很小的概率卡在socket read上面。况且有几十个线程在消费,卡一两个无关大局。...而在我们这次上面,由于SQL处理时间超长,所以基本所有的线程都在VIP漂移的那一刻执行socket read即等待数据库返回阶段,就导致所有线程全部hang等。

77420

容灾系列(五)——数据库容灾建设

单写业务场景 单写业务场景,说明业务只有一套数据库系统,因此一致性保障依赖于数据库集群内主从库复制方式,包括异步,半同步,以及强同步。...同时升级为多可用区能力,会引入以下风险因子 业务时延会有3ms左右网络延时,tdsql在proxy到db无就近原则 极端情况下主从一致性问题概率变大 跨可用区网络抖动会导写业务hang 同地域不同AZ...2.写数据hang:与同可用区业务场景一致。 1. 数据一致性:数据一致性较差,强同步均依赖于Slave1,对于slave2数据可能不是最新数据,可用区故障可能会存在数据不一致的情况 2....写数据hang:逻辑链路跨可用区只有一条,依赖于可用区之间链路稳定性,会增加写数据hang概率。 方案三 三可用区部署:三个可用区,每个可用区一个节点 1....写数据hang:逻辑链路跨可用区有两条,增强跨AZ网络稳定性,会降低写数据hang概率 跨AZ会有3ms网络延时,业务结合具体事务综合来评估

7.6K114

LinuxLinux系统调用

Linux系统调用 前言 操作系统——管理计算机硬件与软件资源的软件,是用户和系统交互的操作接口,为它上面运行的程序提供服务。...操作系统内核——操作系统的内核,负责管理系统的进程、内存、设备驱动程序、文件和网络系统。一个内核不是一套完整的操作系统。例如LinuxLinux操作系统——基于Linux内核的操作系统。...通常由Linux内核、shell(特殊的应用程序,提供运行其他程序的接口)、文件系统和应用程序组成。常见的有:Redhat、Fedora、Centos、Ubuntu和Android等。...Linux的运行空间: Linux的运行空间:内核空间+用户空间 ---- 内核空间——存放的是整个内核代码和所有内核模块,以及内核所维护的数据。 用户空间——用户程序的代码和数据。...---- 系统调用的实现 通过软件中断实现。 **软件中断:**它是通过软件指令触发的中断。Linux系统内核响应软件中断,从用户态切换到内核态,执行相应的系统调用。

27.8K10
领券