首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    故障诊断:DRM导致Oracle RAC节点Hang住

    故障现象 在我们维护的一套系统上,某一时刻业务部反应业务无法正常进行,系统hang住。 当时查看alert日志,结果如下: ? 在01:19的时候实例1连接中断,01:29实例1恢复正常。...从收集的信息资料来看,数据库实例因为DRM而hang住的现象和BUG12998795基本匹配。但是SR中并没有明确给出确定的BUG号。...为什么checkpoint没有完成从而造成了数据库hang住? 抓取了1点到2点的AWR报告,发现两个节点的topevents都是“enq: SQ - contention”如下图所示: ?...ID 12998795.8) SR中最终迟迟没有定论,需要等到下次数据库hang的时候,做hang anlyze然后分析dmp文件才能下结论。...from v$policy_history wherepolicy_event = 'initiate_affinity'; 案例总结 1、应用连接到数据库的方式改为负载均衡:案例为11g RAC系统

    2K40

    Oracle datapump expdpimpdp 导入导出数据库时hang住

    最近在导出schema级别的数据时被hang住,不得不停止当前的导出作业,如果你有类似的问题,请继续往下看。...1、问题描述     导出整个schema时数据库被hang住,如下所示     符号">"是由SecureCRT设定的每300秒发送一次 oracle@Dev-DB-04:~> expdp goex_admin...住 [ID 563171.1] goex_admin@GOBO2> show parameter fixed     NAME                                 TYPE...FIXED_DATE参数可以定义当前的日期为一个常量而不随系统日期的变化而变化,通常用于测试目的使用     对于使用datapump进行导入导出的情形,应考虑将该参数设置为none来避免导入导出hang...住的问题     该参数影响的版本Version 10.1.0.2 to 11.2.0.3

    1.2K20

    按图索骥:Oracle数据库无响应故障的处理思路和方法

    在一个多应用系统的数据库上面,如果Hang住的会话比较多,则影响的可能是其中的一个应用系统。...这里有一个例外,如果Hang住的进程是系统后台进程,如pmon、smon等,则影响的范围就非常大了,最终甚至会影响整个数据库及所有应用系统。...还有值得注意的是,即使是少部分会话Hang住,也要及时处理,否则极有可能会扩散到整个系统。 2. 单个数据库实例Hang住 这种情况造成的影响非常大。...Oracle数据库的Bug 几乎每个版本都存在着会导致数据库系统Hang住的Bug,这些Bug会在一些特定的条件下触发,特别是在RAC数据库中,引起数据库Hang住的Bug比较多。 4....对于数据库Hang故障的处理,首先是尽可能地收集到系统Hang住时的状态数据,然后尽快地恢复业务,恢复业务后分析收集到的数据,找到数据库系统Hang住的真正原因,然后再进行相应的处理。

    2.2K80

    故障分析 | MySQL 通过 systemd 启动时 hang 住了……

    查看 /var/log/messages 系统日志内容: 发现循环报出了一些内存方面的错误信息,通过搜索后发现该错误可能为硬件问题。...询问了自动化测试的同事后,得到结论: 场景为偶发问题,执行 4 次用例,2 次成功,2 次失败 每次执行均为同一台宿主机,同一份容器镜像 失败时 hang 住的容器为同一个 既然有成功执行的结果,这里就先忽略硬件问题导致的...[ssh seesion B] 在另一个会话窗口,start 命令 hang 住时,检查 mysqld.pid 文件,一旦文件被创建后,立刻执行 sudo -S kill -9 $(cat /opt/mysql...此时观察 systemctl status,表现与预期一致 6解决方式 先 kill 掉 hang 住的 systemctl start 命令,执行 systemctl stop mysqld_11690...虽然文章跟 MySQL 没太大关系,但重要的是分析偶发故障的思考过程 :) 本文关键字:#LInux# #systemd# #进程#

    28610

    一个“扛住100亿次请求”的春晚红包系统

    前言 前几天,偶然看到了 《扛住100亿次请求——如何做一个“有把握”的春晚红包系统”》(url)一文,看完以后,感慨良多,收益很多。...确定目标 在一切系统开始以前,我们应该搞清楚我们的系统在完成以后,应该有一个什么样的负载能力。...发放红包: 文中提到系统以5万个每秒的下发速度,那么单机每秒下发速度50000/600 =83个/秒,也就是单机系统应该保证每秒以83个的速度下发即可。...最后考虑到系统的真实性,还至少有用户登录的动作,拿红包这样的业务。真实的系统还会包括聊天这样的服务业务。...和现有系统区别:和大部分高QPS测试的不同,本系统的侧重点有所不同。我对2者做了一些对比。

    54840

    Linux系统|Linux系统应急响应

    目录 排查用户相关的信息 排查进程端口相关的信息 查找恶意程序并杀掉 斩草除根 判断入侵方式,修复漏洞 当我们被告知一台Linux服务器被黑客入侵,黑客利用该服务器进行挖矿...w #显示已经登陆系统的用户列表,并显示用户正在执行的指令 users #显示当前登录系统的所有用户的用户列表 last #查看最近登录成功的用户及信息...,查看的是 /var/log/wtmp 文件 lastb #查看最近登录失败的用户及信息,查看的是 /var/log/btmp 文件 lastlog #显示系统中所有用户最近一次登录信息...#查看爆破用户名字典 总的来说,黑客入侵主机有下列几种情况: 通过 redis 未授权漏洞入侵(好多挖矿程序是通过这个) ssh 弱口令暴力破解 Web 程序漏洞入侵 参考文章: 记一次Linux...木马清除过程 相关文章:Redis未授权访问漏洞 Linux挖矿病毒的清除与分析 Linux下性能监控、守护进程与计划任务管理 来源:

    9.5K20

    日常Bug排查-消息不消费日常Bug排查-消息不消费总结

    开发突然找到笔者,线上某个系统突然消费不了queue了。Queue不消费也算是日常问题了。淡定的先把流量切到另一个机房,让问题先恢复再说。...linux下默认的内核参数为: /proc/sys/net/ipv4/tcp_keepalive_time 7200 两小时 /proc/sys/net/ipv4/tcp_keepalive_probes...如果是DB进程宕or重启 如果不是mha切换,而是DB进程重启或者宕的话,由于Linux内核没宕还存在着。内核会自动将DB进程所属的socket进行close也就是发FIN报文回去。...这是因为,线下没有加上IO hang住导致SQL处理时间过长这一条件。SQL很快就返回了,所以我们线下的线程只有很小的概率卡在socket read上面。况且有几十个线程在消费,卡一两个无关大局。...而在我们这次上面,由于SQL处理时间超长,所以基本所有的线程都在VIP漂移的那一刻执行socket read即等待数据库返回阶段,就导致所有线程全部hang住等。

    83220
    领券