深入剖析:RAC的全局死锁问题

杨廷琨(yangtingkun)

云和恩墨 CTO

高级咨询顾问,Oracle ACE 总监,ITPUB Oracle 数据库管理版版主

RAC的全局死锁时间检测

对于单实例数据库而言,死锁的检测在秒级完成,而RAC环境则死锁的检测时间默认达到了1分钟。单实例环境如果出现了死锁,那么马上其中一个进程就被中止,用户可以快速的得到错误返回。而对于RAC而言,死锁的检测并不是实时完成,而是需要60秒左右的时间。

会话1执行:

会话2执行:

此时,会话2等待会话1的最终操作,下面会话1更新被会话2锁定的行,引发死锁:

可以看到,死锁的超时检测为1分钟。 而这个死锁的检测时间是可以调整的,Oracle通过隐含参数_lm_dd_interval控制:

再次测试死锁的检测时间,会话1:

会话2执行更新:

会话1执行更新引发死锁:

SQL> UPDATE t_deadlock SET name = 'b1' WHERE id = 2;

大约30秒后,会话2报错ORA-60:

在10.2.0.2版本上,Oracle存在一个bug,允许这个参数设置为0,在10.2.0.3以后,这个bug被修正,如果设置为0后,则数据库无法正常启动:

最后修改隐含参数是Oracle不推荐的,而且修改这个参数势必会影响RAC的正常工作方式导致LDM进程的繁忙度增加,而且可能影响RAC环境的稳定性和可用性。 如果确实对于前台的死锁检查时间要求较高,建议在测试环境中详细测试后再部署到产品环境中。

设置全局死锁优先级

测试控制全局死锁的隐含参数_lm_dd_interval时,突然想到这个问题。Oracle的死锁判断是没有优先级的,也就是说,当两个或多个会话发生死锁的时候,无法指定牺牲哪个会话,而是由Oracle随机决定。

不过对于RAC环境而言,死锁的检查不在是内部的随机实现,Oracle通过隐含参数_lm_dd_interval来控制死锁的检测时间。更重要的是,对于RAC环境而言,Oracle允许不同实例设置不同的值。而不同实例的检测死锁间隔不同,就意味着优先级的出现。

如果实例1上设置该值为默认值60秒,而实例2设置为30秒,那么当发生死锁后,永远是实例2上先检测到死锁,也就是说,实例2上会话会被牺牲掉。这是两个实例上设置该参数相同的情况,两个会话分别连接到两个实例,产生死锁。

实例1上的会话1:

在实例2上连接会话2:

会话1上锁定记录2,产生死锁:

I1S1> UPDATE t_deadlock SET name = 'b1' WHERE id = 2;

第一次是实例2上的会话2被牺牲报错:

可以看到,会话2等待30秒后报错,此时会话2执行同样的语句再次引发死锁:

这次变成实例1上的会话1被牺牲报错,可以看到,会话1经历了两次死锁检测,因此执行时间为1分钟。会话1再次引入死锁:

被牺牲的又变成了会话2。 上面这个测试是在两个实例的_lm_dd_interval参数设置相同的情况下,下面修改实例2上的参数设置为5秒:

实例2参数生效后连接会话更新该表,实例1上的会话1取消之前的修改,重新进行更新:

下面在实例2上的会话2,引入死锁:

显然由于不同实例的_lm_dd_interval参数的值设置不同,现在每次死锁都会在设置值更小的实例2上被检测,实例2上的会话每次都会被死锁牺牲掉。尝试设置不同的参数值在不同实例上设置死锁检测优先级获得成功。

----the end

原文发布于微信公众号 - 数据和云(OraNews)

原文发表时间:2016-09-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏挖掘大数据

Kafka定时清除过期数据

Kafka将数据持久化到了硬盘上,允许你配置一定的策略对数据清理,清理的策略有两个,删除和压缩。

4346
来自专栏服务端技术杂谈

微服务系列-认证策略

在服务众多的微服务体系中,使用单点登录方案是一个好的解决方式。也意味着每个面向用户的服务都必须和认证服务交互,这会带来琐碎的流量,同时方案实现起来较复杂。 分布...

3206
来自专栏性能与架构

Mysql体系结构

客户端连接器 mysql为外部程序提供的客户端connector,例如 PHP JAVA .NET RUBY 连接管理 管理客户端连接的相关操作,例如 ...

3237
来自专栏散尽浮华

Nginx+upstream针对后端服务器容错的运维笔记

熟练掌握Nginx负载均衡的使用对运维人员来说是极其重要的!下面针对Nignx负载均衡upstream容错机制的使用做一梳理性说明: 一、nginx的upstr...

4129
来自专栏c#开发者

消息队列(Message Queue)简介及其使用

消息队列(Message Queue)简介及其使用 利用 MSMQ(Microsoft Message Queue),应用程序开发人员可以通过发送和接收消息方...

3808
来自专栏Golang语言社区

游戏服务器之多进程架构通信

游戏服务器有时需要分多个进程来处理各种负载。多个进程之间的连接处理就相对复杂了。 1、服务器进程类型 (1)登陆服务器 创建账号,检验角色账号,选择和获取并返回...

3365
来自专栏小灰灰

时序数据库InfluxDB之备份和恢复策略

首先创建一个数据库 yhhblog, 里面包含两个measurement,对应的数据如下

1402
来自专栏维C果糖

史上最简单的 MySQL 教程(二十八)「外键(上)」

外键:foreign key,外面的键,即不在自己表中的键。如果一张表中有一个非主键的字段指向另外一张表的主键,那么将该字段称之为外键。每张表中,可以有多个外键...

3365
来自专栏听雨堂

分组合计且排序和显示名称

        分组合计的一个问题是,合计中最大的问题是:只能显示groupby的字段,不能显示其它的字段。有时还需要排序,就很麻烦。这里有一个实现。 SELE...

1659
来自专栏IT技术精选文摘

浅析Nginx的工作模式及原理

(微信公众号:IT技术精选文摘, 微信号:ITHK01, 欢迎订阅) 同Apache http server的Perfork工作模型类似,Nginx也有mast...

2197

扫描关注云+社区