唯一不变的就是变化
感悟
1. 遇到问题要全局考虑,逐步排除
2. 这群可爱的小伙伴,是我坚强的后盾
3. 数据库要备份,数据库要备份,数据库要备份,重要的事情说三遍
图片来源于网络
英姿碎碎念
20180927,Oracle RAC遭遇IO错误,然而,我要说的重点是可爱的小伙伴们(啦啦啦~~)
碎碎念到此结束
1 问题描述
从昨天开始,Oracle RAC遭遇ORA-01115 01110 15081错误,业务人员在做ETL时,发来的报错信息
初步看,是IO故障,有可能逻辑故障也有可能是物理故障。
2 解决过程
定位问题,是全库还是部分;(PS:所幸不是全库)
定位是哪些部分;(PS1:从SQL语句着手分析各个表的情况,由索引读到全表读都尝试了一下)
//附全表读可以用count(*),也可以用hint
(PS2:所幸表数据没问题,是表上索引出现IO问题,当然就算表数据有问题也没事儿,我们有备份哒^-^,图片从此步骤开始~)
用dbv检查文件状态,多节点多次执行报错全部一致(PS:存储设备出现问题的可能性越来越大。。。)
用rman命令校验文件,同样报错;(PS:基本确定是存储设备的故障了)
与存储厂商沟通,确定是存储厂商前几天升级后触发了新bug;(PS:这个。。。)
定位索引问题
双节点分别执行dbv(grid用户下用sys,确保是ASM)
rman操作验证
rman之后确认状态
操作系统报错
存储厂商问题确认
3 这才是文章的重点,我可爱的小伙伴们
从发了这个问题之后,平时都很忙的小伙伴们立即就出现了,又让我想起了那个夏天,想起OCM的故事,仿佛就在昨日。。。然而曾经青涩的他们,一个个都已经成长为独挡一面的大神,记录我的大神们,都是最棒的(笔芯ღ( ´・ᴗ・` ))
如需后续解决方案,欢迎交流,也欢迎带砖头一起讨论
开启新旅程
生命由一段又一段的旅程衔接而成,在每段旅程中,都能发现不一样的风景
有技术,有梦想,不忘初心,方得始终
领取专属 10元无门槛券
私享最新 技术干货