数据库突然宕机无法open的问题及解决

测试的数据库有一天突然宕机,然后无法正常open了,这个问题虽然过去了一段时间,也在这儿总结一把。 从alert日志中的信息如下。

Fri Jan 10 16:09:42 2014
Archived Log entry 6837 added for thread 1 sequence 6863 ID 0x19db56aa dest 1:
Fri Jan 10 16:12:59 2014
Errors in file /oravl01/oracle/adm/FETABP2/diag/rdbms/fetabp2/FETABP2/trace/FETABP2_lgwr_2432.trc:
ORA-19502: write error on file "/oravl04/oradata/FETABP2/cntrl_1.dbf", block number 1191 (block size=16384)
ORA-27061: waiting for async I/Os failed
Linux-x86_64 Error: 28: No space left on device
Additional information: -1
Additional information: 131072
LGWR (ospid: 2432): terminating the instance due to error 19502
Fri Jan 10 16:13:01 2014
System state dump requested by (instance=1, osid=2432 (LGWR)), summary=[abnormal instance termination].
System State dumped to trace file /oravl01/oracle/adm/FETABP2/diag/rdbms/fetabp2/FETABP2/trace/FETABP2_diag_2422.trc
Non critical error ORA-48913 caught while writing to trace file "/oravl01/oracle/adm/FETABP2/diag/rdbms/fetabp2/FETABP2/trace/FETABP2_diag_2422.trc"
Error message: ORA-48913: Writing into trace file failed, file size limit [5242880] reached
Writing to the above trace file is disabled for now on...
Instance terminated by LGWR, pid = 2432
Fri Jan 10 16:32:32 2014

从上可以看到,数据库遇到了io问题,并且空间也不够了,直接宕机了。 先mount上再说,别直接拿过来就open,可能一些恢复问题让自己的误操作弄的更复杂了。如果生产环境,那影响就更大了。需要先做详细的判断再动手。 由于这个是测试环境先来演示一下错误。

alter database open
Errors in file /oravl01/oracle/adm/FETABP2/diag/rdbms/fetabp2/FETABP2/trace/FETABP2_ora_4780.trc:
ORA-10873: file 1 needs to be either taken out of backup mode or media recovered
ORA-01110: data file 1: '/oravl04/oradata/FETABP2/SYSTEM_1.dbf'
ORA-10873 signalled during: alter database open...
Fri Jan 10 17:02:26 2014

查看数据库状态。 SQL> select status from v$instance; STATUS ------------ MOUNTED 查看数据文件的scn情况 SQL> select file#,checkpoint_change# from v$datafile; FILE# CHECKPOINT_CHANGE# ---------- ------------------ 1 1.3605E+13 2 1.3605E+13 3 1.3605E+13 4 1.3605E+13 5 1.3605E+13 6 1.3605E+13 7 1.3605E+13 8 1.3605E+13 9 1.3605E+13 10 1.3605E+13 11 1.3605E+13 11 rows selected. 显示不清楚,先格式化再看看。 SQL> col checkpoint_change# format 99999999999999999 SQL> / FILE# CHECKPOINT_CHANGE# ---------- ------------------ 1 13605259062393 2 13605259062399 3 13605259062404 4 13605259062411 5 13605259062416 6 13605259062422 7 13605259062411 8 13605259062411 9 13605259062411 10 13605259062411 11 13605259062411 11 rows selected. 可以看到有很多不一致。 查看数据库文件头的scn情况,情况类似。 SQL> select file#,checkpoint_change# from v$datafile_header; FILE# CHECKPOINT_CHANGE# ---------- ------------------ 1 13605259062393 2 13605259062399 3 13605259062404 4 13605259062411 5 13605259062416 6 13605259062422 7 13605259062411 8 13605259062411 9 13605259062411 10 13605259062411 11 13605259062411 如果是这个状态,可能是有对数据库做了什么其他的操作,查看热备份的情况 这下揪到问题了。 SQL> select * from v$backup; FILE# STATUS CHANGE# TIME ---------- ------------------ ---------- --------- 1 ACTIVE 1.3605E+13 08-JAN-14 2 ACTIVE 1.3605E+13 08-JAN-14 3 ACTIVE 1.3605E+13 08-JAN-14 4 ACTIVE 1.3605E+13 08-JAN-14 5 ACTIVE 1.3605E+13 08-JAN-14 6 ACTIVE 1.3605E+13 08-JAN-14 7 ACTIVE 1.3605E+13 08-JAN-14 8 ACTIVE 1.3605E+13 08-JAN-14 9 ACTIVE 1.3605E+13 08-JAN-14 10 ACTIVE 1.3605E+13 08-JAN-14 11 ACTIVE 1.3605E+13 08-JAN-14 从日志里面翻看热备份的情况,连续好几天都没有end backup的命令出现,可见io的那个问题和这个也有一定的关系。 先修复一下。 用下面的sql生成修复语句。 select 'alter tablespace '||name|| ' end backup;' from v$tablespace where ts# in (select ts# from v$datafile where file# in (select file# from v$backup));

生成的命令如下。 alter tablespace system end backup; ..... 修复了一部分,查看备份表。可以看到好多状态都发生了改变。 SQL> select * from v$backup; FILE# STATUS CHANGE# TIME ---------- ------------------ ---------- --------- 1 NOT ACTIVE 1.3605E+13 08-JAN-14 2 NOT ACTIVE 1.3605E+13 08-JAN-14 3 ACTIVE 1.3605E+13 08-JAN-14 4 NOT ACTIVE 1.3605E+13 08-JAN-14 5 NOT ACTIVE 1.3605E+13 08-JAN-14 6 NOT ACTIVE 1.3605E+13 08-JAN-14 7 NOT ACTIVE 1.3605E+13 08-JAN-14 8 NOT ACTIVE 1.3605E+13 08-JAN-14 9 NOT ACTIVE 1.3605E+13 08-JAN-14 10 NOT ACTIVE 1.3605E+13 08-JAN-14 11 NOT ACTIVE 1.3605E+13 08-JAN-14 11 rows selected. 修复完成后,可以看到状态都是not active的了。 SQL> select * from v$backup; FILE# STATUS CHANGE# TIME ---------- ------------------ ---------- --------- 1 NOT ACTIVE 1.3605E+13 08-JAN-14 2 NOT ACTIVE 1.3605E+13 08-JAN-14 3 NOT ACTIVE 1.3605E+13 08-JAN-14 4 NOT ACTIVE 1.3605E+13 08-JAN-14 5 NOT ACTIVE 1.3605E+13 08-JAN-14 6 NOT ACTIVE 1.3605E+13 08-JAN-14 7 NOT ACTIVE 1.3605E+13 08-JAN-14 8 NOT ACTIVE 1.3605E+13 08-JAN-14 9 NOT ACTIVE 1.3605E+13 08-JAN-14 10 NOT ACTIVE 1.3605E+13 08-JAN-14 11 NOT ACTIVE 1.3605E+13 08-JAN-14 再次查看scn的情况。 SQL> select file#,checkpoint_change# from v$datafile 2 SQL> / FILE# CHECKPOINT_CHANGE# ---------- ------------------ 1 13607479649688 2 13607479649688 3 13607479649688 4 13607479649688 5 13607479649688 6 13607479649688 7 13607479649688 8 13607479649688 9 13607479649688 10 13607479649688 11 13607479649688 查看数据文件头的情况。 SQL> select file#,checkpoint_change# from v$datafile_header; FILE# CHECKPOINT_CHANGE# ---------- ------------------ 1 13607479649688 2 13607479649688 3 13607479649688 4 13607479649688 5 13607479649688 6 13607479649688 7 13607479649688 8 13607479649688 9 13607479649688 10 13607479649688 11 13607479649688 确认没问题了,打开数据库。 SQL> alter database open; Database altered.

原文发布于微信公众号 - 杨建荣的学习笔记(jianrong-notes)

原文发表时间:2014-03-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏北京马哥教育

MongoDB常用shell命令之index shell

1、创建索引 db.collectionName.ensureIndex({name:1}); db.collectionName.ensureIndex({...

2775
来自专栏杨建荣的学习笔记

11g升级性能问题之一 重建user_synonyms (笔记27天)

在测试环境11g升级之后,从测试那边反馈查询syn反应很慢。要持续差不多10分钟。其实这个syn中的数据只有200多条第一反应是cpu 100%了,查看果然是因...

3455
来自专栏杨建荣的学习笔记

使用shell进行日志分析(r2第14天)

最近做数据批量加载的时候,是通过pl/sql嵌在shell脚本里执行的。 脚本运行后生成的日志类似如下的格式 Get Dump file for APP_TM...

3206
来自专栏Jerry的SAP技术分享

如何用ABAP代码读取CDS view association的数据

我有如下一个CDS view, 这个view的数据来自CRMD_ORDERADM_H, 定义了一个名称为_statushelp的association, 指向了...

3376
来自专栏杨建荣的学习笔记

生产环境sql语句调优实战第七篇(r2笔记99天)

在数据迁移完成之后,开始了例行的后期数据库维护,早上一来就发现了一个sql执行时间很长了。达到了37279秒。最后在改进调优之后执行速度在1分钟以内。 这个速度...

3328
来自专栏杨建荣的学习笔记

关于drop user的cascade选项解惑(52天)

在数据库中,有时候需要删除用户,大多数时候都需要使用cascade选项,有些时候却不需要,想知道在这个简单的命令之后数据库倒底在干什么, 这时候给一些指定的操作...

3478
来自专栏杨建荣的学习笔记

归档和非归档模式下ORA-01145错误的解决方法(87天)

总结了一下,在归档和非归档的场景下,ora-01145这个错误可能有如下三种情况: 1.off line tablespace --在非归档模式下尝试ofli...

3086
来自专栏数据和云

追本溯源:Oracle 只读表空间的探索实践

作者简介 ? 胡中豪 云和恩墨西区交付工程师,多年一线 DBA 经验,曾服务于运营商、电网、政府行业、银行等行业客户;擅长数据库故障处理、性能优化、实施升级 本...

2683
来自专栏杨建荣的学习笔记

ORACLE dataguard学习笔记 (91天)

今天在一台机器上模拟了dataguard,主备两个实例从物理上不共享任何归档文件路径。 主要有以下内容: dataguard Physical standby的...

28611
来自专栏杨建荣的学习笔记

通过shell脚本查看procedure的信息(r2笔记85天)

在一个schema中,可能含有大量的procedure, 有时候想查看具体的信息,一般得通过toad,plsql dev等工具来查看,有时候在尽可能摆脱图形...

2855

扫码关注云+社区