前一段时间用户的系统进行应用发布和系统运维,准备了很久,结果我们最为担心的数据库维护环节没有出现问题,却在应用发布的阶段出现麻烦,因为程序未设置正确的字符集,导致插入了乱码数据,结果又不得不重来。
在很多重要的维护操作中,往往核心环节没问题,结果在微不足道的小地方折戟沉沙。
移动的朋友总结了一句话,非常有道理:运维保障总是从最高风险点开始逐步推进,悖论是如果这样推进的执行力有保障,出的问题总是之前觉得低风险的地方。
这也给我们一个警示:数据库运维或系统运维,每一个环节都要细致入微,唯有如此才能保障长治久安。
最近某用户的ASM实例又因为ORA-04031错误出现宕机事故,影响了业务运行,我分析了一下日志,同一个的错误自去年就已经出现,两个实例分别发生了148 次和111次,最终--终于导致事故出现。、数据库运维,监控是根本,及时发现、分析和解决出现的问题,是运维保障系统稳定的关键,任何一个简单的错误都不容轻忽。
加强监控,收集和分析足够多的数据,是系统的最佳保障!
图:对客户系统错误的分析。