Oracle诊断案例-SGA与Swap之二

link:

http://www.eygle.com/case/sga2.htm

案例描述: 这是一个大型生产系统 问题出现时系统累计大量用户进程 用户请求得不到及时响应,新的进程不断尝试建立连接 连接数很快被用完 数据库版本:9.2.0.3 操作系统:Solaris8

1.检查alert文件 日志中记录如下错误信息,说明磁盘异步IO出现问题:

我们知道在SUN的某些版本上异步IO存在问题 而异步IO缺省是打开的

SQL> show parameter disk_a NAME TYPE VALUE------------------------------------ ----------- ------------------------------disk_asynch_io boolean TRUE

针对此问题,我们停用了数据库的异步IO写入。

2.共享内存问题 alert文件中还记录了以下错误信息:

该信息说明内核参数设置过小或者和SGA不匹配 我们检查system配置文件

我们发现最大共享内存设置仅有4G

3.检查SGA设置

SQL*Plus: Release 9.2.0.3.0 - Production on 星期二 8月 26 21:46:35 2003 Copyright (c) 1982, 2002, Oracle Corporation. All rights reserved. Connected to:Oracle9i Enterprise Edition Release 9.2.0.3.0 - 64bit ProductionWith the Partitioning, OLAP and Oracle Data Mining optionsJServer Release 9.2.0.3.0 - Production SQL> show sga Total System Global Area 6695660272 bytesFixed Size 740080 bytesVariable Size 2399141888 bytesDatabase Buffers 4294967296 bytesRedo Buffers 811008 bytes

我们发现SGA设置接近7G,这也就是步骤2中错误提示出现的原因

4.交换区问题 我们用top工具检查系统运行状况

# /usr/local/bin/toplast pid: 16899; load averages: 0.82, 0.81, 0.83 21:49:051230 processes:1228 sleeping, 1 running, 1 on cpuCPU states: 50.1% idle, 7.4% user, 8.6% kernel, 33.9% iowait, 0.0% swapMemory: 8192M real, 118M free, 12G swap in use, 11G swap freePID USERNAME THR PRI NICE SIZE RES STATE TIME CPU COMMAND15751 oracle 11 44 0 6456M 6408M sleep 0:02 0.49% oracle15725 oracle 11 58 0 6458M 6410M sleep 0:02 0.46% oracle251 root 12 48 0 7096K 1944K sleep 126:00 0.45% picld16540 oracle 11 58 0 6458M 6411M sleep 0:01 0.45% oracle16766 root 1 43 0 3744K 2248K cpu/1 0:01 0.41% top16408 oracle 11 58 0 6457M 6410M sleep 0:01 0.34% oracle15989 oracle 11 58 0 6458M 6409M sleep 0:01 0.34% oracle15919 oracle 11 58 0 6457M 6409M sleep 0:02 0.30% oracle16404 oracle 11 58 0 6457M 6409M sleep 0:00 0.28% oracle16327 oracle 11 55 0 6457M 6410M sleep 0:00 0.27% oracle14870 oracle 11 58 0 6457M 6412M sleep 0:05 0.24% oracle16851 oracle 11 35 0 6457M 6411M sleep 0:00 0.22% oracle16467 oracle 11 58 0 6457M 6409M sleep 0:00 0.21% oracle16163 oracle 11 58 0 6457M 6408M sleep 0:03 0.21% oracle15159 oracle 11 58 0 6457M 6408M sleep 0:05 0.21% oracle

Memory: 8192M real, 118M free, 12G swap in use, 11G swap free 我们发现系统仅有8G RAM,物理内存仅有118M可用 现在SWAP区使用了12G 我们初步作出以下判断: SGA设置过大(将近7G)导致运行时产生大量交换 大量SWAP交换进而引发磁盘问题 这也就应该是我们第一步看到 WARNING: aiowait timed out 1 times 的原因 大量交换导致数据库性能急剧下降 进而导致用户请求得不到快速响应,堵塞、累积,直至数据库失去响应

5.解决方案 此问题主要是由于SGA设置不当引起,我们马上缩小了SGA设置: SQL> show sga Total System Global Area 3591870848 bytes Fixed Size 735616 bytes Variable Size 1442840576 bytes Database Buffers 2147483648 bytes Redo Buffers 811008 bytes 此时,数据库减少了交换,达到了稳定运行,用户请求可以得到快速响应。 问题解决完成.

6.系统状态 调整后系统运行状况:

$ top last pid: 12745; load averages: 0.46, 0.79, 0.65 22:22:49 228 processes: 227 sleeping, 1 on cpu CPU states: 92.3% idle, 5.0% user, 1.6% kernel, 1.1% iowait, 0.0% swap Memory: 8192M real, 3817M free, 4015M swap in use, 15G swap free PID USERNAME THR PRI NICE SIZE RES STATE TIME CPU COMMAND 12610 oracle 1 51 0 3511M 22M sleep 0:04 1.96% oracle 12595 oracle 1 48 0 3511M 22M sleep 0:03 0.92% oracle 12630 oracle 1 38 0 3511M 21M sleep 0:01 0.84% oracle 12614 oracle 1 46 0 3511M 22M sleep 0:01 0.64% oracle 12620 oracle 1 58 0 3511M 22M sleep 0:01 0.53% oracle 12709 oracle 1 48 0 3511M 21M sleep 0:00 0.45% oracle 265 root 11 38 0 7032K 1920K sleep 3:16 0.42% picld 12729 oracle 1 0 0 3511M 20M sleep 0:00 0.26% oracle 12741 oracle 1 58 0 2768K 1760K cpu/3 0:00 0.19% top 12745 oracle 1 44 0 3506M 16M sleep 0:00 0.17% oracle 12711 oracle 1 48 0 3506M 16M sleep 0:00 0.11% oracle 12738 oracle 1 43 0 3506M 16M sleep 0:00 0.06% oracle 7606 oracle 1 45 0 17M 6928K sleep 0:07 0.05% tnslsnr 12721 oracle 1 34 0 3506M 16M sleep 0:00 0.05% oracle 12723 oracle 1 53 0 3506M 16M sleep 0:00 0.05% oracle

该系统调整完以后,一直稳定运行至今.

一点总结: 这个案例和前面我提到的另外一个极其相似 同样都是SGA设置不当引起的数据库问题 本身并不复杂 这一类问题应该在数据库规划和建设阶段就避免掉. 其时,该问题对我更像是个心理测试 当所有老板都站在你背后的时候,你能否冷静快速的找到并解决问题. 关于SUN上的aiowait timed out 有很多总情况及诱因 我后面还有相应的案例说明 . -Eygle

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Java帮帮-微信公众号-技术文章全总结

Web-第二十一天 Web商城实战一【悟空教程】

public class BaseServlet extends HttpServlet {

21140
来自专栏GopherCoder

『阅读源代码的姿势:以 go-restful 为例』

60830
来自专栏社区的朋友们

Node 架构从三层到 N 层,实现代码重用和解耦

三层架构通常意义上是将整个业务应用划分为:控制层、业务逻辑层以及数据访问层,三层架构在 Java Web 项目中很常见,那么这种架构能否运用在 Node 项目中...

2.2K20
来自专栏coding...

iOS开发实战-NetworkExtension食用教程写在前面项目介绍项目准备我不是广告结语

由于未知原因苹果在mac OS 10.12中删除了这个文件,因此我们需要从10.11系统中提取或下载--百度网盘 安装完毕后,在新增build target中...

1.6K20
来自专栏安恒网络空间安全讲武堂

赛前福利①最新2018HITB国际赛writeup

FIRST 距离“西湖论剑杯”全国大学生网络空间安全技能大赛只有10天啦! 要拿大奖、赢offer,那必须得来点赛前练习定定心啊~这不,讲武堂就拿到了2018H...

47650
来自专栏草根专栏

从头编写 asp.net core 2.0 web api 基础框架 (3)

Github源码地址:https://github.com/solenovex/Building-asp.net-core-2-web-api-starter-...

50570
来自专栏黑泽君的专栏

day54_BOS项目_06

第一步:根据提供的 业务受理.pdm 文件生成建表文件 bos_qp.sql 第二步:由于业务受理.pdm 文件中有伪表,所以我们需要修改生成的建表文件,修改如...

10420
来自专栏技术博文

excel导入与导出

基本上导出的文件分为两种: 1:类Excel格式,这个其实不是传统意义上的Excel文件,只是因为Excel的兼容能力强,能够正确打开而已。修改这种文件后再保存...

31160
来自专栏惨绿少年

OpenStack云计算之路-Mitaka 版本

1.1 云计算简介 云计算(英语:cloud computing ),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机各种...

68080
来自专栏FreeBuf

远程RPC溢出EXP编写实战之MS06-040

0x01 前言 MS06-040算是个比较老的洞了,在当年影响十分之广,基本上Microsoft大部分操作系统都受到了影响,威力不亚于17年爆出的”永恒之蓝”漏...

320100

扫码关注云+社区

领取腾讯云代金券