首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据库服务器主机重启故障诊断分析

摘要:某客户RAC数据库服务器主机轮流发生集群与主机重启,数据库连接不上问题,如下为故障诊断思路....IO系统响应缓慢,导致越来越多的请求堆积,最终IO 耗尽,系统内存全部被占用,导致系统失去响应,发生故障。...,建议调整,sysctl -p 生效,(调整该操作系统参数不用重启主机) vm.dirty_background_ratio 这个参数指定了当文件系统缓存脏页数量达到系统内存百分之多少时(如5%)就会触发...pdflush/flush/kdmflush等后台 回写进程运行,将一定缓存的脏页异步地刷入外存; 操作系统参数说明: vm.dirty_ratio 这个参数则指定了当文件系统缓存脏页数量达到系统内存百分之多少时...建议二: 另外在检查中,发现该主机未配置大页,建议配置大页,可以极大提升数据库性能 后期调整后至今没有发现主机重启故障解决。

1.8K00

数据库服务器主机重启故障诊断分析

墨墨导读:某客户RAC数据库服务器主机轮流发生集群与主机重启,数据库连接不上问题,如下为故障诊断思路。...IO系统响应缓慢,导致越来越多的请求堆积,最终IO 耗尽,系统内存全部被占用,导致系统失去响应,发生故障。...,建议调整,sysctl -p 生效,(调整该操作系统参数不用重启主机) vm.dirty_background_ratio 这个参数指定了当文件系统缓存脏页数量达到系统内存百分之多少时(如5%)就会触发...pdflush/flush/kdmflush等后台 回写进程运行,将一定缓存的脏页异步地刷入外存; 操作系统参数说明: vm.dirty_ratio 这个参数则指定了当文件系统缓存脏页数量达到系统内存百分之多少时...建议二: 另外在检查中,发现该主机未配置大页,建议配置大页,可以极大提升数据库性能 后期调整后至今没有发现主机重启故障解决。

2K10
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    服务器内存故障预测居然可以这样做!

    ​ 作者:vivo 互联网服务器团队- Hao Chan随着互联网业务的快速发展,基础设施的可用性也越来越受到业界的关注。内存发生故障故障率高、频次多、影响大,这些对于上层业务而言都是不能接受的。...然而硬件故障一直以来都是一种普遍存在的现象,由于硬件故障而造成的损失往往是巨大的。在服务器各个部件中,除硬盘故障以外,内存故障是第二大常见的硬件故障类型。...并且服务器内存的数量众多,vivo的内存数量达到40w+条,内存故障造成的最严重的后果是会直接导致系统崩溃,服务器宕机,这些对于上层业务而言都是不能接受的。...如果是CE,即可纠正错误,硬件会利用一部分资源对该错误进行修复,而当内存CE累计过多,无法进行自我修复时,则会产生UCE,造成系统宕机重启。...,往往是服务器宕机重启后才被动发现的。

    18.2K20

    一次服务器非法重启后导致的故障排查记录

    前段时间遇到一个服务器问题:非法重启设备后,服务器进入救援模式,数据盘也不显示挂载是否成功。 说来这个问题,我觉得还挺奇葩。今天就来跟大家分享下整个过程以及我的处理方法。...还好服务器有配置远程管理地址,通过远程控制管理页面的方式启动 iKVM HTML5 和远程管理服务器,这样就能登到这台出故障的设备上查看服务器界面处于一种什么样的状态。...登到这台故障服务器后,直接重启服务器,然后 Xshell 再次尝试连接,是可以远程连接的。难道这就是传说中的重启治百病,如此简单粗暴? 当进入系统后,执行简单的命令都提示输入/输出错误。...当如果重启设备,能看到如下界面,则说明正在初始化设备。 恰巧,这台故障服务器有多块硬盘组成的 44T 的一个目录有存放 46% 的数据,在有数据的情况下,如何不格式化磁盘重新挂载呢?...注意:UUID 一定要写对,否则重启后无法正常进入系统。

    1.2K30

    故障分析 | 数据库服务器内存不足一例分析

    现象 监控告警某台机器空闲内存低于10%,执行top命令,按内存降序排序,部分输出如下: [root@mysql-slaver ~]# top top - 13:45:43 up 1835 days,...,和shared占用内存一致,内存都消耗到哪些子目录了?...0,18 0t0 621086290 /run/systemd/sessions/243335.ref [root@MySQL-slaver ~]# 解决 个人觉得可选解决方案如下: 1、服务器上主要服务为...innodb_buffer_pool_size使用内存,释放一部分内存给操作系统,等Redis迁移了再做机器重启处理。...2、假设主机不可以重启,通过lsof可知这些隐藏文件当前未被使用,故可以迁移到其他磁盘目录,看看是否能达到释放内存目的,且这些session都是crond 2018年产生的,并未分配相关进程,故通过loginctl

    2.9K30

    服务器增加内存后无法重启数据库的问题及解决 (36天)

    前几天生产环境需要做服务器的扩容,把原本64G的内存扩到了128G.然后调整了一些其他的kernel参数,在此基础上需要调整sga的大小,以便分配更多的缓存。...所在的每个服务器只有一个oracle_home,各有两套rac环境在同一个unix账户下。所以我启停数据库的时候也是一套环境一套环境的来。反正节点也不多。...我先是按照要求把sga调整了一下,从20G调整到40G,这样一个服务器两套环境就占用80G,还有68G的空余。...然后准备重启数据库的时候,报了下面的错误。显示内存问题,还有空间的问题,我检查了一把空间情况,没有发现什么问题。 用free -m检查内存使用情况,空余内存还多着呢。...再重启数据库就没有问题了。

    3.6K50

    关于磁盘阵列恢复您了解多少呢?

    今天小编为大家分享的关于磁盘阵列恢复的案例,本次故障的设备是HP LH6000,其中一块硬盘红灯闪亮,机器还在正常运行,但没有多久,系统就不能正常运行,这时才发现另一块硬盘的红灯也在闪亮。...3.查看系统及数据库都运行正常后,再进阵列配置工具把Failed的硬盘手工设置成Rebuild,100%完成重建后再重启服务器,所有的阵列及系统都恢复原状了。...其中一块硬盘在运行过程中突然出现故障服务器RAID 5自动启用热备份硬盘(Hot Spare),对损坏硬盘进行逻辑替代。...因此,对惠普老型号HP LH6000系列服务器来说,阵列的设计方面与现在HP ProLiant系列服务器的阵列有很多不同。(敲黑板喽!)...但是HP ProLiant系列服务器阵列的初始化是在配置阵列后自动在后台执行的,所以ProLiant系列服务器在阵列出错后是不能重配阵列的。

    1.3K00

    服务器常见问题及服务器RAID信息丢失案例分享

    可定制一套应急计划,例如备份服务器,应急电源,冗余内存等,在服务器停止运行时可以立即启用应急计划,避免影响业务。 3. 定期更新软件。...服务器故障虽然可防但不可控,出现故障也是难免的,出现故障后应该如何恢复呢。 1. 一旦出现故障首先要启用应急机制,备份服务器上线,替换故障服务器。 2. 排查故障情况并进行维修。 3....如果服务器上的数据已经遭到破坏,应该对服务器进行关机,备份服务器数据并进行专业的数据恢复操作,恢复服务器数据。 HP DL380服务器RAID信息丢失案例分享!...本次分享的服务器HP DL380系列,存储是由6块73GB SAS硬盘组成的RAID5,操作系统是WINDOWS 2003 SERVER,主要作为企业部门内部的文件服务器来应用,主机(无UPS)故障前经历过几次意外断电...,重启后RAID报错,提示无法找到存储设备,进入RAID管理模块后操作死机,重启后问题依旧无法解决。

    1.5K20

    There is no more space for virtual disk .vmdk.

    配置信息: 主机型号 HP ProLiant DL380 G5 esxi版本 5.0 虚机操作系统版本 redhat 6.8 vSphere Client 5.0.0 报错信息: 来自 esxi5.0...信息 2018/9/10 14:04:52 redhat6.8 User 登陆vSphere Client,重启虚拟机报错: [swiugufadm.png] 一般来讲文件系统撑爆会导致应用程序出问题,...但不会影响和主机的连接,所以怀疑是机器本身的磁盘满了导致虚机运行故障。...这个文 件的大小基于你是否选择在快照里存储虚拟机的内存状态。如果你选择要存储内存状态,那么这个文件比分配给虚拟机的RAM大得多,因为整个存储内容,包括空 内存都复制到这个文件。...如果你选择不存储快照的内存状态,那么这个文件非常小(小于32KB)。当然,在暂停虚拟机时,这个文件的情况类似于.vmss 总结:服务器磁盘撑满导致虚机开机异常,删除快照释放空间,虚机重启正常。

    3K50

    HP-UX培训学习笔记

    HP-UX操作系统全称为Hewlett Packard UniX,是惠普服务器上所有的操作系统。...HP-UX服务器的硬件 服务器的产品序列:入门级(rx66,rx56...)...,CPU和内存插在一个个的单元板上,一个机器有多个单元板,多个单元板可以通过Crossbar连接在一起,这样可以提供强大的计算能力和硬件的容错能力,最多可以支持128个CPU、512个内存插槽;另外一种是...这种技术的出发点在于之前独立CPU的机器存在高峰瓶颈和利用率低估,通过加入更多的计算和内存单元,来达到资源的动态划分,一方面提高资源利用率,一方面提高高可用性。...早期的HP服务器提供一种GSP(Guardian Service Processor)的进入方式,HP的下一代替代产品就是MP。

    2.1K20

    服务不可用怎么排查?讲了100遍还是记不住?

    下面是线上机器的cpu使用率,可以看到从4月8日开始,随着时间cpu使用率在逐步增高,最终使用率达到100%导致线上服务不可用,后面重启机器后恢复。 ?...可以排除下游系统故障对我们的影响。 查看provider接口的调用量,对比7天没有突增,排除业务方调用量的问题。 查看tcp监控,TCP状态正常,可以排除是http请求第三方超时带来的问题。...查看机器监控,6台机器cpu都在上升,每个机器情况一样。排除机器故障问题。即通过上述方法没有直接定位到问题。 3、解决方案 1、重启了6台中问题比较严重的5台机器,先恢复业务。...top -Hp 384 ?...dump:live,format=b,file=/dump201612271310.dat 384 9、使用MAT加载堆文件,可以看到javax.crypto.JceSecurity对象占用了95%的内存空间

    53510

    性能测试流程指南和工具推荐​

    资源利用率:描述信息系统性能能力的一系列数据指标,通常是被测服务器的CPU利用率、内存利用率、磁盘IO、网络吞吐量等。 思考时间:信息系统使用者在进行业务操作的时候,发出每个请求之间的时间间隔。...、磁盘IO等,一般主要决定因素回事响应时间、CPU利用率和内存使用率)的前提下,系统所能承受的最大负载量。...具体没有一个统一标准,后续会逐渐将问题特征汇总收集),那么就要引入故障诊断工具。故障诊断工具推荐一块yourkit 0X00106 Yourkit 故障诊断工具使用。...LoadRunner监控Linux资源 rstat协议允许网络上的用户获得同一网络上各机器的性能参数。.../startAgent.sh 查看端口:lsof -i:4444 又占用进程表示服务启动 Yourkit 故障诊断工具使用 PS:stand-alone模式的jetty为例 1、服务器端下载yourkit

    4.2K40

    记一次硬件问题导致IO较高分析

    第二、Raid卡电池处于充放电阶段或者损坏 io util 90%以上,很大几率是硬件问题导致,我们可以通过如下命令检查,除HP服务器外其他采用MegaCli查看硬件信息,HP采用自带hpssacli...命令查看,切记不要使用老命令hpacucli,此命令会导致部分HP型号服务器操作系统系统直接hang住。...数据库服务器一般采用双电模式,掉电风险较低,但是主板故障相对较高,所以BBU坏时是否要打开Write Cache,需要根据业务情况综合取舍。...二、Raid卡电池充放电 目前服务器除了HP服务器Raid卡采用电容外,大部分服务器Raid卡还都采用的是锂电池。 首先我们先了解BBU充放电原理: BBU由锂离子电池和电子控制电路组成。...因为是凌晨3:00出现,而且备份正好是凌晨3:00开始,首先想到可能是备份导致的io上升,但是登上服务器检查发现这几组机器并没有部署备份。

    3.3K70

    HP服务器Linux下hpacucli常用命令

    HP服务器官方管理工具hpacucli,通过该工具可以查看HP服务器的Raid状态是否正常(如果Raid卡出问题,会影响数据的读写速度),服务器硬盘是否正常(如果硬盘坏掉,严重的情况会丢失数据),服务器电源是否有故障等信息...HP服务器官方管理工具hpasmcli,通过该工具可以很详细查看服务器CPU,内存,处理器,电源等的温度信息。...-9.40-1602.44.rhel6.x86_64.rpm 2)查看服务器CPU,内存,处理器,电源等的温度信息 [[email protected] ~]# hpasmcli -s ‘show’ ...~]# hpasmcli -s ‘show powersupply’    查看电源模块 [[email protected] ~]# hpasmcli -s ‘show server’    查看机器型号...,序列号,CPU,内存大小

    3.1K60

    服务不可用怎么排查?讲了100遍还是记不住?

    下面是线上机器的cpu使用率,可以看到从4月8日开始,随着时间cpu使用率在逐步增高,最终使用率达到100%导致线上服务不可用,后面重启机器后恢复。...可以排除下游系统故障对我们的影响。 查看provider接口的调用量,对比7天没有突增,排除业务方调用量的问题。 查看tcp监控,TCP状态正常,可以排除是http请求第三方超时带来的问题。...查看机器监控,6台机器cpu都在上升,每个机器情况一样。排除机器故障问题。即通过上述方法没有直接定位到问题。 3、解决方案 1、重启了6台中问题比较严重的5台机器,先恢复业务。...top -Hp 384 4、发现pid 4430 4431 4432 4433 线程分别占用了约40%的cpu 5、将这几个pid转为16进制,分别为114e 114f 1150 1151 6、下载当前的...dump:live,format=b,file=/dump201612271310.dat 384 9、使用MAT加载堆文件,可以看到javax.crypto.JceSecurity对象占用了95%的内存空间

    31510

    实战:关于服务不可用的排查过程

    一、发现问题 下面是线上机器的cpu使用率,可以看到从4月8日开始,随着时间cpu使用率在逐步增高,最终使用率达到100%导致线上服务不可用,后面重启机器后恢复。...可以排除下游系统故障对我们的影响。 3.查看provider接口的调用量,对比7天没有突增,排除业务方调用量的问题。 4.查看tcp监控,TCP状态正常,可以排除是http请求第三方超时带来的问题。...5.查看机器监控,6台机器cpu都在上升,每个机器情况一样。排除机器故障问题。 即通过上述方法没有直接定位到问题。 四、解决方案 1.重启了6台中问题比较严重的5台机器,先恢复业务。...top -Hp 384 4.发现pid 4430 4431 4432 4433 线程分别占用了约40%的cpu 5.将这几个pid转为16进制,分别为114e 114f 1150 1151 6.下载当前的...dump:live,format=b,file=/dump201612271310.dat 384 9.使用MAT加载堆文件,可以看到javax.crypto.JceSecurity对象占用了95%的内存空间

    58320

    服务器基础知识_服务器初学者入门

    定义: 从广义上讲,服务器是指网络中能对其它机器提供某些服务的计算机系统(如果一个PC对外提供ftp服务,也可以叫服务器)。 从狭义上讲,服务器是专指某些高性能计算机,能通过网络,对外提供服务。...公司的POWER和PowerPC处理器,SUN与富士通公司合作研发的SPARC处理器、EPIC处理器主要是HP与Intel合作研发的安腾处理器等。...x系列服务器HP的Proliant 系列服务器等。...内存 ECC( Error Checking and Correcting) 指令纠错技术 : 服务器一般要求24小时×365天不间断运行,而且不允许中途故障频出或者频繁重启,对可靠性和稳定性两项指标要求极为苛刻...,这将大大提高服务器内存的工作效率。

    1.4K10

    记录一则ORA-12154,ORA-12560解决过程

    应用服务器:Windows Server 2008 R2 Enterprise 故障现象:项目侧同事反映应用服务器上的程序连接数据库报错:ORA-12560: TNS: 协议适配器错误 1.故障重现...2.定位问题 3.解决问题 1.故障重现 在应用服务器上使用sqlplus和PL/SQL工具登录 连接数据库服务器均报错: ``` ORA-12154: TNS: 无法解析指定的连接标识符 ```...performed because the system lacked sufficient buffer space or because a queue was full. 2.4 尝试其他机器连接...发现其他机器是可以登录到数据库服务器的,进一步查看数据库相关信息,也发现一切正常: - 数据库服务正常 - 数据库监听正常 - 防火墙/SELINUX均未启用 - 其他与应用服务器同一网段的主机测试到数据库的连接也正常...而从上面CRT连接报出的错误信息初步确定是此台windows服务器的socket资源耗尽。 对windows不是很了解,简单粗暴的重启应用服务器后解决了此问题。

    61520

    麒麟系统安装打印机共享_银河麒麟 惠普打印机驱动怎么安装

    06 10:41 / 作者:百科全说 原因一: 打印机需要服务没有启动并自动启动 计算机(我的电脑)图标右键—–管理—服务,或开始→控制面板→系统和安全→管理工具-服务 设置下面服务为自动启动并启动,重启计算机...ENVY惠普打印机相关软件卸载即可. 3.重启电脑后打开打印机电源,并重新 最近,不少在电脑连接了惠普打印机的用户反映:升级Win10系统后,惠普打印机就不能使用了.而且,遇到这个故障的惠普打印机用户还不少...电脑连接惠普打印机后文件打印不出来怎么办 解决方法一: 1.打开控制面板-打印机界面; 2.右击打印机将其删除; 3.如果没选中当前的任何一个打印机,菜单是这样的; 4.选中任何一个打印机,选中”打印服务器属性...”; 5.打印服务器属性,切换到驱动程序界面; 6.选中刚删掉的打印机的驱动,并点击删除按钮; 7.删除 驱动程序 和 驱动程序包; 惠普打印机故障维修中心详细联系方式,限北京地区,希望能为您提供便利...4、在你需要使用的打印机图标上点右键,再点设置为默认打印机即可正常使用打印机了,再加打印测试页测试一下机器是否正常工作。

    4.1K30
    领券