前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >使用shell批量监控磁盘坏块(一)(r7笔记第48天)

使用shell批量监控磁盘坏块(一)(r7笔记第48天)

作者头像
jeanron100
发布2018-03-16 17:32:20
6770
发布2018-03-16 17:32:20
举报

硬件的监控其实还是蛮重要的,这个部分在嘉年华中也着重强调过,不过做起来确实还是有一些难度,我们也尝试了一些方法,最终准备两条腿走路,一边使用中控的方式来统一监控管理,同事考虑把硬件监控揉入zabbix的监控体系之中。今天来说使用统一监控的方式。

在强调硬件监控的重要性时,最好的说明方式就是用数据说话。

下面的是我在Oracle嘉年华分享中提到的一个部分,对于监控硬件监控还是很容易忽略的一个环节,但是又是最无奈的一个环节。

在各类故障之中,硬件故障占用了绝大部分的故障比例。当然这个数字也有一些针对性,不具有普遍性。不过总体来看硬件故障中的主板故障等等都是重中之中。

那么这些故障的影响情况怎么样呢,我们再来看看一个图形,下面说明的是累计几年的故障影响时长。

硬件故障的影响时长几乎就是满配了,一台服务器故障影响时长1分钟,那么几千台服务器几年下来就是几千分钟,这个数字是这么解读的。

好了,强调了硬件故障,这些监控也要开始做了。对我们来说一个比较直接而且相对来说容易实现的方式就是硬盘的监控了,其中的磁盘坏块就是一个典型例子了。

硬件坏块的监控做好了,其它的监控其实也就是触类旁通,缝缝补补即可。

总体的思路如下:

是通过一台中控机器来访问所有的服务器,然后发送响应的命令,然后在各个服务器本地执行,回调返回到中控机器。所有每台服务器都要统一部署一个类似客户端的软件,目前我先采用MegaCli来统一部署。

那么监控的实现方式方式和实现细节呢,我们来用下面的图形来说明这个流程。

首先在中控的机器中采用远程调用的方式来调用各个服务器端的megacli,得到坏块的情况

然后大批量的服务器就会生成一个报告来,得到了报告就可以做进一步的改进,把它格式化一番,我们可以通过邮件的方式来显示html的表格效果。

短信中可以得到一个概要的信息,可以直接统计出一个概要的坏块数作为参考,如果坏块数小于10个,暂时可以不需要进一步处理。

上面的也是一个实现思路,目前框架已经完成,html邮件已经实现,后面给大家共享一个第三方脚本,可以做美化的效果。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2015-12-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 杨建荣的学习笔记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
短信
腾讯云短信(Short Message Service,SMS)可为广大企业级用户提供稳定可靠,安全合规的短信触达服务。用户可快速接入,调用 API / SDK 或者通过控制台即可发送,支持发送验证码、通知类短信和营销短信。国内验证短信秒级触达,99%到达率;国际/港澳台短信覆盖全球200+国家/地区,全球多服务站点,稳定可靠。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档