安装ansible批量管理系统。(没有的话,ssh远程命令循环也可以) 在常用的数据库里面新建一张表,用你要收集的信息作为列名,提供可以用shell插入. 批量安装所需工具包,smartmontoo
http://www.lsi.com/support/downloads/megaraid/miscellaneous/linux/1.01.39_Linux_Cli.zip
本文介绍了如何使用MegaRAID卡进行磁盘阵列的配置和管理,包括创建、删除、初始化磁盘阵列,以及配置RAID5、RAID6、RAID10等磁盘阵列模式。同时,本文还介绍了如何查看和管理磁盘阵列的状态和属性,以及如何添加和删除热备盘。对于基于Linux和Windows的操作系统的配置方法也有所不同,本文以Linux操作系统为例进行介绍。
下载地址:ftp://download2.boulder.ibm.com/ecc/sar/CMA/XSA/ibm_utl_sraidmr_megacli-8.00.48_linux_32-64.zip
需求说明:公司最近来了一批服务器,用于大数据业务部署。数据节点服务器由14块物理磁盘,其中有2块是900G的盘,12块是4T的盘。在服务器系统安装时,进入系统的BIOS界面:1)将2块900G的磁盘做成raid1用作系统盘(顺便说一下:raid0最少需要1块磁盘;raid1最少需要2块磁盘;raid10最少需要4块磁盘,raid5至少需要3块磁盘);2)将其中的2块4T的磁盘做成raid1,分别挂载到/data1和/data2用作大数据日志存储;3)另外的10块4T的磁盘在系统安装时没做raid也没做分区,
MegaCLI使用方法:http://blog.51cto.com/daixuan/1863567
做Raid,用到了megacli,又学了一套命令. 显示Rebuid进度 1 /opt/MegaRAID/MegaCli/MegaCli64 -PDRbld -ShowProg -physdrv[20:2] -aALL 查看ES 1 /opt/MegaRAID/MegaCli/MegaCli64 -PDList -aAll -NoLog | grep -Ei "(enclosure|slot)" 查看所有硬盘的状态 1 2 /opt/MegaRAID/MegaCli/MegaCli64 -LDInfo
Linux入侵经历 被入侵的一次经历 今天给大家说说一次被入侵的经历,仅供大家参考。 事件起因 2017年9月7日下午测试带宽,登录到服务器。在/tmp目录下发现可疑执行文件SPR。然后,检查是否有
工作交接的时候 --> [新接手的工作,需要有个全局概览,在接触某些具体的机器的时候很有用,虽然CMDB也能做的,但是颗粒度可能更细] CMDB资源收集 --> [貌似这个很多时候都是自己写的agent] 故障排错 --> [很多时候排查故障的时候需要知道该机器的整体情况]
设置直通模式 megacli -adpsetprop -enablejbod -1 -aAll
软件raid:查看raid级别,状态等信息 【生产环境没人敢用软raid,除非他不想干了】
近期公司一台服务器的磁盘告警“磁盘阵列错误”,经检查发现磁盘:“PD0/PD1/PD2 硬盘Medium Error DevId 并BadStripe PD0 PD1”,需要在服务器磁盘彻底崩溃之前进行raid修复,具体过程如下:
0、使用SSD。资金不足的话,使用RAID设备 【建议使用RAID10,因为RAID5的性能并不太高】
Raid10环境下换硬盘还是很简单的,支持热插拔,直接拔下换掉就可以了,下面是操作步骤。
本脚本只适用于centos7以上的系统。同时需要MegaCli工具的支持。所以在脚本开始就安装了次工具。
随着公司测试开发的环境数量需求愈来愈大,原本的服务器资源也愈发紧张。在2020年末之际,公司迎来了新的三台华为RH1288 V2服务器;运维小生在这里记录一下此服务器如何配置RAID卡。
使用megaraid修复raid1掉线硬盘 使用说明: 查看硬盘状态 ~# megacli -PDList -aAll -NoLog | grep 'Firmware state' Firmware state: Unconfigured(bad) Firmware state: Online, Spun Up 将Unconfigured(bad)调整为可用的good状态 ~# megacli -PDMakeGood -PhysDrv[252:0] -a0 ~# megacli -PDList -aAll
通常遇到此问题可能原因 第一、并发较大刷磁盘频繁 一般此问题不会造成io util 90%以上。如果事物较大或者并发较大,slow log会有记录,我们可以先看下当前线程连接情况,再结合slow log查看是哪些sql导致。 第二、Raid卡电池处于充放电阶段或者损坏 io util 90%以上,很大几率是硬件问题导致,我们可以通过如下命令检查,除HP服务器外其他采用MegaCli查看硬件信息,HP采用自带hpssacli命令查看,切记不要使用老命令hpacucli,此命令会导致部分HP型号
之前分享了第一篇 使用shell批量监控磁盘坏块(一),今天来简单说说这个需求的实现内容 。 首先主要思路是通过中控的机器来发送监控的细节,然后返回结果。 首先就是我们需要有一个服务器列表,里面会
我们使用的计算机的全称叫电子计算机,前面有电子两个字,这说的是整个计算机中的核心元器件基本上都是电子单元组成的。但机械硬盘却是一个特殊的例外,它更多是用机械技术做出来的一个产品。当把带有机械技术基因的磁盘搭到计算机,尤其是再应用到服务器领域的时候,暴露出了机械技术的两个严重问题:
在Windows Server日志配置收集工具的场景2里,有几个模块特别显眼,那就是带着Hard开头的:
下面是我打造的71TB的Linux ZFS存储系统,目前稳定运行快两年了。所以下面我将分享我的配置过程。
最近做硬件巡检,发现一部分硬盘出现了坏块,同事就帮忙去协调处理这个事情,晚些时候接到了现场工程师的电话,问我可以不可以换,简单确认是raid5的盘。所以只能一个盘一个盘来换。 首先确定来第一块要换的盘,位于slot 1,也就是第二块盘,简单确认之后,那位兄弟说已经换好了,我使用megacli来查看,感觉结果比较奇怪。 查看到的结果如下,一个firmware显示为Unconfigured,一个显示为Rebuild # /opt/MegaRAID/MegaCli/MegaCli64 -PDList -aALL|
好多重要的服务器都使用了RAID阵列来提高气硬件的冗余,保护数据的绝对安全,尤其是数据库使用的更加广泛。然而有的时候磁盘阵列组中的某些磁盘可能由于某些原因导致掉线,会使系统出现异常,所以对其进行监控是很必要的,文章就是介绍如何进行监控
假设一台服务器要从一个机房迁移到另外一个机房,这个过程就好比你去出差,从北京到上海,怎么准备才是最方便,安全,快捷的。 如果出去时间不长,有了银行卡,这些都不是问题,很多小件的东西都可以通过买买买来解决,这里的银行卡就好比服务器的iDRAC模块一样(也常叫ILO),而你的出行又不可避免需要使用有效证件,交通如此,住酒店如此,这里的身份证就好比系统的root密码一样重要。 而在这个基础上,你的出行还需要考虑是否带电脑,是否带拖鞋,是否带行李箱等等,这些都是我们需要考虑的点,对于服务器迁移来说也是
之前写过一篇通过shell来监控磁盘坏块的文章 http://blog.itpub.net/23718752/viewspace-1872978/ 从使用情况来看,也确实发现了一些坏块很多的问题,这也给我们的工作带来一些清晰的指导。不过感觉对于硬件的监控还在隔靴搔痒,还有很多的监控不够到位。或者太细感觉有些鸡肋,或者太粗有感觉有些笼统。而且还有些问题还是说不清道不明。 比如前段时间碰到一个问题,白天刚做过磁盘巡检,没有发现任何坏块,结果到晚上服务器就崩了。也没有任何的前兆,收到一条ICMP的报警之后,服务器
01 PART 知识回顾 本篇文章,我们重点介绍服务器"磁盘"信息的获取。 前期知识储备和回顾,请参考以下文章 01)运维天地-服务器01-X86-PCServer属性介绍 02)运维天地-服务器
光标移动到PREC H710P Mini处,按F2->Foreign Config-> Import 导入完成,会看到导入以后的raid信息,然后退出。
import os ,time ,sys, traceback,commands,subprocess
最近真是忙的厉害,感觉时间都不是自己的了,大周末的时间都排得满满当当,先是大半夜接到报警电话,接着碰到了让人无奈的硬件问题,一台服务器挂掉,结果上面有两个备库,都是数据量庞大的统计分析库,数据量也不小
前几天安装了megaraid-storage-manager_17.05.02-2_all,用以前megacli的命令测试了一下就以为可以了。
Go生态圈有好几个K/V数据库,我们经常用它来做我们的存储引擎,但是这些数据库引擎的性能如何呢?本文试图用性能而不是功能的数据考察这些数据库,我测试了几种场景: 并发写、并发读、单一写并发读、并发删除,得出了一些有趣的数据。
硬件的监控其实还是蛮重要的,这个部分在嘉年华中也着重强调过,不过做起来确实还是有一些难度,我们也尝试了一些方法,最终准备两条腿走路,一边使用中控的方式来统一监控管理,同事考虑把硬件监控揉入zabbix的监控体系之中。今天来说使用统一监控的方式。 在强调硬件监控的重要性时,最好的说明方式就是用数据说话。 下面的是我在Oracle嘉年华分享中提到的一个部分,对于监控硬件监控还是很容易忽略的一个环节,但是又是最无奈的一个环节。 在各类故障之中,硬件故障占用了绝大部分的故障比例。当然这个数字也有一些针对性,不具有普
MegaCli64不是所有的磁盘阵列卡都可以使用,如果不支持,需要使用其他的工具,如storcli/percli等
这里我们使用术语“缓冲”(一般为buffer)来表示对数据写的暂存,使用术语“缓存”(一般为cache)来表示对数据读的暂存。顾名思义,由于底层存储设备和内存之间速率的差异,缓冲是用来暂“缓”对底层存储设备IO的“冲”击。缓存主要是在内存中暂“存”从磁盘读到的数据,以便接下来对这些数据的访问不用再次访问慢速的底层存储设备。
今天收到一条报警短信,提示dg似乎出了点问题。信息的来源是从v$dataguard_status里面扫描得到的最新错误。 2015-09-15 22:06:19.0 Log Transport ServicesErrorError 12541 received logging on to the standby 2015-09-15 22:06:19.0 Log Transport ServicesErrorPING[ARC1]: Heartbeat failed to connect to standby
来自社区,回归社区。非常感谢各位 TiDBer 在之前 【TiDBer 唠嗑茶话会丨征集 TiDB 数据库性能优化大师,你是如何优化 TiDB 数据库性能的呐?】( https://asktug.com/t/topic/1005563 )里提供的各种性能优化方法。这篇帖子收集整理了大家推荐的各个方面的 TiDB 数据库性能优化方法,欢迎各位 TiDBer 持续补充更新~
发现之前整理的一篇word笔记,贴一下便于后期查阅。 内存 free -m cat /proc/meminfo dmidecode -t memory CPU lscpu cat /proc/cpuinfo dmidecode -t processor dmidecode | grep "CPU" 获取CPU信息 硬盘 df -lhP lsblk fdisk -l dmesg|grep sd 查看开机信息里面的磁盘info hdparm -I /dev/sda 查看磁盘硬件信息、开启的功能等
之前写了一篇 《最近让我焦灼的四个问题》,既是感慨,也是无奈,既是记录问题,也是鞭策自己,当然只是吐槽,抱怨是没有任何意义的,所以我更新第二篇,这些问题在近些天都得到了基本解决。当然一波问题解决了,另外一波又来了,继续努力。 首先来说说第一个问题,是关于dataguard,最近碰到一个有些奇怪的问题,主库使用了ASM,备库使用了普通文件系统,从理论和实践来看,这都是可 行的,但可能不是最佳实践。但是我碰到了一个奇怪的问题,就是备库搭建完成之后,也能正常接收归档,dg broker的配置和以往的配置并没有什
公司生产环境每次安装新服务器之后都会安装salt,配置hostname、bond等。刚好自己最近在学习shell。然后就有了下面的脚本。(如果有需要还可以扩展安装zabbix-agent、Megacli等。)
点击上方蓝字每天学习数据库 本文作者:黄稚禹,腾讯云数据库产品经理。曾任职新浪彩票数据库总监,精通金融系统的数据运维体系架构。之前为腾讯视频、腾讯新闻、企鹅号、财经自选股等业务的数据平台总负责人。 ---- 大家都知道很多关于MySQL Server相关的优化技巧,比如:MySQL参数配置优化、MySQL的SQL语句优化、MySQL的schema设计优化。但却对运行MySQL的操作系统和硬件优化有所忽略。本文从Linux操作系统和服务器硬件的角度来说下关于MySQL的优化技巧,如果在MySQL Serve
大家都知道硬盘的随机IO很慢,但是比顺序IO慢多少呢,不知道你是否有过数字上的直接对比。今天我来实际压测对比一下磁盘在顺序IO和随机IO不同场景下的性能数据表现。通过今天的实验数据,你将能深刻理解数据库事务中为什么要用日志的方式来实现,为什么索引中要用节点更大的B+树。
最近处理一个问题的时候,先是收到DB time升高的报警,然后查看DB time的情况发现,已经有近1000%的负载了。 带着好奇心想看看到底是什么样的一个语句导致如此的情况。 先抓取了一个awr
继前两篇分析了一个看似非常普通的报警邮件,结果在分析问题的时候八面玲珑,相关因素都给分析了一下,没想到还真是有不小的收获。 前两篇地址: 备库报警邮件的分析案例(二) (r7笔记第15天)、备库报警邮件的分析案例(一) (r7笔记第14天) 最后通过手工定位监控的方式终于把罪魁祸首揪了出来,为什么在备库使用ash无果,因为还是10g的库,还没有这个特性,在11g中才可以。这个也算是在10g中的一个监控盲点吧。 最后得到的语句是下面这样的形式每天凌晨都会在备库查询一次,资源消耗极大,目前临时表空间为98G都不
做运维,不怕出问题,怕的是出了问题,抓不到现场,两眼摸黑。所以,依靠强大的监控系统,收集尽可能多的指标,意义重大。但哪些指标才是有意义的呢,本着从实践中来的思想,各位工程师在长期摸爬滚打中总结出来的经验最有价值。
换盘的时候一定要验明正身,原生的ceph-disk方式对磁盘分区的信息标记实在是太粗糙,很容易看花眼,比如下面这个例子,虽然通过PARTLABEL可以区分journal或者data分区,但是很难搞清楚Journal和Data分区具体对应哪个OSD
我大约是在2012年左右时,在网络和私有云两大领域之外,又在操作系统领域得到一个非常有挑战的新机遇:为公司超过30万台的服务器提供安全的Linux操作系统解决方案,并为操作系统领域提供24x7应急响应和支持服务(Tier 3 Escalation)。我得到Linux社区一些朋友的帮助,在较短的时间内快速成立了一个研发团队,其中一位技术大拿是看到我们这个领域的大牛左耳朵耗子转发贴子后和我取得联系并加入的。我们最终在Linux领域交付的产品,内部的名字叫“APOL Image” (基于Oracle Linux 和Oracle VM Server),以及相关用于操作系统安全评估、修复和强化的工具集。这个解决方案不仅应用企业内部的部署,还应用于公有云和一些特别需求的外部客户,包括XX联邦政府。在2018年,团队成员在美国旧金山的Oracle OpenWorld 2018上发表了主题为“Perform In-Place Upgrade for Large-Scale Cloud Infrastructure”的演讲,将部分经验分享了出来。
我大约是在2012年左右时,在网络和私有云两大领域之外,又在操作系统领域得到一个非常有挑战的新机遇:为公司超过30万台的服务器提供安全的Linux操作系统解决方案,并为操作系统领域提供24x7应急响应和支持服务(Tier 3 Escalation)。我得到Linux社区一些朋友的帮助,在较短的时间内快速成立了一个研发团队,其中一位技术大拿是看到我们这个领域的大牛左耳朵耗子转发贴子后和我取得联系并加入的。我们最终在Linux领域交付的产品,内部的名字叫“APOL Image” (基于Oracle Linux 和Oracle VM Server),以及相关用于操作系统安全评估、修复和强化的工具集。解决方不仅应用企业内部的部署,还应用于公有云和一些特别需求的外部客户,包括XX联邦政府。在2018年,团队成员在美国旧金山的Oracle OpenWorld 2018上发表了主题为《Perform In-Place Upgrade for Large Scale Cloud Infrastructure》的演讲,将部分经验分享了出来。
Zabbix 是一个高度集成的网络监控解决方案,可以提供企业级的开源分布式监控解决方案,由一个国外的团队持续维护更新,软件可以自由下载使用,运作团队靠提供收费的技术支持赢利。
结果测试 [root@zabbix shell]# sh checkurl.sh www.baidu.com www.baidu.com url [ 确定 ]
领取专属 10元无门槛券
手把手带您无忧上云