在企业业务信息化之后,企业业务依赖于各种应用系统,应用系统又依赖于各种IT资源。当IT资源出现故障或性能下降时,会导致应用宕机或性能下降,进而影响企业业务产出。资源监控就是对那些可能影响IT资源服务能力的各种技术性能参数进行全面监控,以便提前发现问题隐患并预警,帮助企业将故障消灭于萌芽状态之中。
本次分享的案例是关于HP FC MSA2000存储瘫痪抢救Oracle数据库的案例,故障存储整个存储空间由8块硬盘组成,其中7块硬盘组成一个RAID5的阵列,剩余1块做成热备盘使用。由于RAID5阵列中出现2块硬盘损坏,而此时只有一块热备盘成功激活,因此导致RAID5阵列瘫痪,上层LUN无法正常使用。 由于存储是因为RAID阵列中某些磁盘掉线,从而导致整个存储不可用。因此接收到磁盘以后先对所有磁盘做物理检测,检测完后发现没有物理故障。排除物理故障后对数据全部备份后在进行进一步的分析。 【故障分析】 1、分析故障原因 由于前两个步骤并没有检测到磁盘有物理故障或者是坏道,由此推断可能是由于某些磁盘读写不稳定导致故障发生。因为HP MSA2000控制器检查磁盘的策略很严格,一旦某些磁盘性能不稳定,HP MSA2000控制器就认为是坏盘,就将认为是坏盘的磁盘踢出RAID组。而一旦RAID组中掉线的盘到达到RAID级别允许掉盘的极限,那么这个RAID组将变的不可用,上层基于RAID组的LUN也将变的不可用。目前初步了解的情况为基于RAID组的LUN有6个,均分配给HP-Unix小机使用,上层做的LVM逻辑卷,重要数据为Oracle数据库及OA服务端。 2、分析RAID组结构 HP MSA2000存储的LUN都是基于RAID组的,因此需要先分析底层RAID组的信息,然后根据分析的信息重构原始的RAID组。分析每一块数据盘,发现4号盘的数据同其它数据盘不太一样,初步认为可能是hot Spare盘。接着分析其他数据盘,分析Oracle数据库页在每个磁盘中分布的情况,并根据数据分布的情况得出RAID组的条带大小,磁盘顺序及数据走向等RAID组的重要信息。 3、分析RAID组掉线盘 根据上述分析的RAID信息,尝试通过北亚RAID虚拟程序将原始的RAID组虚拟出来。但由于整个RAID组中一共掉线两块盘,因此需要分析这两块硬盘掉线的顺序。仔细分析每一块硬盘中的数据,发现有一块硬盘在同一个条带上的数据和其他硬盘明显不一样,因此初步判断此硬盘可能是最先掉线的,通过北亚RAID校验程序对这个条带做校验,发现除掉刚才分析的那块硬盘得出的数据是最好的,因此可以明确最先掉线的硬盘了。 4、分析RAID组中的LUN信息 由于LUN是基于RAID组的,因此需要根据上述分析的信息将RAID组最新的状态虚拟出来。然后分析LUN在RAID组中的分配情况,以及LUN分配的数据块MAP。由于底层有6个LUN,因此只需要将每一个LUN的数据块分布MAP提取出来。然后针对这些信息编写相应的程序,对所有LUN的数据MAP做解析,然后根据数据MAP并导出所有LUN的数据。 【数据恢复过程】 1、解析修复LVM逻辑卷 分析生成出来的所有LUN,发现所有LUN中均包含HP-Unix的LVM逻辑卷信息。尝试解析每个LUN中的LVM信息,发现其中一共有三套LVM,其中45G的LVM中划分了一个LV,里面存放OA服务器端的数据,190G的LVM中划分了一个LV,里面存放临时备份数据。剩余4个LUN组成一个2.1T左右的LVM,也只划分了一个LV,里面存放Oracle数据库文件。编写解释LVM的程序,尝试将每套LVM中的LV卷都解释出来,但发现解释程序出错。 仔细分析程序报错的原因,安排开发工程师debug程序出错的位置,并同时安排高级文件系统工程师对恢复的LUN做检测,检测LVM信息是否会因存储瘫痪导致LMV逻辑卷的信息损坏。经过仔细检测,发现确实因为存储瘫痪导致LVM信息损坏。尝试人工对损坏的区域进行修复,并同步修改程序,重新解析LVM逻辑卷。 2、解析VXFS文件系统 搭建环境,将解释出来的LV卷映射到搭建好的环境中,并尝试Mount文件系统。结果Mount文件系统出错,尝试使用“fsck –F vxfs” 命令修复vxfs文件系统,但修复结果还是不能挂载,怀疑底层vxfs文件系统的部分元数据可能破坏,需要进行手工修复。 3、修复VXFS文件系统 仔细分析解析出来的LV,并根据VXFS文件系统的底层结构校验此文件系统是否完整。分析发现底层VXFS文件系统果然有问题,原来当时存储瘫痪的同时此文件在系统正在执行IO操作,因此导致部分文件系统元文件没有更新以及损坏。人工对这些损坏的元文件进行手工修复,保证VXFS文件系统能够正常解析。再次将修复好的LV卷挂载到HP-Unix小机上,尝试Mount文件系统,文件系统没有报错,成功挂载。 4、检测Oracle数据库文件并启动数据库 在HP-Unix机器上mount文件系统后,将所有用户数据均备份至指定磁盘空间。所有用户数据大小在1TB左右。 使用Oracle数据库文件检测工具“dbv”检测每个数据库文件是否完整,发现并没有错误。再使用北亚Oracle数据库检测工具,发现有部分数据库文件和日志文件校验不一致,安排北亚工程师对此类文件进行修复
在HP存储RAID5硬盘离线LVM下VXFS文件系统是如何进行恢复的呢?HP存储也是在企业中常用的存储设备了,本次分享的故障设备为:HP FC MSA2000存储,由于RAID5阵列中出现2块硬盘损坏并离线,而此时只有一块热备盘成功激活,因此导致RAID5阵列瘫痪,上层LUN无法正常使用,整个存储空间由8块450GB SAS的硬盘组成,其中7块硬盘组成一个RAID5的阵列,剩余1块做成热备盘使用。
现在随着虚拟化技术的成熟,很多企业也在运用虚拟化技术。虚拟化技术的原理是将硬件虚拟化给不同的虚拟机使用。简单的说也就是一台物理的机器上可以有多台虚拟机,但如果就物理机器出现故障或者存储服务器出现故障都会导致上层的虚拟机不可用,还有包括人为误操作等原因,这些都会导致虚拟机里面的重要数据丢失。今天北亚小编要为大家分享的是关于vmware虚拟化误操作的数据恢复案例。
从HP OpenView迁移到Zabbix可能看起来很有挑战性,但由于一长串好处,这是值得的。让我们先讨论一下HP OpenView是什么,了解它的一些历史、主要功能和迁移的原因,以及详细阐述迁移过程的实际迁移案例。
集群 场景一 LAMP http,web object简单无状态连接 200,50dynamic prefork,2M 10M 50*10+150*2 M apache:进程切换,查询mysql, 网络IO,磁盘IO 200--->1000 800,200 1600+2000 解决方式 Scale ON :向上扩展 换更好的硬件,如换主机 注意:Scale On向上扩展,硬件增长比例与性能增长比例是不
处理过线上问题的同学基本上都会遇到系统突然运行缓慢,CPU 100%,以及Full GC次数过多的问题。当然,这些问题的最终导致的直观现象就是系统运行缓慢,并且有大量的报警。本文主要针对系统运行缓慢这一问题,提供该问题的排查思路,从而定位出问题的代码点,进而提供解决该问题的思路。
当执行一个场景时,Controller把场景中的每个用户配到负载生成器(Load generator)。
处理过线上问题的同学基本上都会遇到系统突然运行缓慢,CPU 100%,以及Full GC次数过多的问题。当然,这些问题的最终导致的直观现象就是系统运行缓慢,并且有大量的报警。
国际劳动节又称“五一国际劳动节”、“国际示威游行日”(International Workers' Day或者May Day),是世界上80多个国家的全国性节日。定在每年的五月一日。
处理过线上问题的同学基本上都会遇到系统突然运行缓慢,CPU 100%,以及 Full GC 次数过多的问题。
服务器内有两块硬盘掉线,现在服务器内的lun丢失了,数据恢复工程师开始对故障服务器进行检测发现掉线的硬盘并没有存在物理故障、也没有坏道等其他故障。于是开始对客户的故障服务器进行镜像备份。
摘要:本文回顾比较通用的监测、维护和恢复系统的方法,同时探索更有效的方法来满足日益紧迫的网络评估目标要求-减少成本同时提高业务水平和生产能力。 这篇文章还将介绍远程IT管理的原理和下一代网络设施管理的基础。
服务器应用程序不可用的原因是什么引起的 服务器应用程序不可用的原因是什么引起的?其实服务器应用程序不可用可能是由多种原因引起的。主要包括软件故障、网络问题、硬件故障、安全问题、配置错误、容量不足、数据
HP-UX操作系统全称为Hewlett Packard UniX,是惠普服务器上所有的操作系统。其发源自 AT & T SRV4系统,可以支持HP的PA-RISC处理器、Intel的Itanium处理器。因为PA-RISC的停产(RISC机器现在越来越没落了),今后的主流就是只支持Intel的处理器了。
可用性指标时网站架构设计的重要指标,对外是服务承诺,对内是考核指标,具体到每个工程师,更多的是使用故障分。
不过考虑到如何安全使用 Redis 也是这个比较基础的东西,新手如果配置不当,很容易造成线上的 Redis 服务处于「裸跑」状态,被黑客恶意攻击,导致 Redis 服务不可用,进而导致依赖 Redis 服务的 Session、缓存、队列、分布式锁等业务功能瘫痪,造成严重的生产事故,所以在深入探索 Redis 底层原理和集群构建之前,学院君准备给大家插播下 Redis 的安全使用。
互联网应用以及云计算的普及,使得架构设计和软件技术的关注点从如何实现复杂的业务逻 辑,转变为如何满足大量用户的高并发访问请求。
软件定义网络(SDN)是Windows Server 2012 R2引入的一个特性,通过在云中进行网络虚拟化,可以在任意节点部署任意的虚拟机,而不用考虑IP地址的冲突,尤其是应用在多租户的场景下。软件定义网络需要结合SCVMM来实现,而租户申请虚拟化网络需要使用到Windows Azure Pack。
其实我们一直在使用SqlServer的连接池。在连接字符串中,Pooling为是否启用连接池,默认值为true,表示启用。
主从复制,是指将一台Redis服务器的数据,复制到其他的Redis服务器。前者称为主节点(master/leader),后者称为从节点(slave/follower);数据的复制是单向的,只能由主节点到从节点。Master以写为主,Slave以读为主
● Nginx:192.168.56.105 ● Tomcat1:192.168.56.106 ● Tomcat2:192.168.56.107 ● Tomcat3:192.168.56.108 这里,我们在原来的 my.conf 中来编写配置文件:
"鹅厂网事"由深圳市腾讯计算机系统有限公司技术工程事业群网络平台部运营,我们希望与业界各位志同道合的伙伴交流切磋最新的网络、服务器行业动态信息,同时分享腾讯在网络与服务器领域,规划、运营、研发、服务等层面的实战干货,期待与您的共同成长。 前言 随着互联网公有云业务的快速发展,特别是物理云等以提供物理服务器资源为服务平台业务的出现,造成越来越多的服务器机型配置种类需求,使原有的扁平化设备管理模型难以满足业务需求。另一方面由于国情的不同,国内大部分互联网企业服务器设备的使用年限并不限于3年维保周期,很多都接近或
高可用描述的是一个系统在大部分时间都是可用的,可以为我们提供服务的。高可用代表系统即使在发生硬件故障或者系统升级的时候,服务仍然是可用的。
系统架构是项目中技术实现的最重要的环节。系统架构的良好与否关系到系统的性能指标、安全指标、稳定性指标、可扩展性、业务实现等等。
用Go语言写游戏服务器也有一个多月了,也能够明显的感受到两者的区别。这篇文章就是想具体的聊聊其中的区别。当然,在了解区别之间,我们先简单的了解一下Go语言本身。
前面介绍了如何运用Python获取Oracle数据库的信息以及将数据存入MySQL数据库中
之前一直运行正常的数据分析平台,最近一段时间没有注意发现日志索引数据一直未生成,大概持续了n多天,当前状态: 单台机器, Elasticsearch(下面称ES)单节点(空集群),1000+shrads, 约200G大小。
现在随处可见分布式集群这个词,由于分布式和集群这两个词经常被放在一起使用,所以两个词似乎就是连在一起使用的,其实并非如此.
Redis 是一个开源(BSD许可)的,内存中的数据结构存储系统,通俗的来讲就是基于内存的高性能K/V数据库。 Redis 作为一个key—value储存系统。支持储存的value类型相对更多,包括string(字符串)、list(链表)、set(集合)、zset(sorted set --有序集合)和hash(哈希散列)。
上次在服务器实战的时候出了问题一时要分析各种问题,还是非常需要把核心的命令和工具记录下来。
服务器搬迁后不是简单能连接上服务器就可以了,还有许多的事情需要考虑,否则服务器不可用还是白搭。 我大体碰到了如下的一些问题,也能够反应出来对于系统的各种潜在隐患。 1 批量检测服务器的可用状态 如果有大批量的服务器搬迁,有些能够连通,有些不可以,使用telnet本身就有硬伤,我们直接设置个超时时间,对于服务是否可用一目了然。这个时候还是推荐使用nc命令。比如测试服务器10.129.128.37的22端口是否可通,超时时间为2秒,则可以使用如下的命令。 nc -z -v -n -w 2 10
ngx_http_upstream_module 模块是用来定义被proxy_pass,fastcgi_pass,uwsgi_pass,scgi_pass, and memcached_pass 指令引用的服务器组。
nginx可以通过ngx_http_limit_conn_module和ngx_http_limit_req_module配置来限制ip在同一时间段的访问次数.
无论是 CPU 使用率,还是平均负载,都只是反映系统健康状态的度量指标,而不是问题的根因;
http://www.searchdoc.cn/rdbms/mysql/dev.mysql.com/doc/refman/5.7/en/index.com.coder114.cn.html
开发实施软件定义网络 (SDN) 和网络功能虚拟化 (NFV) 的解决方案仍然是企业和通信服务提供商 (CSP) 面临的一大挑战。适用于网络节点、网络控制和网络编排的标准和开源软件快速演进,给正在评估
HP服务器官方管理工具hpacucli,通过该工具可以查看HP服务器的Raid状态是否正常(如果Raid卡出问题,会影响数据的读写速度),服务器硬盘是否正常(如果硬盘坏掉,严重的情况会丢失数据),服务器电源是否有故障等信息。 HP服务器官方管理工具hpasmcli,通过该工具可以很详细查看服务器CPU,内存,处理器,电源等的温度信息。 软件随时会更新,这个我就不直接在这儿分享,我一般都是和惠普的技术直接沟通获取最新版地址! [[email protected] ~]# rpm -ivh hpacucli-9
raft作为一个强一致性的集群共识算法,可以保证当集群多数节点存活时服务可用,但只能有一个领导者,有比较大的局限性。 若是使用同集群多实例方案,所有实例同生共死,当集群非多数节点存活时,所有实例均无法对外提供服务。
上篇文章我们了解到,如果一个topic分区越多,理论上整个集群所能达到的吞吐量就越大。那么,分区数越多就越好吗?显然不是。今天我们来聊下kafka在分区数过多的情况下,会带来哪些弊端。
项目中的一个case,有一块东西,是要用多线程做一些事情,小伙伴做项目的时候,没有太留神,资源隔离,那块代码,在遇到一些故障的情况下,每个线程在跑的时候,因为那个bug,直接就死循环了,导致那块东西启动了大量的线程,每个线程都死循环
如今几乎每个人都听说过Linux中所谓的”零拷贝”特性,然而我经常碰到没有充分理解这个问题的人们。因此,我决定写一些文章略微深入的讲述这个问题,希望能将这个有用的特性解释清楚。在本文中,将从用户空间应用程序的角度来阐述这个问题,因此有意忽略了复杂的内核实现。 什么是”零拷贝” 为了更好的理解问题的解决法,我们首先需要理解问题本身。首先我们以一个网络服务守护进程为例,考虑它在将存储在文件中的信息通过网络传送给客户这样的简单过程中,所涉及的操作。下面是其中的部分简单代阿: read(file, tmp_buf, len); write(socket, tmp_buf, len); 看起来不能更简单了。你也许认为执行这两个系统调用并未产生多少开销。实际上,这简直错的一塌糊涂。在执行这两个系统调用的过程中,目标数据至少被复制了4次,同时发生了同样多次数的用户/内核空间的切换(实际上该过程远比此处描述的要复杂,但是我希望以简单的方式描述之,以更好的理解本文的主题)。 为了更好的理解这两句代码所涉及的操作,请看图1。图的上半部展示了上下文切换,而下半部展示了复制操作。
2.服务器上的Tomcat接收到该url,根据该url判断为Servlet请求,此时Tomcat将产生两个对象:请求对象(HttpServletRequest)和响应对象(HttpServletResponce)
windows XP cmd命令大全 一,ping 它是用来检查网络是否通畅或者网络连接速度的命令。作为一个生活在网络上的管理员或者黑客来说,ping命令是第一个必须掌握的DOS命令,它所利用的原理是
本栏目Java开发岗高频面试题主要出自以下各技术栈:Java基础知识、集合容器、并发编程、JVM、Spring全家桶、MyBatis等ORMapping框架、MySQL数据库、Redis缓存、RabbitMQ消息队列、Linux操作技巧等。
三层架构逻辑上可以部署在同一台物理机上,但随着网站业务的发展,必须要对已分层的模块进行分开部署,也就是三层结构分别部署在不同的服务器上。使网站拥有越来越多的计算资源以应对越来越多的用户访问。
领取专属 10元无门槛券
手把手带您无忧上云