上周拿到了几台过保淘汰的HP380G5服务器做测试使用,因为ilo2的固件比较旧,还是1.61,
集群 场景一 LAMP http,web object简单无状态连接 200,50dynamic prefork,2M 10M 50*10+150*2 M apache:进程切换,查询mysql, 网络IO,磁盘IO 200--->1000 800,200 1600+2000 解决方式 Scale ON :向上扩展 换更好的硬件,如换主机 注意:Scale On向上扩展,硬件增长比例与性能增长比例是不
HP-UX操作系统全称为Hewlett Packard UniX,是惠普服务器上所有的操作系统。其发源自 AT & T SRV4系统,可以支持HP的PA-RISC处理器、Intel的Itanium处理器。因为PA-RISC的停产(RISC机器现在越来越没落了),今后的主流就是只支持Intel的处理器了。
官方地址https://openvpn.net/client/client-connect-vpn-for-windows/
一台HP 服务器,挂接一台HP MSA50磁盘阵列,内接5块1TB硬盘,原先结构为RAID5。
本次分享的案例为 一台HP 服务器,挂接一台HP MSA50磁盘阵列,内接5块1TB硬盘,原先结构为RAID5。在使用一段时间后,其中一块硬盘掉线,因RAID5支持一块硬盘出错的冗余保护,所以数据并无出错。接着运行很短时间后服务器出现故障,遂找人维修,维修人员未完全了解情况,将剩下的4块硬盘重新创建了一组全新的RAID5并完全同步完成,导致原来数据全部丢失。
信息系统的性能是一种指标,表明信息系统对其及时性要求的符合程度。对于一个系统而言,包含并发用户数、响应时间、吞吐量、以及资源利用率等方面的信息。
今天小编为大家分享的关于磁盘阵列恢复的案例,本次故障的设备是HP LH6000,其中一块硬盘红灯闪亮,机器还在正常运行,但没有多久,系统就不能正常运行,这时才发现另一块硬盘的红灯也在闪亮。
一台HP 服务器,挂接一台raid5磁盘阵列,内接5块1TB硬盘,原先结构为RAID5。
引言 作者是国内研究超融合相当早的专家,有非常强的理论基础和实战经验。上几篇分析文章,对nutanix/VSAN/深信服/H3C/EMC等厂家的深入分析,引起了业界很大的反响。 好饭不怕晚,专家最近工作特别多,为了不辜负各位喜欢这个系列的同学,辛苦工作到凌晨,再次推出本系列的第八篇,分析思科的上篇。希望喜欢的同学多多转发和点赞! 以下是超融合分析系列前面几篇,已经阅读过的同学可以跳过。 超融合概述 超融合产品分析系列(1):nutanix方案 超融合方案分析系列(2):VSAN的超融合方案分析 超融合方案
自从使用滴滴开源的夜莺监控系统之后,偶尔会收到cpu报警的邮件,姜同学分析了一下原因大多都是java进程进入了循环或是死锁而得不到释放造成的,接下来姜同学就模拟下cpu使用率超过100%以及两种方案的排查过程。
此次使用jammsen/docker-palworld-dedicated-server: Docker container to easily provision and manage Palworld Dedicated Server (github.com)镜像进行部署,首选我们需要连接到服务器并上传yml模板,
不知道大家有没有注意到,在22.10.31 21点之后,凯哥的个人博客站点(凯哥Java:www.kaigejava.com)访问速度提升了不少。那是因为凯哥对站点做了优化。本文就记录优化方面:
前面介绍了如何运用Python获取Oracle数据库的信息以及将数据存入MySQL数据库中
下载解压双击打开 steamcmd.exe 自动下载软件 出现Steam>即为安装完成
服务器安装操作系统才能对服务器进行很好的操作,但是新购买的服务器要如何安装操作系统呢?其实 服务器系统安装通常有两种方法:用服务器引导光盘引导安装(HP Proliant系列服务器100系列设备随机光盘 Support CD 没有引导安装操作系统的功能)、用操作系统光盘加载阵列卡驱动引导安装。
用过不少种类的数据库的人会遇到一个问题, transparent Hugepages 在不少的数据库中都被提到 disabled, turn off . Why should we turn off
Sun 公司的JVM,其垃圾回收机制主要采用“分代”方式进行,他将JVM堆栈分为3部分:年轻代、年老代以及持久代。SUN的JVM通过不同的收集器实现不同的收集算法,主要有以下:
开发实施软件定义网络 (SDN) 和网络功能虚拟化 (NFV) 的解决方案仍然是企业和通信服务提供商 (CSP) 面临的一大挑战。适用于网络节点、网络控制和网络编排的标准和开源软件快速演进,给正在评估
HP服务器官方管理工具hpacucli,通过该工具可以查看HP服务器的Raid状态是否正常(如果Raid卡出问题,会影响数据的读写速度),服务器硬盘是否正常(如果硬盘坏掉,严重的情况会丢失数据),服务器电源是否有故障等信息。 HP服务器官方管理工具hpasmcli,通过该工具可以很详细查看服务器CPU,内存,处理器,电源等的温度信息。 软件随时会更新,这个我就不直接在这儿分享,我一般都是和惠普的技术直接沟通获取最新版地址! [[email protected] ~]# rpm -ivh hpacucli-9
上次在服务器实战的时候出了问题一时要分析各种问题,还是非常需要把核心的命令和工具记录下来。
思路:现象是阻塞,通常是 CPU 彪高,导致业务线程分配不到 CPU 时间片,或者内存吃紧,频繁 GC 导致的 STW。登录到目标服务器,由于 ES 的用户不是 LZ,因此找运维要了 root 权限,登录到服务器。sudo -i 切到 root,使用 ps -ef | grep Elasticsearch 找到该用户,然后 su - es 切到 es 用户(不切是无法处理 es 用户的 Java 进程的,例如打印 jstack 日志)。 top 查看服务器状态,发现 pid 4335 进程的 CPU 占用达到 180%,查看 CPU 核数:cat /proc/cpuinfo| grep “processor”| wc -l, 核数为 4,根据经验,通常是 C2 编译器,或者 GC 线程,最后是业务代码导致。因此需要定位该线程。使用 top -Hp 4335,得到线程号 30785,使用 printf "%x" 得到 16 进制数字 7841,方便在 jstack 日志查找线程。使用 jstack -l 4335 > jstacklog.txt 打印日志,然后找线程,vim jstacklog.txt, 开始查找,gg,/7841,enter,n, 找到 "Concurrent Mark-Sweep GC Thread" os_prio=0 tid=0x00007fd380063800 nid=0x7841 runnable 这个 CMS GC 线程,看来是内存不够了。 使用 jps -l 找到 es 启动类名称,然后使用 ps aux | grep Elasticsearch 找到启动详细信息,发现启动配置为 -Xmx2g -Xms2g, -XX:CMSInitiatingOccupancyFraction=50 ,这里为了防止串行 FGC,让 CMS 在 old 区达到 50% 时就开始 GC,所以 CMS 非常繁忙。为了验证此问题,使用 jstat -gcutil 4335 1000 查看 gc 状态,发现 fgc 频繁(5 秒一次),ygc 正常(3 秒一次) ,这里说一下,CMS 的 fgc 此时和我们想象的不一样,CMS GC 只工作在老年代,每次 GC 会对 FGC 次数加 2,一次是 init mark,一次是 remark,这两个阶段会影响暂停应用,其他的清理阶段是并行清理的,对业务线程无影响,所以,当使用 CMS GC ,如果 jstat 看到 FGC 次数很多,不用在意。但当 CMS 出现 concurrent mode failure(CMS GC 的速度赶不上对象晋升到 old 区的速度),则会使用备用收集器 Serial,开始串行 GC,此时将会彻底 STW。 因此,这个 ES 将 CMS 的阈值调的很低,就是为了防止出现 concurrent mode failure。
图片1.png 服务器数据恢复故障描述 客户的服务器共有8块450GB SAS硬盘,其中7块硬盘组成一个RAID5阵列,1块热备盘。阵列中2块硬盘损坏并离线,导致RAID5阵列瘫痪,进而影响上层LUN无法正常使用。经工程师检测硬盘无物理故障,无坏道,随后北亚工程师将所有磁盘镜像成文件。 数据恢复过程 一、RAID组结构及掉线盘分析 服务器的LUN都是基于RAID组的,所以需要先对底层RAID组的信息作出分析,再依据这些数据重构原始的RAID组。通过分析得知4号盘为hot Spare盘。继续分析Oracl
JDK诞生 Serial追随 提高效率,诞生了PS,为了配合CMS,诞生了PN,CMS是1.4版本后期引入,CMS是里程碑式的GC,它开启了并发回收的过程,但是CMS毛病较多,因此目前任何一个JDK版本默认是CMS 并发垃圾回收是因为无法忍受STW
这是一个合成大西瓜的游戏demo,语言是Python3.6版本,可以通过这个模板,快速部署上线这个游戏。
如果遭遇 Local host name unknown:XXX的错误,修改/etc/hosts文件,把XXX加入进去
在HP存储RAID5硬盘离线LVM下VXFS文件系统是如何进行恢复的呢?HP存储也是在企业中常用的存储设备了,本次分享的故障设备为:HP FC MSA2000存储,由于RAID5阵列中出现2块硬盘损坏并离线,而此时只有一块热备盘成功激活,因此导致RAID5阵列瘫痪,上层LUN无法正常使用,整个存储空间由8块450GB SAS的硬盘组成,其中7块硬盘组成一个RAID5的阵列,剩余1块做成热备盘使用。
Dell OpenManage Server Administrator 'file'参数开放重定向漏洞 Dell OpenManage Server Administrator 'file'参数开放重定向漏洞发布时间:2013-07-22漏洞编号:BUGTRAQ ID: 61383 CVE(CAN) ID: CVE-2013-0740漏洞描述:Dell OpenManage Server Administrator (OMSA)可帮助管理员有效地管理他们的服务器。 Dell OpenManage Serv
NAS即网络附加存储(Network Attached Storage),通过网络提供数据访问服务。 本人不推荐自攒NAS,稳定性差,迷你主板和家用机电源不是for 24x7的。 本人也不推荐成品N
DMA是一种内存访问技术,允许某些计算机内部的硬件子系统可以独立的直接读写内存,而不需要CPU介入处理,从而不需要CPU的大量中断负载,否则,CPU需要从来源把每一片段的数据复制到寄存器,然后在把他们再次写回到新的地方,在这个时间里,CPU就无法执行其他的任务。
本次分享的案例是关于HP FC MSA2000存储瘫痪抢救Oracle数据库的案例,故障存储整个存储空间由8块硬盘组成,其中7块硬盘组成一个RAID5的阵列,剩余1块做成热备盘使用。由于RAID5阵列中出现2块硬盘损坏,而此时只有一块热备盘成功激活,因此导致RAID5阵列瘫痪,上层LUN无法正常使用。 由于存储是因为RAID阵列中某些磁盘掉线,从而导致整个存储不可用。因此接收到磁盘以后先对所有磁盘做物理检测,检测完后发现没有物理故障。排除物理故障后对数据全部备份后在进行进一步的分析。 【故障分析】 1、分析故障原因 由于前两个步骤并没有检测到磁盘有物理故障或者是坏道,由此推断可能是由于某些磁盘读写不稳定导致故障发生。因为HP MSA2000控制器检查磁盘的策略很严格,一旦某些磁盘性能不稳定,HP MSA2000控制器就认为是坏盘,就将认为是坏盘的磁盘踢出RAID组。而一旦RAID组中掉线的盘到达到RAID级别允许掉盘的极限,那么这个RAID组将变的不可用,上层基于RAID组的LUN也将变的不可用。目前初步了解的情况为基于RAID组的LUN有6个,均分配给HP-Unix小机使用,上层做的LVM逻辑卷,重要数据为Oracle数据库及OA服务端。 2、分析RAID组结构 HP MSA2000存储的LUN都是基于RAID组的,因此需要先分析底层RAID组的信息,然后根据分析的信息重构原始的RAID组。分析每一块数据盘,发现4号盘的数据同其它数据盘不太一样,初步认为可能是hot Spare盘。接着分析其他数据盘,分析Oracle数据库页在每个磁盘中分布的情况,并根据数据分布的情况得出RAID组的条带大小,磁盘顺序及数据走向等RAID组的重要信息。 3、分析RAID组掉线盘 根据上述分析的RAID信息,尝试通过北亚RAID虚拟程序将原始的RAID组虚拟出来。但由于整个RAID组中一共掉线两块盘,因此需要分析这两块硬盘掉线的顺序。仔细分析每一块硬盘中的数据,发现有一块硬盘在同一个条带上的数据和其他硬盘明显不一样,因此初步判断此硬盘可能是最先掉线的,通过北亚RAID校验程序对这个条带做校验,发现除掉刚才分析的那块硬盘得出的数据是最好的,因此可以明确最先掉线的硬盘了。 4、分析RAID组中的LUN信息 由于LUN是基于RAID组的,因此需要根据上述分析的信息将RAID组最新的状态虚拟出来。然后分析LUN在RAID组中的分配情况,以及LUN分配的数据块MAP。由于底层有6个LUN,因此只需要将每一个LUN的数据块分布MAP提取出来。然后针对这些信息编写相应的程序,对所有LUN的数据MAP做解析,然后根据数据MAP并导出所有LUN的数据。 【数据恢复过程】 1、解析修复LVM逻辑卷 分析生成出来的所有LUN,发现所有LUN中均包含HP-Unix的LVM逻辑卷信息。尝试解析每个LUN中的LVM信息,发现其中一共有三套LVM,其中45G的LVM中划分了一个LV,里面存放OA服务器端的数据,190G的LVM中划分了一个LV,里面存放临时备份数据。剩余4个LUN组成一个2.1T左右的LVM,也只划分了一个LV,里面存放Oracle数据库文件。编写解释LVM的程序,尝试将每套LVM中的LV卷都解释出来,但发现解释程序出错。 仔细分析程序报错的原因,安排开发工程师debug程序出错的位置,并同时安排高级文件系统工程师对恢复的LUN做检测,检测LVM信息是否会因存储瘫痪导致LMV逻辑卷的信息损坏。经过仔细检测,发现确实因为存储瘫痪导致LVM信息损坏。尝试人工对损坏的区域进行修复,并同步修改程序,重新解析LVM逻辑卷。 2、解析VXFS文件系统 搭建环境,将解释出来的LV卷映射到搭建好的环境中,并尝试Mount文件系统。结果Mount文件系统出错,尝试使用“fsck –F vxfs” 命令修复vxfs文件系统,但修复结果还是不能挂载,怀疑底层vxfs文件系统的部分元数据可能破坏,需要进行手工修复。 3、修复VXFS文件系统 仔细分析解析出来的LV,并根据VXFS文件系统的底层结构校验此文件系统是否完整。分析发现底层VXFS文件系统果然有问题,原来当时存储瘫痪的同时此文件在系统正在执行IO操作,因此导致部分文件系统元文件没有更新以及损坏。人工对这些损坏的元文件进行手工修复,保证VXFS文件系统能够正常解析。再次将修复好的LV卷挂载到HP-Unix小机上,尝试Mount文件系统,文件系统没有报错,成功挂载。 4、检测Oracle数据库文件并启动数据库 在HP-Unix机器上mount文件系统后,将所有用户数据均备份至指定磁盘空间。所有用户数据大小在1TB左右。 使用Oracle数据库文件检测工具“dbv”检测每个数据库文件是否完整,发现并没有错误。再使用北亚Oracle数据库检测工具,发现有部分数据库文件和日志文件校验不一致,安排北亚工程师对此类文件进行修复
从系统架构来看,目前的商用服务器大体可以分为三类,即对称多处理器结构 (SMP : Symmetric Multi-Processor) ,非一致存储访问结构 (NUMA : Non-Uniform Memory Access) ,以及海量并行处理结构 (MPP : Massive Parallel Processing) 。它们的特征分别描述如下:
最近看牛客网发现了CPU 100% 怎么办这个问题,这个问题的重点是定位和解决,会用到Linux和java的的很多命令,所以写篇博客记录和总结一下。
从HP OpenView迁移到Zabbix可能看起来很有挑战性,但由于一长串好处,这是值得的。让我们先讨论一下HP OpenView是什么,了解它的一些历史、主要功能和迁移的原因,以及详细阐述迁移过程的实际迁移案例。
各CPU共享相同的物理内存,每个 CPU访问内存中的任何地址所需时间是相同的,因此SMP也被称为一致存储器访问结构(UMA:Uniform Memory Access)
服务优化是最常见的优化策略之一,把用不到的服务关掉,来节省计算机资源,如果你需要用的时候在开启服务。
上一篇Blog介绍了无锁化编程场景下的一种垃圾回收机制,Epoch-based Memory Reclaimation(EB)。 本篇介绍另一种无锁化编程场景下的垃圾回收机制,Hazard Pointer(HP)。HP也是一种确定型GC。
服务器 服务器是指在网络环境下运行相应的应用软件,为网上用户提供共享信息资源和各种服务的一直高性能计算机。 服务器的选择:处理器性能,I/O性能,管理性,可靠性,扩展性。 同样,一台电脑也可以作为一台微型服务器,但是与相比一台真正服务器性能就相对弱小很多。 服务器的分类
虽然使用缓存思想似乎是一个很简单的事情,但是缓存机制却有一个核心的难点,就是——缓存清理。我们所说的缓存,都是保存一些数据,但是这些数据往往是会变化的,我们要针对这些变化,清理掉保存的“脏”数据,却可能不是那么容易。
zabbix(http://www.zabbix.com/)是一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案。
在计算机与网络技术飞速发展的今天,医院信息系统的建设已经成为医院现代化管理的重要标志,同时也是医院管理水平的一种体现。尤其是医疗保险制度的改革,与医院信息系统形成了相互促进的态势,我国很多医院都建立了自己的信息系统。由于行业性质的缘故,医院信息系统必须7 X 24小时不间断运转,因此对网络系统的安全性和可靠性有很高的要求。 本文通过一个医院信息系统项目,阐述了医院计算机网络的安全性设计方面的一些具体措施,并就保障网络的安全性与提高网络服务效率之间的关系,谈了自己的一点体会。
要编写一个堆项目,首先要明确我们想要达到的效果是什么样,下面我将用vs2022编译器来为大家演示一下堆程序运行时的样子:
今年考虑专门搭建一台用于数据备份的机器,一来今年外出的需求比较多,历史的设备已经用了几年了,需要有更新的设备来“接力”;二来也想验证方案的靠谱程度,解决我接触的一些生产环境的需求以及朋友们的问题。
在游戏服务器的开发中,我们经常会碰到所谓“一致性”问题,以及碰到各种为了解决这种问题所做的“方案”,那么,什么是一致性问题呢?其实非常简单,就是有两个客户端进程,都需要修改同一个数据,造成的问题。
Node.js是一个开源JavaScript运行环境,用于构建服务器端和网络应用程序。该平台可在Linux,macOS,FreeBSD和Windows上运行。虽然您可以在命令行运行Node.js应用程序,但本教程将重点介绍如何将它们应用于服务器中运行。这意味着它们将在重启故障时再次重新启动,并且可以安全地用于生产环境中。
第一章:中国X86服务器市场满意度研究概述 1、项目说明: 调研说明:《2014年中国x86服务器市场及客户满意度研究报告》历时2个月完成。 本调研是由移动信息化研究中心调查和发布。 项目组面对面深入访谈了9位专家以及来自不同行业的11位客户代表,调研对象涉及企业高层管理人员、信息化负责人员、运维支持人员等,覆盖金融、流通、制造、零售等多个重要行业。 基于我们在IT行业的积累以及业内多家厂商和机构的协助,对金融、流通、制造、零售等领域的主要行业客户成功回收了511份调查问卷。 2、核心概
领取专属 10元无门槛券
手把手带您无忧上云