神秘失踪的硬盘

一块硬盘告警,处于 “只读” 状态…

什么?管理员又告知,硬盘神秘失踪了!

硬盘,去哪儿了?

悲催的故事还在上演,请继续往下看…

这家公司目前一共有 3 套 DIY 的开源的软件定义存储(以下简称 SDS)在同时运行,3 个节点 / 5 个节点 / 25 个节点各一套,3 节点和 5 节点的 SDS 均是采用利旧的服务器,为开发测试平台提供服务。25 节点的 SDS 中有一半是利旧的服务器,一半是新购的服务器,为 OA、影音文件管理等平台服务。SDS 软件是我公司运维人员安装部署的。

最初出现问题的是 5 节点的那套,业务系统在使用过程中,监控提示错误信息,经诊断,是一个节点上的一块硬盘告警,硬盘处于只读状态,虽然 SDS 的多节点容错架构并没有影响应用的正常运行,但硬盘是数据的根本,一定要找到是什么原因造成的。就在大家开会讨论对策和诊断方案的时候,管理员又告知,在 SDS 下的这块硬盘不见了。。。神秘失踪?赶紧报修硬盘,800 迅速介入,收日志,检查系统错误,没坏啊,硬盘好好的闪烁着绿灯,奇怪了,硬盘去哪了?排查了架构里每一个环节,居然都显示正常,但硬盘就是不见了...... 最终万般无奈的情况下,重新启动了一下这个节点,居然回来了,硬盘又识别到了。

故事似乎真的还在继续,就在我们还在思考这个问题的根源所在时,25 节点的集群居然真的出现了类似问题,先是一块硬盘只读,还没等到重启接连第二块硬盘也告警,在 SDS 集群里两个硬盘神秘消失。这可不是那 5 个节点的测试系统了,由于 OA 运行在这套 SDS 集群上,公司内部流程没办法通过系统造成,各个部门的人都跳出来让运维部门尽快解决问题。于是我们想按照之前成功的办法试着尝试重启节点,但问题比我们想象的还严重,重启后不但 SAS 盘没找到,作为缓存的 SSD 其中有 2 块也不见了。这着实惊到了客户,马上开 Case 让原厂后台介入,查找问题所在。但问题又来了,这套 SDS 系统是客户自己搭建的,服务的真没有。。。

此时,秉着对客户负责的心态,Dell EMC 通过内部资源,找来各路 SDS 的大牛们,积极帮客户找到问题所在,避免后期使用再出现问题。经过各路高人的诊断,我们发现了一个有趣的问题,出现问题的 SAS 盘和 SSD 盘都是后期用户自己购买添加的,他们磁盘类型在 SDS 的兼容表里,而其 Firmware 版本却不在,而原来第一次部署的各个节点的磁盘 Firmware 是和 SDS 完全匹配的,所以也没出现这样的问题。

经历了这样一个惨痛的经历,我们已经意识到,虽然开源的 DIY SDS 采用节点集群作为容错,但整体架构还是有安全隐患的。于是经过讨论后,我们放弃原全部开源的想法,重新考量了 Dell EMC 公司推荐的全商用的 VxRail 超融合架构和半开源半商用的 vSphere+VSAN 方式,最终选择了 vSphere+VSAN+RP4VM + 存储的解决方案,具体如下图所示。

方案特点 1:

虚拟机方式,部署快速、简单;

专为虚拟化环境设计;

与 vCenter 无缝集成;

录像一样记录 VM IO 变化;

VM 任意时间点恢复;

一致性组保证应用一致性;

存储无关、网络无关;

支持同步和异步保护;

支持本地和远程容灾。

方案特点 2:

通过 vCenter Plug-In 在 vSphere Web Client 界面管理。

搭建完毕后,我们在这套系统上做了大量的实践演练,通过 CDP 刻录机一样的恢复颗粒度,能够找到最近的时间点,并且在灾备的 SCv3000 上可以直接启动虚拟机,业务也可以成功切换到存储上,几乎没有数据的损失。

总结,无论是开源还是商用的 SDS,其兼容性要求都很高,部署前需要检查各种硬件的型号和 Firmware(包含磁盘、1Gb 网卡、10Gb 网卡、Raid 卡等),如果不经过严格的兼容测试,会有很多意想不到问题出现。所以客户如果想使用 SDS 来承载关键业务,建议选择由各大厂家提供的各种超融合或融合架构,并且通过有效的保护方式进行灾备。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180424B1CH6500?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券