专栏首页北京马哥教育运维 | 运维好数据中心的四大法宝

运维 | 运维好数据中心的四大法宝

对于数据中心,运维工作的重要性不言而喻,在数据中心生命周期中运维管理是历时时间最长的一个阶段。数据中心运维的工作主要是对数据中心各项管理对象进行 系统的计划、组织、协调与控制,是信息系统服务有关各项管理工作的总称,具体包括对机房环境基础设施部分的维护,系统与数据维护,管理工具的使用,人员的 管理等方面。投资巨大的数据中心,为了能够尽快得到收益,就需要在运维的工作上多下工夫,切勿进入“一流设备、二流设计、三流运维”的不良运营之中,高品 质数据中心运维的工作至关重要。那么如何才能提升数据中心的运维水平,本文提出了数据中心运维工作制胜的四大法宝,做好这四个方面的工作将使数据中心一直 运行于最佳状态,为数据中心创造最大的受益。

工程文档

文档对数据中心运维的工作非常重要。包括数据中心的安装、配置、优化、组网、设备互连等方方面面,通过这些文档可以对数据中心的运营了如指掌,在出现故障 时迅速排查,找到故障点。文档还有一个重要的作用就是工作的传承,当有人员离开时,他只要留下工作的文档,其它人交接工作就很容易。还有就是工作经验的积 累文档。虽然各种数据中心大同小异,基本是靠服务器、网络和存储三大件打天下,但每个数据中心又都有自己的风格,自己的优势与劣势。通过对数据中心运维而 输出的各种技术文档,将为后来人提供方便,并且可以提升数据中心整体的运维能力。数据中心的文档五华八门,你不知道什么时候其中的哪些文档就会派上用场。 根据以往经验,数据中心的文档主要集中于三类: 一是数据中心内部架构文档,比如:组网介绍、设备互连关系、IP分配情况、空调系统、机电系统、布线系统等 的基本状况; 二是数据中心管理文档,比如:机房管理制度、机房值班和交接制度、机房巡检制度、设备操作规范制度,安全防护制度等等。 三是数据中心改造,优 化工程文档。比如:升级指导书、网络变更计划书、应急措施指导、软件回退方案等等。四是数据中心运维的经验文档。比如:网络中断问题分析、现有机房环境评 估、如果进行业务不丢包切换等等。利用这些文档,即使一个新人来做数据中心维护,也可以迅速上手。其实不仅对于数据中心这个行业,其它任何行业,任何工作 都是如此,养成输出文档的好习惯,为自己也为别人提供方便,可以大大提升工作效率。

业务备份

数据中心的业务要求全年24小时连续运行,然而数据中心一个故障都不出是不可能的,甚至一些数据中心几乎天天都在上演各种故障。拥有数十万台设备的数据中 心,每天坏一台服务器或一个端口都是在正常不过的事情了,这就要求我们对数据业务有备份。小到服务器、网络到存储,大到数据中心,都需要有备份,包含软件 的备份和硬件的备份。通过备份,可以在数据中心运行出问题时,及时做业务调整,确保业务无中断或者短时中断。如今的数据中心可以做到多数据中心互为备份, 就算其中一个数据中心瘫掉,业务也可以顺利由其它数据中心接管,继续正常运行,所以只要不是世界末日到来,在不同地方建设多个数据中心,就能保证数据中心 业务的长期稳态运行。业务备份是庞大的系统工程,涉及到方方面面,任何一个环节都有一些备份技术,在数据中心里不可能任何地方都部署备份技术,那将使得数 据中心成本过高,设计过于复杂,但是没有备份肯定是不行的,这就需要在两者之间找到一个平衡点。不管怎样,业务备份在数据中心里不可缺少。

在线监测

数据中心运行是动态的,每时每刻都在变化。我们无法预知未来会发生哪些突发故障,就算是每个环节都有备份,也需要有监测的手段,来保证业务切换到运行正常 的设备上来。对于数据中心在线监测必不可少。在线监测包括网管的监测,服务器运行状态的监测,空调系统的监测,机房环境的监测等等,当发现异常时,即使将 告警通知运维人员,或者软件自动启用备用系统,确保数据中心继续稳定运行。在线监测是确保数据中心无故障运行的保证,有效的在线监测可以减少数据中心故障 发生时,对业务造成影响。

周期巡检

俗 话说“防患于未然”,对于数据中心日常的周期巡检是不可缺少的。通过周期巡检,及时发现一些运行隐患,然后排除,可以大大降低数据中心发生严重故障的可能 性。周期巡检可以包括对各种设备的检查,环境的检查,电源、空调设备的检查,填写日常巡检记录表,检修记录,作业操作表等等。通过以往记录的数据进行综合 分析,一旦某些数据有波动或者异常,应该及时采取有效措施,避免隐患引发故障。通过周期巡检也可以对整个数据中心有个全面的了解,一旦要进行系统改造或者 扩容等工作,有了前期这些巡检数据参考,制定的改造或扩容方案才更有针对性。千万不要以为周期巡检只是记录一些设备运行的基本参数,通过这些参数可以看到 整个数据中心的运行状态。对于一个刚从事运维的新手来说,通过周期巡检可以迅速了解到数据中心的各个环节,独立展开维护工作。 工程文档、业务备份、在线监测、周期巡检是数据中心运维工作的四个重要方面,只有做好这四个方面的工作,才能让数据中心保持长期稳定运行,并能产生良好的效益,是数据中心运维水平高低的主要体现,拥有这四大法宝,将使数据中心终身受益。

本文分享自微信公众号 - 马哥Linux运维(magedu-Linux)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2015-04-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 解决数据中心网速变慢的八个检查必备步骤

    在数据中心运行过程中,不可避免会出现各种各样的问题。若网络发生信息不通、网页不能浏览等连通性故障时,这类故障现象的故障点很容易检查和定位, 解决起来并不困难。但...

    小小科
  • Linux,du、df统计的硬盘使用情况不一致问题

    在运维Linux服务器时,会碰到需要查看硬盘空间的情况,这时候,通常会使用df -lh命令来检查每个挂载了文件系统的硬盘的总量和已使用量,或者,可以使用du -...

    小小科
  • Python 开发者不得不知的魔术方法(Magic Method)

    来源:j_hao104 my.oschina.net/jhao104/blog/779743 介绍 在Python中,所有以“__”双下划线包起来的方法,都统...

    小小科
  • 云与虚拟化技术正逐步渗透至数据中心环境

    数据中心正在经历转型——其现代化发展旨在满足各类业务运作所必需的新型技术,例如软件定义架构、云计算以及虚拟化等等。而这种现代化态势也受到CIO及其他IT高管们的...

    静一
  • 2016年全球10大数据中心提供商概览

    过去几年的实践已经表明,运行托管数据中心服务的业务规模越大越好。在零售和批发数据中心市场中,规模最大的公司已经通过收购大量的竞争对手进一步巩固了他们的统治地位,...

    灯塔大数据
  • 新基建的冷思考:大数据中心为何如此重要?

    2020年伊始,跟新基建相关的政策就接踵而来。前有3月4日国家决策层明确要求加快5G网络、数据中心等新型基础设施建设进度的要求;后有《关于构建更加完善的要素市场...

    大数据在线
  • 数字新基建成本优化:从谷歌DeepMind实践我们体会到了什么?

    近日新基建、数字新基建的标题到处飞,几天前信通院发表了一篇《“新基建”数据中心能否摘掉“能耗大户”的帽子?》的文章。

    FB客服
  • 转换理念构建未来需要的数据中心

    宇众小添
  • 2020年数据中心值得关注的8大趋势

    随着网络、云计算的发展,数据中心市场在以下方面正悄悄变化着:未来市场的所有者是谁、技术创新趋势、以及客户购买和管理数据中心产品的方式。由于新物联网设备和边缘计算...

    SDNLAB
  • 未来数据中心的演变是否从1到0

    一处数据中心是企业组织容纳其各种业务关键应用程序和数据信息的物理设备。因此,从长期来看,随着技术的不断发展,如何保持数据中心的可靠性和安全性对于企业组织而言无疑...

    宇众小添

扫码关注云+社区

领取腾讯云代金券