第二十六期西山居技术沙龙,一句话告诉你运维在做什么

第二十五期西山居技术沙龙

2018/07/26 19:00-21:00

主题:一句话告诉你运维在做什么

讲师:尹会生

一句话告诉你

运维在做什么

现场剪影

分享原因

想用简短的时间让大家了解一下运维的日常工作,以及西山居的生产环境的基础设施。

同时,也给大家推荐两本书:

《机器学习》 周志华

《Machine Learning Yearning》吴恩达

运维(Operation and maintenance)一般是指对大型组织已经建立好的网络软硬件的维护,其中传统的运维是指信息技术运维(IT运维)。所谓IT运维管理,是指单位 IT 部门采用相关的方法、手段、技术、制度、流程和文档 等,对IT 运行环境(如软硬件环境、网络环境等)、IT 业务系统和 IT 运维人员进行的综合管理。随着信息化进程的推进,运维管理将覆盖对整个组织运行,进行支持的管理信息系统涵盖的所有内容,除了传统的IT运维,还拓展了业务运维和日常管理运维。其参与的对象也从IT部门和人员,拓展到组织的管理层和各部门,及其相关的业务骨干。运维的最终结果是对软件运行中各种性能的维护。

作者:地球的外星人君

01

运维工程师的日常工作包括

从备份到高可用

从日志到脚本

监控

防火墙

以下略……

把这些事情总结一下,

其实运维工程师们都是在做资源管理

优秀的运维一定是:最佳资源管理者

02

运维工程师需要管理哪些资源

网络

服务器

操作系统

应用程序

安全

网络

大家最想了解的“黑盒子”:IDC机房

机房需要达到以下要:

1 温度、湿度变化小

环境温度为:A级22±2℃

环境湿度为:A级45%~65%

当温度过高时,服务器会降频甚至死机这会影响全部玩家

环境过于干燥容易产生静电,静电会击穿芯片

2 机房内要做很多电源冗余、网络冗余、空调冗余……

3 还要巡检

IDC机房

对服务器的多重保障

机柜放置的时候要考虑承重问题,地震多发的地方也不会放置机房。

机柜和供电设备分离

1分工问题:负责供电的是电气化工程师,负责服务器的是用户。

2服务器与用户息息相关,而用户的数据是最宝贵的。为了保护用户数据,我们在机房中做了很多隔离。机柜与供电设备的分离是为了减少和服务器无关的人员进入机房。

3事故规避:如果出现火灾或者其他事故,可以在机房外进行灭火,没有必要进入机房内进行操作。

冗余体现在哪里:

1使用双路电源,服务器由两个不同的变电站支撑。

2使用双路网线。

遇到停电时:

1当服务器遇到停电时,UPS能支撑两小时,足够工作人员启动柴油发电机对服务器进行供电。

布置机房位置时,还需要考虑机房附近有没有加油站,能不能在停电的时候及时补充柴油;也要注意附近有没有其他大型机房,遇到停电的时候可能会出现抢油的现象。

机房部署情况

曾经部署多个机房的原因

1保证鸡蛋不在同一个篮子里。

2一旦某个机房出现问题,我们可以立即启用另一个机房。

3放置这么多机房,减少链路被挖断造成的影响。

减少机房数量的原因

1由于我们的机房主要用于存放端游,当用户访问其他机房的时候,他们能明显感知到的。所以放置这么多的机房其实是没有意义的,于是我们将数量精简到4个。

2减少机房数量后,并没有增加故障产生的几率。因为所有从北方到南方的链路都要走到中央电视塔,再从中央电视塔转到南方的机房。所以无论北方的机房再多,只要链路中间有挖掘机,那么这些多余的机房都是没用的。

3我们大部分用户分布在华东、华南所以新的机房主要布置在上海和广州,而位于北京的机房足以覆盖华北地区的用户了。

4为了解决南北数据不互通的问题,我们在北京和广州的机房之间引入了一条新的专线,这样北京和广州之间就形成了新旧两条链路。然后又链接北京和上海、上海和广州的机房,将链路形成一个闭合的环状。当我们的南北链路失效的时候,我们就可以通过其他链路绕行。

机房里的机柜

在机房里要放置服务器,这时就需要机柜。机柜的标准规格是42Unit, 1U高度44.45mm

,而我们主要使用2U高度的服务器。

硬件

资源

服务器要选择什么样的?

除了性能要满足要求之外,传输带宽要达到1:1:1。

CPU带宽、内存带宽、主板北桥之间的带宽最好能一致。

例子:进行深度学习,我们采用两块CPU、四块GPU。【CPU用于做计算,GPU里的显存用于存储深度学习的模型】

这里出现两种方案:方案一,每个CPU下挂两个GPU,CPU之间实现通信;方案二,一个CPU下挂四个GPU。

最终采用方案一,因为我们除了要看数据的特征,还要看应用的特性。计算模型只能拆解成两部分,所以1个CPU下挂4个GPU的作用不大。

例子

在已有服务器上组建的虚拟化资源池

简化使用:虚拟化

没有特殊需求、只需要将网络、电源、软件稳定地服务运行的情况下,我们提供虚拟化服务。

当用户的底层需求一致的时候,平台可以提供更高的一致化支持。

软件

资源

监控

因为有了监控,所以排查问题的效率更高、速度更快。

服务器生命周期

确认硬件配置

服务器机房上架

硬件故障维修

服务器下架

监控异常产生的原因

开发环境和生产环境信息不对等

突发流量

非预期的数据请求

排查故障(如何发现故障)

监控系统

日志

服务器负载

网络链路异常

跟踪软件上线的生命周期

能有效减少故障

以上,就是本期沙龙的主要内容啦~

想要知道本期沙龙的全部内容可以观看本期沙龙的视频哟~

如果你有一肚子干货,还有满满的表达欲望

请火速联系小编,小编将水陆空全力支持你!

最后,记得关注我们的公众号,获取更多资讯~

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180727B1FD2A00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券