腾讯技术工程运维技术沙龙精彩回顾

7月28日,腾讯技术工程运维技术沙龙-深圳站在腾讯大厦2楼多功能厅举行。现场集结了数十家知名企业的技术开发和运维小伙伴,通过5个小时的思维碰撞,运维人员和导师们一起打造了一场运维人的知识盛宴。

这次,我们请来了四位有丰富数据库运维和优化经验的嘉宾,为大家分享他们的技术经验。

腾讯数据中心运维介绍

熊操 腾讯华南广佛片区运维负责人

一、数据中心运维工作

数据中心的运维框架分为3层,最下面是设备厂商,包含IT设备厂商、电力厂商和空调厂商,他们依托维保合同为数据中心运维团队提供相应的维保服务。

数据中心运维团队主要分为IT运维团队和基础设施运维团队。

IT团队主要负责服务器和网络设备的日常运维,基础设施团队主要负责电力和制冷的运维。

这两个团队又向数据中心经理负责,数经将整个数据中心的运维能力打包向业务部门提供服务,保证业务在数据中心的安全。

接下来导师从运维场景和基础设施运维为我们详细介绍了运维人员的日常工作

运维场景:设备搬迁-设备直配-设备保全-备件存放-IT故障处理

基础设施运维:日常巡检-设备维保-日常演练-高危巡检-故障处理

二、业务重保支持

数据中心主要从以下四个方面配合业务重保:

应急保障-高危巡检-机架电流统计分析-整体电力容量确认

三、业务优化建议

第一个建议:重要的设备和群组要分开放置

不要在同一个机架

不要在相邻的机架

不要在同一列机架

不要在同一个房间

第二个建议:电源故障莫忽视

一个电源模块告警后,虽然服务器还能正常工作,但可靠性已经严重降低

收到电源模块告警后,需及时更换避免服务器断电停机

混合云环境下监控系统建设的探索与实践

张波 虎牙直播运维研发架构师

点击小程序卡片即可收看嘉宾现场精彩视频

一、开源监控系统对比

Zabbix--成熟度相对较高、但可扩展性不高

Prometheus-监控设计超前、成熟度不够

Openfaclon-架构设计合理、产品活跃度强

Openfaclon的模块设计

改造后的Openfaclon

二、TSDB(时序数据库)

什么是TSDB?

可以唯一标识的序列名/ID 及meta-data

一组数据点。

timestamp是一个Unix时间戳

TSDB的特点:

数据结构简单

数据量大

写多于读95%+

TSDB的可伸缩性与可靠性:

使用Hbase作为存储中心

无须采样

支持上万机器和上亿数据点的采集

一个无状态服务横向扩展能力强

三、监控系统的三个挑战

可伸缩性与可靠

24小时 平均查询延迟10ms 200w+TPS/s 支持秒级存储

7天数据平均查询延迟50ms 100w+TPS/s 支持1分钟存储

永久存储平均查询延迟300ms 60W+TPS/s 数据降采样

使用者对监控系统的滥用

限制指标单周期上报上线:最高10000

上报数据按配额分配,超额告警,数据丢弃

不同监控数据存储不同引擎

依赖监控数据的业务必须实现failover

根据元数据预测查询数据量实现fastover

成本控制:使用云上资源提高系统弹性能力降低成本

集群混合云部署集群

A集群自建方案,B集群公有云方案

A集群 元数据服务:elasticsearch

全量数据存储引擎:openTSDB

B集群 元数据查询引擎:SLS

26小时数据存储引擎: datastore

7天数据存储引擎: histsdb

多维数据查询引擎:SLS

支撑10万级设备的运营系统设计与实现

王子勇 腾讯织云Lite技术负责人

点击小程序卡片即可收看嘉宾现场精彩视频

一、包系统精髓

早期的发布方式&包系统的方式

早期的发布方式:传文件执行命令

包系统的方式:创建版本安装/升级

包系统-后台架构

SVN存储&消息队列&异步架构&缓存

命令通道-后台架构

二、CMDB资源与流水线

为什么需要CMDB资源模型?

基于文档的部署

基于脚本/定制流程的部署

业务零开发成本

极低操作门槛

全局自动伸缩

一人vs上千业务

流水线设计要点:

用户可创建流水线

支持参数输入

支持参数传递 (管道的哲学)

工具库 (代码复用)

支持人工介入 (审批)

支持失败步骤重试

执行节点横向扩展

数据运营 工具/流程耗时、成功率统计

支撑10万级设备的运营系统设计与实现

蒋常春 CDB运维负责人

点击小程序卡片即可收看嘉宾现场精彩视频

一、CDB--云数据库 MySQL

老师详细给学员们介绍了云数据库MySQL

CBD平台实例数目数万个,机器数量上万台,人均运维实例10000个,每天都有设备故障。

平台大了,问题成倍放大,每个组件、每项DBA工作,都要考虑平台化、工具化。

二、优化思路

常老师从数据采集-告警收敛-系统集成-自动处理四个方面阐述了优化的思路

告警收敛可以从收敛的目标和收敛的方向去规避和优化

数据采集之后上报收敛,实现告警自动化

三、技术方案

监控和数据拉取:Python、Go

存储:Elasticsearch、Redis、CDB

Web server:Flask

Frontend:Vue.js

前后端分离,数据API化

四位导师在本次沙龙分享的内容干货满满,期待未来可以在多个城市与更多的技术人见面。

下一站,再见!

温馨提示:

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180803A1SLRR00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券