TEG Cheers | 腾讯技术工程运维技术沙龙精彩回顾(内置现场视频)

7月28日,腾讯技术工程运维技术沙龙-深圳站在腾讯大厦2楼多功能厅举行。现场集结了数十家知名企业的技术开发和运维小伙伴,通过5个小时的思维碰撞,运维人员和导师们一起打造了一场运维人的知识盛宴。

这次,我们请来了四位有丰富数据库运维和优化经验的嘉宾,为大家分享他们的技术经验。

为了照顾更多没到现场的朋友,我们联合「腾讯大讲堂」(微信号:TX_DJT)拍摄了嘉宾的分享视频,各位可以直接点击文章里的小程序卡片即可观看。

腾讯数据中心运维介绍

熊操 腾讯华南广佛片区运维负责人

一、数据中心运维工作

数据中心的运维框架分为3层,最下面是设备厂商,包含IT设备厂商、电力厂商和空调厂商,他们依托维保合同为数据中心运维团队提供相应的维保服务。

数据中心运维团队主要分为IT运维团队和基础设施运维团队。

IT团队主要负责服务器和网络设备的日常运维,基础设施团队主要负责电力和制冷的运维。

这两个团队又向数据中心经理负责,数经将整个数据中心的运维能力打包向业务部门提供服务,保证业务在数据中心的安全。

接下来导师从运维场景和基础设施运维为我们详细介绍了运维人员的日常工作

运维场景:设备搬迁-设备直配-设备保全-备件存放-IT故障处理

基础设施运维:日常巡检-设备维保-日常演练-高危巡检-故障处理

二、业务重保支持

数据中心主要从以下四个方面配合业务重保:

应急保障-高危巡检-机架电流统计分析-整体电力容量确认

三、业务优化建议

第一个建议:重要的设备和群组要分开放置

①不要在同一个机架   

②不要在相邻的机架

③不要在同一列机架   

④不要在同一个房间

第二个建议:电源故障莫忽视

①一个电源模块告警后,虽然服务器还能正常工作,但可靠性已经严重降低

②收到电源模块告警后,需及时更换避免服务器断电停机

混合云环境下监控系统建设的探索与实践

张波 虎牙直播运维研发架构师

点击小程序卡片即可收看嘉宾现场精彩视频

一、开源监控系统对比

Zabbix--成熟度相对较高、但可扩展性不高

Prometheus-监控设计超前、成熟度不够

Openfaclon-架构设计合理、产品活跃度强

Openfaclon的模块设计

改造后的Openfaclon

二、TSDB(时序数据库)

什么是TSDB?

可以唯一标识的序列名/ID 及meta-data

一组数据点{timestamp, value}。

timestamp是一个Unix时间戳

TSDB的特点:

数据结构简单

数据量大

写多于读95%+

TSDB的可伸缩性与可靠性:

使用Hbase作为存储中心

无须采样

支持上万机器和上亿数据点的采集

一个无状态服务横向扩展能力强

三、监控系统的三个挑战

①可伸缩性与可靠

24小时 平均查询延迟10ms 200w+TPS/s 支持秒级存储

7天数据平均查询延迟50ms 100w+TPS/s 支持1分钟存储

永久存储平均查询延迟300ms 60W+TPS/s 数据降采样

②使用者对监控系统的滥用

限制指标单周期上报上线:最高10000

上报数据按配额分配,超额告警,数据丢弃

不同监控数据存储不同引擎

依赖监控数据的业务必须实现failover

根据元数据预测查询数据量实现fastover

③成本控制:使用云上资源提高系统弹性能力降低成本

集群混合云部署集群

 A集群自建方案,B集群公有云方案

 A集群 元数据服务:elasticsearch

    全量数据存储引擎:openTSDB

 B集群 元数据查询引擎:SLS

    26小时数据存储引擎: datastore

    7天数据存储引擎: histsdb

    多维数据查询引擎:SLS

支撑10万级设备的运营系统设计与实现

王子勇 腾讯织云Lite技术负责人

点击小程序卡片即可收看嘉宾现场精彩视频

一、包系统精髓

早期的发布方式&包系统的方式

早期的发布方式:传文件→执行命令

包系统的方式:创建版本→安装/升级

包系统-后台架构

SVN存储&消息队列&异步架构&缓存

命令通道-后台架构

二、CMDB资源与流水线

为什么需要CMDB资源模型?

基于文档的部署

基于脚本/定制流程的部署

①业务零开发成本

②极低操作门槛

③全局自动伸缩

④一人vs上千业务

流水线设计要点:

①用户可创建流水线

②支持参数输入

③支持参数传递 (管道的哲学)

④工具库 (代码复用)

⑤支持人工介入 (审批)

⑥支持失败步骤重试

⑦执行节点横向扩展

⑧数据运营 工具/流程耗时、成功率统计

支撑10万级设备的运营系统设计与实现

蒋常春 CDB运维负责人

点击小程序卡片即可收看嘉宾现场精彩视频

一、CDB--云数据库 MySQL

老师详细给学员们介绍了云数据库MySQL

CBD平台实例数目数万个,机器数量上万台,人均运维实例10000个,每天都有设备故障。

平台大了,问题成倍放大,每个组件、每项DBA工作,都要考虑平台化、工具化。

二、优化思路

常老师从数据采集-告警收敛-系统集成-自动处理四个方面阐述了优化的思路

告警收敛可以从收敛的目标和收敛的方向去规避和优化

数据采集之后上报收敛,实现告警自动化

三、技术方案

监控和数据拉取:Python、Go

存储:Elasticsearch、Redis、CDB

Web server:Flask

Frontend:Vue.js

前后端分离,数据API化

四位导师在本次沙龙分享的内容干货满满,期待未来可以在多个城市与更多的技术人见面。

下一站,再见!

原文发布于微信公众号 - 腾讯技术工程(Tencent_TEG)

原文发表时间:2018-08-03

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏腾讯移动品质中心TMQ的专栏

由全民吃鸡引发的网游加速学习总结

不论你是或不是一个游戏玩家,最近吃鸡类游戏的火热度可见一斑。而我所在的项目团队要来干这件大事了,因为我们要实现PC端网游加速这回事,第一个目标就是绝地求生。

3.4K12
来自专栏WeTest质量开放平台团队的专栏

百万并发量苹果官网准备好了吗?——一分钟学会服务器压力测试

企业需要良好的网站性能。网站的访问速度和顺利的体验是企业必须要做好的事情。本文从苹果官网两年来每次预购都出现的服务器宕机情况,揭示服务器性能测试的重要性,手把手...

1943
来自专栏成猿之路

考计算机二级,用这个软件,证书顺利到手!

1493
来自专栏ThoughtWorks

在医疗健康领域引入软件开发安全实践

BSI简介 “Build Security in DNA”简称BSI,是在开发过程中内置安全的软件开发实践。 顾名思义,BSI是要将各种安全措施从早期就纳入到软...

2764
来自专栏Java技术栈

阿里巴巴Java开发手册(终极版)

别人都说我们是码农,但我们知道,自己是个艺术家。也许我们不过多在意自己的外表和穿着,但我们不羁的外表下,骨子里追求着代码的美、质量的美。而代码规约其实就是一个对...

5968
来自专栏游戏杂谈

推荐ThinkJS

之前在学习node.js时,写过一些例子和demo,偶尔也会有人发email问我node.js的一些问题。因为是二三年前写的东西,当时使用的第三方库和node....

2972
来自专栏企鹅号快讯

小程序飞一般的前进,你还在懵吗?

出处:库博 作者:曦 临近年末,对于新媒体小编来说,简直是一场“年终盘点”的盛大狂欢。 2017我们总共吃了多少大瓜? 2017有哪些潮流热点被你漏掉了? ……...

2247
来自专栏zhisheng

为什么linux这么火?

linux自从诞生之初,就受到编程爱好的热宠,到现在也是如此,前段时间linux创始人骂人的一句话,都成了互联网传播的热词,这从侧面说明了linux...

3204
来自专栏腾讯社交用户体验设计

WebSocket实现多屏互动的分析及方案 - 腾讯ISUX

2222
来自专栏Java后端技术栈

程序员必备的16个实用的网站

3个月以前在知乎上回答一个问题【有哪些能集实用,装逼于一身的冷门网站?】得到很多小伙伴的喜爱,一直到现在都还陆陆续续收到大家的赞,谢谢大家。

901

扫码关注云+社区

领取腾讯云代金券