前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >TEG Cheers | 腾讯技术工程运维技术沙龙精彩回顾(内置现场视频)

TEG Cheers | 腾讯技术工程运维技术沙龙精彩回顾(内置现场视频)

作者头像
腾讯技术工程官方号
发布2018-08-03 20:54:36
8300
发布2018-08-03 20:54:36
举报

7月28日,腾讯技术工程运维技术沙龙-深圳站在腾讯大厦2楼多功能厅举行。现场集结了数十家知名企业的技术开发和运维小伙伴,通过5个小时的思维碰撞,运维人员和导师们一起打造了一场运维人的知识盛宴。

这次,我们请来了四位有丰富数据库运维和优化经验的嘉宾,为大家分享他们的技术经验。

为了照顾更多没到现场的朋友,我们联合「腾讯大讲堂」(微信号:TX_DJT)拍摄了嘉宾的分享视频,各位可以直接点击文章里的小程序卡片即可观看。

腾讯数据中心运维介绍

熊操 腾讯华南广佛片区运维负责人

一、数据中心运维工作

数据中心的运维框架分为3层,最下面是设备厂商,包含IT设备厂商、电力厂商和空调厂商,他们依托维保合同为数据中心运维团队提供相应的维保服务。

数据中心运维团队主要分为IT运维团队和基础设施运维团队。

IT团队主要负责服务器和网络设备的日常运维,基础设施团队主要负责电力和制冷的运维。

这两个团队又向数据中心经理负责,数经将整个数据中心的运维能力打包向业务部门提供服务,保证业务在数据中心的安全。

接下来导师从运维场景和基础设施运维为我们详细介绍了运维人员的日常工作

运维场景:设备搬迁-设备直配-设备保全-备件存放-IT故障处理

基础设施运维:日常巡检-设备维保-日常演练-高危巡检-故障处理

二、业务重保支持

数据中心主要从以下四个方面配合业务重保:

应急保障-高危巡检-机架电流统计分析-整体电力容量确认

三、业务优化建议

第一个建议:重要的设备和群组要分开放置

①不要在同一个机架   

②不要在相邻的机架

③不要在同一列机架   

④不要在同一个房间

第二个建议:电源故障莫忽视

①一个电源模块告警后,虽然服务器还能正常工作,但可靠性已经严重降低

②收到电源模块告警后,需及时更换避免服务器断电停机

混合云环境下监控系统建设的探索与实践

张波 虎牙直播运维研发架构师

点击小程序卡片即可收看嘉宾现场精彩视频

一、开源监控系统对比

Zabbix--成熟度相对较高、但可扩展性不高

Prometheus-监控设计超前、成熟度不够

Openfaclon-架构设计合理、产品活跃度强

Openfaclon的模块设计

改造后的Openfaclon

二、TSDB(时序数据库)

什么是TSDB?

可以唯一标识的序列名/ID 及meta-data

一组数据点{timestamp, value}。

timestamp是一个Unix时间戳

TSDB的特点:

数据结构简单

数据量大

写多于读95%+

TSDB的可伸缩性与可靠性:

使用Hbase作为存储中心

无须采样

支持上万机器和上亿数据点的采集

一个无状态服务横向扩展能力强

三、监控系统的三个挑战

①可伸缩性与可靠

24小时 平均查询延迟10ms 200w+TPS/s 支持秒级存储

7天数据平均查询延迟50ms 100w+TPS/s 支持1分钟存储

永久存储平均查询延迟300ms 60W+TPS/s 数据降采样

②使用者对监控系统的滥用

限制指标单周期上报上线:最高10000

上报数据按配额分配,超额告警,数据丢弃

不同监控数据存储不同引擎

依赖监控数据的业务必须实现failover

根据元数据预测查询数据量实现fastover

③成本控制:使用云上资源提高系统弹性能力降低成本

集群混合云部署集群

 A集群自建方案,B集群公有云方案

 A集群 元数据服务:elasticsearch

    全量数据存储引擎:openTSDB

 B集群 元数据查询引擎:SLS

    26小时数据存储引擎: datastore

    7天数据存储引擎: histsdb

    多维数据查询引擎:SLS

支撑10万级设备的运营系统设计与实现

王子勇 腾讯织云Lite技术负责人

点击小程序卡片即可收看嘉宾现场精彩视频

一、包系统精髓

早期的发布方式&包系统的方式

早期的发布方式:传文件→执行命令

包系统的方式:创建版本→安装/升级

包系统-后台架构

SVN存储&消息队列&异步架构&缓存

命令通道-后台架构

二、CMDB资源与流水线

为什么需要CMDB资源模型?

基于文档的部署

基于脚本/定制流程的部署

①业务零开发成本

②极低操作门槛

③全局自动伸缩

④一人vs上千业务

流水线设计要点:

①用户可创建流水线

②支持参数输入

③支持参数传递 (管道的哲学)

④工具库 (代码复用)

⑤支持人工介入 (审批)

⑥支持失败步骤重试

⑦执行节点横向扩展

⑧数据运营 工具/流程耗时、成功率统计

支撑10万级设备的运营系统设计与实现

蒋常春 CDB运维负责人

点击小程序卡片即可收看嘉宾现场精彩视频

一、CDB--云数据库 MySQL

老师详细给学员们介绍了云数据库MySQL

CBD平台实例数目数万个,机器数量上万台,人均运维实例10000个,每天都有设备故障。

平台大了,问题成倍放大,每个组件、每项DBA工作,都要考虑平台化、工具化。

二、优化思路

常老师从数据采集-告警收敛-系统集成-自动处理四个方面阐述了优化的思路

告警收敛可以从收敛的目标和收敛的方向去规避和优化

数据采集之后上报收敛,实现告警自动化

三、技术方案

监控和数据拉取:Python、Go

存储:Elasticsearch、Redis、CDB

Web server:Flask

Frontend:Vue.js

前后端分离,数据API化

四位导师在本次沙龙分享的内容干货满满,期待未来可以在多个城市与更多的技术人见面。

下一站,再见!

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-08-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯技术工程 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档