首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >重庆广播电视集团如何基于Zabbix实现播控系统自动化运维?

重庆广播电视集团如何基于Zabbix实现播控系统自动化运维?

作者头像
Zabbix
发布2021-09-29 16:00:33
7290
发布2021-09-29 16:00:33
举报
文章被收录于专栏:Zabbix中国官方Zabbix中国官方

本文转载自刘云. 基于Zabbix的播控系统自动化运维[J]. 西部广播电视, 2019, No.460(20):230-231+253.

刘云,重庆广播电视集团(总台),工程师。

01

背景

重庆电视台播控系统是2016年建成的全高清文件化播出控制系统,包含3个上星频道、10个地面频道和5个备份频道,所有播出素材以MXF格式绑定节目代码送播,自动技审系统审查非法画面后,节目整备系统按照节目单日期自动迁移和同步,播出软件根据已绑定实体信息的预播单按照时间线准时播出,并同步控制字幕包装系统。

为了实现系统的高度自动和稳定可靠,系统内部署了近200台服务器,二级存储系统2套,以及大量周边连接、转换和分配设备。网络采用二级扁平结构,核心交换机下挂堆叠汇聚交换机。该系统除播出核心外全部实现IP化,只需一根网线就能解决一个设备的全部通信问题,还以IPG+IPX的方式实现节目信号流的IP化传输。

为了保证播出业务的连续性和稳定性,需要及时掌握系统硬件、系统软件和应用程序的可用性,需要获取各个组件的运行状态,如CPU的利用率、系统的负载、服务的运行、端口的连通、带宽流量、网站访问状态码等信息。而这一切都离不开监控系统。

02

监控系统

开源的监控软件解决方案类型有流量监控和性能告警两类可选,但都能达到对信息系统服务可用性的完全展示。Zabbix系统是一种分布式性能告警监控系统,具有其他监控系统不可比的灵活扩展性和丰富功能。监控系统使用的关键,是根据实际的经验值、业务需求来配置告警阈值。

监控平台:

Zabbix服务器的平台,本次选择的是Zabbix3.4+CentOS6+MySQL的组合。

监控方式:

Zabbix监控逻辑

03

监控配置

本台设置2台ZabbixServer分别监测内网和外网设备,设置了7个Proxy,共设置光传输、二级存储、数据库、播出硬件、节目编单、交换机和支撑业务7个主机群组。同一群组内的主机均属于同一IP段且本系统内大部分设备支持SNMP,一台主机可能有多个监测项目而同时属于多个群组。本地机房内的设备全部由代理程序监测,便于管理和降低服务器压力。

二级存储群组主要监控主机是主备二级存储的10个节点,监控项目是存储、带宽、硬件及管理系统的告警。

数据库群组监控所有数据库的硬件状态、程序运行状态和备份状态。使用SNMP方式,监测对象含3台播出数据库,2台总编室数据库,2台字幕内网数据库,2台监控数据库和1台公共备份数据库。其中播出和总编室数据库还做了异地备份的状态监测。2台字幕外网数据库纳入了Zabbix-Server2的监测。

硬件群组主要监控播出相关的82台业务主机的硬件状态,包含播出工作站、应用服务器(迁移、编单)、支撑服务器(监播、备份、管理)等。

节目编单群组监控总编室数据库和Web服务器,以SNMP方式接收告警。其中Web服务器上部署的Tomcat需要使用JMX方式监测。同时,增加对部署在Web服务器上的在线编单服务的网址访问监测。

交换机群组主要监控2台虚拟化的核心交换机和4台堆叠的汇聚交换机,主要监控方式是ping,目的是确保网络畅通。

支撑业务群组监控对象包括域控、迁移、技审等支撑业务的运行状态,对每台服务器上运行的业务程序状态进行监测。为了实现告警信息的微信转发,将ZabbixServer部署在摆渡外机上安装的虚拟机内。摆渡外机部署了杀毒软件,Proxy和Server之间使用Zabbix专用格式通信,通过网闸确保信息安全。如图所示。

监控系统架构

04

监控效果

4.1微信实时推送

创建微信企业号,配置ZabbixServer接收到告警信息后,转发给微信企业号的后台接口,然后推送到微信企业号。运维人员通过管理员邀请加入企业号,就可以实时接收播出系统告警信息。

4.2存储监控

通过监控存储空间变化,可以帮助判断:数据库备份是否成功执行数据库膨胀趋势;监播软件是否录制正常,利用中断记录反查线路故障;日志膨胀导致存储空间不足进而系统不稳定。

本台曾出现PGM信号随机短时中断现象,通过分析Zabbix记录的监播存储异常变化,精确地掌握了所有信号中断的时间和线路定位,为最终排查出是同步系统问题提供了有力的技术支持。

4.3 SNMP支持

一些设备不支持安装程序,不能直接部署监控程序,但支持SNMP协议,扩大监控范围。本台主二级存储出现了罕见的日志系统故障,无法通过管理界面查看系统状态,设备处于无监管运行状态。但是,SNMP模块工作正常,仍能主动推送TRAP信息,使得Zabbix系统及时获取到紧接着出现的节点内存故障,增加运维手段和保证设备维护的及时性。

4.4光传输监控

播控会将传给有线的PGM信号由电转成光,需要通过电光转换模块。但对端输出总是不稳定,出现同一模块部分端口异常的情况,因处于监控盲区而缺乏监管。考察网络条件和设备条件,新增Proxy从光传输机箱采集光模块参数并告警,实现播控系统全域监控。

05

展望

Zabbix功能丰富,且十分灵活,帮助收集大量数据和进行初步筛选。自动告警大大减轻了人员巡视工作量并提高了及时性,丰富了运维手段,大量数据统计为创新应用提供支持。

下一步应用实践,是将环境监控系统接入Zabbix。该系统独立组建,没有通用接口,需要一些协议转换手段才能获取数据。用好Zabbix,用好大数据,有利于播控系统运维工作的效率提升。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-09-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Zabbix开源社区 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档