展开

关键词

linux ping

"+%Y%m%d %H:%M:%S"`--->$host服务器有丢包现象,丢包率为:$loss_ping" >>ping_err_log fi done mail -s "服务器ping

86530

ZABBIX 基本故障

ZABBIX 基本故障 浏览器右上角查看导航按钮>>>> CPU触发器:   1)Processor load is too high on {HOST.NAME} {HOST.NAME}上处理器负载太高     触发器表达式:{Zabbix server:system.cpu.load[percpu,avg1].avg(5m)}>5       告等级:告   2)Disk I/O is overloaded } 主机密码文件被更改     触发器表达式:{Zabbix server:vfs.file.cksum[/etc/passwd].diff(0)}>0       告等级:告 Processes       告等级:告 Performace触发器   1)Processor load is too high on {HOST.NAME} 在主机上处理器负载过高(1分钟)     触发器表达式 :{Zabbix server:system.cpu.load[percpu,avg1].avg(5m)}>5       告等级:告 OS触发器   1)Configured max number

1.9K30
  • 广告
    关闭

    腾讯云618采购季来袭!

    一键领取预热专享618元代金券,2核2G云服务器爆品秒杀低至18元!云产品首单低0.8折起,企业用户购买域名1元起…

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Prometheus 系统 AlertManager 之邮件告

    介绍 Prometheus 是一套开源的系统、时间序列数据库的组合,最初有 SoundCloud 开发的,后来随着越来越多公司使用,于是便独立成开源项目。 Alertmanager、Node-Exporter 服务,我使用 Docker 方式启动,所以本机需要安装好 Docker 环境,这里忽略 Docker 的安装过程,着重介绍一下如何启动并配置 Prometheus 系统 ,负责机器的各个指标,包括节点存活、CPU、Mem、Network、IO 等等,方便后边演示 Alertmanager 时的触发条件,例如配置节点存活检测,当机器 Down 时,触发制,那么就可以通过停止 这里说明一下 Prometheus Alert 告状态有三种状态:Inactive、Pending、Firing。 Inactive:非活动状态,表示正在,但是还未有任何触发。 这里除了节点是否存活外,还可以很多很多指标,例如 CPU 负载告、Mem 使用量告、Disk 存储空间告、Network 负载告等等,这些都可以通过自定义 PromQL 表达式验证值来定义一些列的告规则

    4.6K42

    zabbix之邮件sendmail 原

    zabbix之邮件 在zabbix的使用中,最重要的一点就是完善的机制,作为平台,需要时刻关注机器和服务的运行状态,更重要的是发现故障之后需要及时的给相关人员,早点发现问题,将隐患消除在未然阶段 (mysql、oracle、nosql等);  (3)应用服务器状态:应用服务器的可用性以及负载状态; 以本人之前所在的游戏公司为例,日常的中主要集中在服务器的基本状态的:(1)比如随着服务器的运行 配置zabbix制台 1.首先设置媒介(指定邮件发送的脚本),点击“管理”—“媒介类型”—“Email”:  ? 2.将类型选定为脚本,然后指定脚本的名称。 ,因为是邮件,所以当trigger被触发时,我们给相关用户的邮箱发送邮件,这样运维人员会根据邮件的错提示及时解决问题,当问题结局时还会发送恢复邮件,这样就可以把机器及业务的运行状态及时的起来。 操作示例 我们这里设定的条件是当zabbix客户端5分钟内没有连接的时候,则会触发该。 1.首先可以关闭zabbix agent,查看仪表盘的信息,五分钟后显示如下:  ?

    96110

    Python-WXPY实现微信

    博主在最近有一个的需求需要完成,然后刚好在学习wxpy 这个东西,因此很巧妙的将工作和学习联系在一起。   博文中主要使用到的技术设计到Python,Redis,以及Java。 ") group = bot.groups().search('')[0] print("微信登陆成功! 进行功能!") (qr_path="qr.png") group = bot.groups().search('')[0] print("微信登陆成功! 进行功能!")

    3.7K90

    ZabbixWindows用户登录

    目的 zabbixwindows本地用户或者mstsc登陆windows服务器,避免密码泄露,恶意登陆,信息泄露现象,及时通给系统管理员。 ZABBIX Server配置 创建模板 创建应用集 创建项 创建触发器 告测试 创建账户登陆成功项 可以使用zabbix自带的键值eventlog进行采集,关于各项参数,官网有很明确的介绍 参数七 skip:含义是不已产生的历史日志,如果省略skip,会出符合以上条件的历史日志信息。 ,并且内容包含字符串"songhongpeng"则触发告,如果60秒内没有新的数据了,则触发器恢复OK。 ,并且内容包含字符串"songhongpeng"则触发告,如果60秒内没有新的数据了,则触发器恢复OK。

    1.6K30

    使用 vmalert 代替 Prometheus

    前面我们已经介绍了可以使用 vmagent 代替 prometheus 抓取指标数据,要想完全替换 prometheus 还有一个非常重要的部分就是模块,之前我们都是在 prometheus 中定义规则评估后发送给 vmalert 会针对 -datasource.url 地址执行配置的或记录规则,然后可以将发送给 -notifier.url 配置的 Alertmanager,记录规则结果会通过远程写入的协议进行保存 集成 在重启时可以保持状态 Graphite 数据源可用于和记录规则 支持记录和规则重放 非常轻量级,没有额外的依赖 要开始使用 vmalert,需要满足以下条件: 规则列表:要执行的 ,我们可以通过 Alertmanager 页面查看触发的规则: 同样 vmalert 也提供了一个简单的页面,可以查看所有的 Groups: 也可以查看到规则列表的状态: 还可以查看到具体的一条规则的详细信息 到这里基本上我们就完成了使用 vm 代替 prometheus 来进行了,vmagent 采集指标,vmalert 用于,vmstorage 存储指标数据,vminsert 接收指标数据

    5720

    从零搭建Prometheus系统

    Prometheus是由SoundCloud开发的开源系统和时序列数据库(TSDB)。Prometheus使用Go语言开发,是Google BorgMon系统的开源版本。 接口就可以接入。 这样做非常适合做虚拟化环境系统,比如VM、Docker、Kubernetes等。输出被组件信息的HTTP接口被叫做exporter 。 Prometheus采用PULL的方式进行,即服务器可以直接通过目标PULL数据或者间接地通过中间网关来Push数据。 Prometheus实现自动就说介绍完了,一条龙服务,自动抓取接口+自动+优雅的图表展示,你还在等什么,赶紧high起来!

    97340

    k8s node alertmanager配置方法

    概述 节点本身的主要CPU、内存、磁盘IO、文件系统可用空间即可。 比如,对于使用来prometheus的alertmanager来做node,rules配置可以参考如下点进行配置即可。 CPU (1 - avg(irate(node_cpu{mode="idle"}[10m])) by (instance)) * 100 < 90 内存 ((node_memory_MemTotal - node_memory_MemFree) / node_memory_MemTotal) * 100 < 90 磁盘IO (max(avg(irate(node_disk_io_time_ms [10m])) by (instance, device)) by (instance))/10 文件系统可用空间 max(((node_filesystem_size{fstype=~"ext4|

    69510

    Spring Boot 实现应用

    启动完毕,访问http://localhost:8888/admin/prometheus就可以看到服务暴露的那些指标了。 ? 现在开始创建自己的可视化面板。 1.设置数据源 ? 2. 创建一个Dashboard ? ? 3. 填写采集的指标点 ? Tips: 这里的图表布局是可以用鼠标拖动的 04 添加邮件 在实际项目中当的某的个指标超过阈值(比如CPU使用率过高),希望系统自动通过短信、钉钉和邮件等方式及时通知运维人员,Grafana 一旦规则的触发时间超过持续时间,它将更改为Alerting并发送通知。 这套功能还是挺强大的,就是 Prometheus 的表达式有点多。

    49540

    腾讯的使用

    作者:杨升军 1.添加用户和组 添加用户: 账号授权: 添加组: 发送用户接收短信和邮件告确认信息,需要分别确认 2.默认告 新增或编辑告策略: 告策略关联到服务器和告接收组 3.自定义告 linux安装agent安装 执行命令进行安装,操作如下: wget http://mirrors.tencentyun.com/install/monitor/linux_stargate_installer /linux_stargate_installer 安装成功如下图所示: 使用示例 cagent_tools alarm ‘告内容 PHP示例: $link = mysql_connect( ] ; then # alarm content cagent_tools alarm "the process mysqld died." fi 更多帮助戳这里 4.电话咨询:95716 默认告每月 1000条限制,告需要自己做收敛 更多帮助戳这里 相关推荐 新时代运维能力的进化——天网用户体验平台实践 腾讯Ubuntu下定时测MySQL进程终止后自动重启的方法 立体化产品数据

    5.1K20

    FLINK实战-使用CEP进行网站恢复

    基于自定义的pattern,我们可以做很多工作,比如、风、反爬等等,接下来我们基于一个简单的小例子来讲解一些FLINK cep的实际应用。 案例详解 我们基于flink CEP做一个简单的,首先我们简化一下的需求 1.统计出来每秒钟http状态码为非200的数量所占比例。大于0.7的时候触发。 最后recovery pattern加上一个optional 是我为了区分,和恢复想的的一个方案,这样的话,如果是只匹配到了alert pattern,输出的就是,如果recovery pattern 也匹配到了,那么就是恢复。 在我们获得了相应的和恢复之后,接下来就是调用接口进行处理了,我们这只是简单的打印出来信息。

    73711

    zabbix主机cpu达到80%后

    在zabbix中,默认cpu模板中的触发器,当负载在一定时间内(比如最近5分钟)超过5以上为阀值。 所以cpu达到80%后的触发器配置如下: 名称:cpu user percent on {HOST.NAME} gt 80% 表达式:{Template OS Linux:system.cpu.util

    1.4K60

    使用 Loki 进行日志

    对基础设施及应用进行适当的日志记录和非常有助于解决问题,还可以帮助优化成本和资源,以及帮助检测以后可能会发生的一些问题。 前面我们介绍了使用 EFK 技术栈来收集和日志,本文我们将使用更加轻量级的 Grafana Loki 来实现日志的,一般来说 Grafana Loki 包括3个主要的组件:Promtail 触发的阈值通过 expr 表达式进行配置。 同时这个时候我们配置的 nginx-hints 规则也被触发了: ? 如果在两分钟之内阈值一直达到,则会触发: ? 正常这个时候我们的 WebHook 中也可以收到对应的信息了。 到这里我们就完成了使用 PLG 技术栈来对应用进行日志收集、的操作。

    7.7K31

    zabbix使用(自定义、自动

    应用上之前创建的应用集 创建触发器  作用:当项获取到的值达到一定条件时就触发   ①触发器---->创建触发器 ?    ②定义名称,此名称在时显示,表达式点右边添加,然后选择需要的表达式,严重性自定义 ?   ③表达式定义,选择创建的项 ?   ④在触发器中查看 ? onealert配置 点击添加应用,注意添加的是zabbix ? 实现微信是需要关注微信公众号的 ? 验证告集成 产生新的zabbix告(problem),动作状态为“已送达”表示集成成功。  卸载(noealent Agent)   ①  删除媒介类型中的脚本 ?    触发器响应,发送信息 ? 在微信和邮件中,均能收到信息。 ? 可视化 聚合图形 ? ? 幻灯片显示聚合图形 ? ? 模板的共享 主机共享  在主机页打开,全选后点击导出 ? 导入: ?

    1.5K60

    《Prometheus实战》第6章 管理

    第6章 管理 Prometheus是一个按功能划分的平台,指标的收集和存储与是分开的。管理功能由名为Alertmanager的工具提供,该工具是体系中的独立组件。 对于来说,过多的相当于“狼来了”这样的故事 通常发送过多的原因可能包括 缺少可操作性,它只是提供信息。 与作业一样,它指定目标列表,此处是主机名alertmanager加端口9093(Alertmanager默认端口)的形式。 在每个评估周期,Prometheus运行每个规则中定义的天工并更新状态 可能有以下三种状态:Pending到Firing的转换可以确保更有效,且不会来回浮。 如果我们在节点上的服务不再活动,则会生成一个 代码清单:节点服务 - alert: NodeServiceDown expr: node_systemd_unit_state{state

    1K30

    zookeeper

    针对平台的以上几点要求,部内内部选用了目前使用业界已经比较成熟的阿里开源ZooKeeper框架TaoKeeper。 TaoKeeper源码及搭建方法参考https://github.com/alibaba/taokeeper TaoKeeper介绍 TaoKeeper是阿里开源ZooKeeper框架,提供以下功能 : l CPU/MEM/LOAD的 l ZK日志目录所在磁盘剩余空间 l 单机连接数的峰值 l 单机 Watcher数的峰值 l 节点自检:是指对集群中每个IP所在ZK节点上的PATH: 目标机器的负载,也是通过SSH连接到目标机器,再执行top等命令,再分析得到数据。 新增集群 ?

    2K70

    使用创建一个钉钉机器人【教程】

    支持多项阿里服务的文档状况检测,还支持包括邮件、短信、钉钉机器人等多样化的功能。 官方介绍 服务可用于收集获取阿里资源的指标或用户自定义的指标,探测服务可用性,以及针对指标设置。 既然是,那么自然是一个非常重要的步骤,如何设置规则呢? 点击列表进入 规则—— 设置规则 设置参数,比如说当丢包率达到 50% 的时候进行 选择需要的类型,包括有 HTTP/HTTPS、ICMP、TCP、UDP、POP3、SMTP 创建钉钉机器人 选择很多的运维群组都是使用钉钉进行 5*8 进行沟通交流的,如果有一个可以对服务状态进行的钉钉机器人就可以更加的高效,用户和运维者都可以做到及时的获得通知。

    1.8K80

    使用创建一个钉钉机器人【教程】

    支持多项阿里服务的文档状况检测,还支持包括邮件、短信、钉钉机器人等多样化的功能。 官方介绍 服务可用于收集获取阿里资源的指标或用户自定义的指标,探测服务可用性,以及针对指标设置。 既然是,那么自然是一个非常重要的步骤,如何设置规则呢? 点击列表进入 规则—— 设置规则 设置参数,比如说当丢包率达到 50% 的时候进行 选择需要的类型,包括有 HTTP/HTTPS、ICMP、TCP、UDP、POP3、SMTP 创建钉钉机器人 选择很多的运维群组都是使用钉钉进行 5*8 进行沟通交流的,如果有一个可以对服务状态进行的钉钉机器人就可以更加的高效,用户和运维者都可以做到及时的获得通知。

    45610

    最佳实践:自定义数据库MySQL指标

    如何数据库MySQL连接数等运行状态指标 推荐您使用 -自定义 ! 目前内测阶段免费使用,无需审核,开通服务即用。诚邀您点击 申请页面 参与内测体验! ---- 本文介绍如何使用 Shell 命令+SDK 方式上数据库 MySQL 的指标至自定义,查看指标并配置告。 实践背景 定期数据库 MySQL 的关键指标。 当这些指标触发您设置的告条件时,发送短信告。 前提条件 购买了腾讯 服务器 CVM 并安装 MySQL 或购买了数据库 MySQL。 安装 Python 2.7以上环境。 输入 Shell 命令,即可完成指标数据持续上。 image.png 接收告 如果数据库 MySQL 异常连接数大于0,5分钟后将会收到短信告,短信内容如下: 【腾讯自定义指标告触发 账号 ID:34xxxxxxxx,昵称:自定义

    37140

    相关产品

    • 云监控

      云监控

      云监控(CM)可收集并通过图表展示腾讯云云产品自助上报的各项监控指标和用户自定义配置上报的监控指标,以及针对指标设置告警,让您实时、精准掌控业务和各个云产品健康状况。

    相关资讯

    热门标签

    扫码关注云+社区

    领取腾讯云代金券