因为监控架构采用的是prometheus+grafana+alter manager架构,所以监控mysql第一时间想到的是使用mysql_exporter。
9、安装mysql数据库,此处可注释掉本地center os 7的yum源,防止安装maridb。
最近刚刚跳槽,新单位同事问了我个问题,突然把我问懵了,因为好久没有接触底层磁盘了,于是做了以下的实验。
早上7点起床,看到手机钉钉告警显示生产集群zookeeper异常,于是起床备份name node 、zookeeper等重要节点日志,当时很多角色已经挂掉,re...
更换了新的电脑装了一天软件,配置python环境时发现走的不是自己安装的anaconda环境于是记录一下。
业务人员反馈部分job运行缓慢,于是进行了统计观察,resource manager页面观察到如下现象。
通过hdfs命令为目录设置用户和组的default acl权限,在该目录下创建的子目录时用户和组的权限与设置的default acl权限不一致,提示“effec...
收到业务反馈,在执行任务时很慢,提供了job的ID,经排查发现某些节点CPU负载很高,影响了他的job运行,而节点负载高的开始时间都是9:30左右。
上一遍记录了当时集群资源死锁的问题,后来想了想其实小文件较多也会让集群变慢,小文件较多在执行作业时rpc时间就会增加,从而拖垮了job的执行速度。
该集群总共有569个Node Manger,总计Vcore数是27704个,总计内存是171T,资源比较丰富,属于重点生产集群,理论上足够任务运行。
需要访问FTP服务端提供的资源时,可以使用专门的FTP客户端/管理工具(FTP命令程序、Filezilla图形工具),也可以使用Web浏览器、下载工具(比如wg...
今天一个租户运行job报错,发现是hdfs空间不足,当时租户入住是有set quota的,于是复习一下
可以看到我配置了三个job分别是prometheus、node、cm_monitor
而且还在增加,遇到文件描述符问题,一般都是yarn的job问题,于是登到相关报错的几台机器上执行top命令查看对应的pid
第一个job为prometheus,第二个为我安装的本机采集工具node_exporter,第三个为我自己写的Hadoop一些指标采集job,这里涉及了刮擦文件...
背景:写这篇文章是为了后面学习监控yarn的队列,Cloudera的CDH属于即将过时的技术了,但是目前国内很多企业任然以5.x 的版本为主,如果有不会的同学可...
启动服务后浏览器输入安装服务所在的IP 我的是http://192.168.1.1:3000/login用户名admin初始密码为admin,登入会提示修改初...
我们之前已经修改了prometheus的yml文件并且在rules目录添加了磁盘告警规则,也在monitor-config里添加了被监控的机器标签,完整的结构应...
通过上一篇prometheus+telegraf+grafana监控学习(一)已经启动了prometheus,那么现在我们需要在被监控机器上部署telegraf...
普罗米修斯下载地址:https://prometheus.io/download/
暂未填写个人简介
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址
扫码关注云+社区
领取腾讯云代金券