Bob hadoop

LV1
发表了文章

使用mysql_exporter监控mysql

因为监控架构采用的是prometheus+grafana+alter manager架构,所以监控mysql第一时间想到的是使用mysql_exporter。

Bob hadoop
发表了文章

保姆式教你mysql主从搭建

9、安装mysql数据库,此处可注释掉本地center os 7的yum源,防止安装maridb。

Bob hadoop
发表了文章

Linux多块物理磁盘做LVM

最近刚刚跳槽,新单位同事问了我个问题,突然把我问懵了,因为好久没有接触底层磁盘了,于是做了以下的实验。

Bob hadoop
Linux
发表了文章

记一次zookeeper脑裂的故障排查

早上7点起床,看到手机钉钉告警显示生产集群zookeeper异常,于是起床备份name node 、zookeeper等重要节点日志,当时很多角色已经挂掉,re...

Bob hadoop
发表了文章

Mac系统下的pycharm配置anaconda环境变量

更换了新的电脑装了一天软件,配置python环境时发现走的不是自己安装的anaconda环境于是记录一下。

Bob hadoop
发表了文章

记一次job运行缓慢的事件

业务人员反馈部分job运行缓慢,于是进行了统计观察,resource manager页面观察到如下现象。

Bob hadoop
发表了文章

生产集群写入报错深入分析

通过hdfs命令为目录设置用户和组的default acl权限,在该目录下创建的子目录时用户和组的权限与设置的default acl权限不一致,提示“effec...

Bob hadoop
发表了文章

生产集群慢job造成节点负载过高影响其他job运行的排查记录

收到业务反馈,在执行任务时很慢,提供了job的ID,经排查发现某些节点CPU负载很高,影响了他的job运行,而节点负载高的开始时间都是9:30左右。

Bob hadoop
发表了文章

关于较大规模hadoop集群的小文件问题

上一遍记录了当时集群资源死锁的问题,后来想了想其实小文件较多也会让集群变慢,小文件较多在执行作业时rpc时间就会增加,从而拖垮了job的执行速度。

Bob hadoop
发表了文章

一次Hadoop集群的资源死锁问题排查

该集群总共有569个Node Manger,总计Vcore数是27704个,总计内存是171T,资源比较丰富,属于重点生产集群,理论上足够任务运行。

Bob hadoop
发表了文章

标准生产ftp建设

需要访问FTP服务端提供的资源时,可以使用专门的FTP客户端/管理工具(FTP命令程序、Filezilla图形工具),也可以使用Web浏览器、下载工具(比如wg...

Bob hadoop
发表了文章

租户分配hdfs空间问题

今天一个租户运行job报错,发现是hdfs空间不足,当时租户入住是有set quota的,于是复习一下

Bob hadoop
发表了文章

以prometheus的pmsql分析Mac的CPU使用

可以看到我配置了三个job分别是prometheus、node、cm_monitor

Bob hadoop
发表了文章

关于yarn的job运行时文件描述符问题

而且还在增加,遇到文件描述符问题,一般都是yarn的job问题,于是登到相关报错的几台机器上执行top命令查看对应的pid

Bob hadoop
发表了文章

Mac 电脑搭建监控开发环境

第一个job为prometheus,第二个为我安装的本机采集工具node_exporter,第三个为我自己写的Hadoop一些指标采集job,这里涉及了刮擦文件...

Bob hadoop
发表了文章

关于CDH5.13的安装的记录

背景:写这篇文章是为了后面学习监控yarn的队列,Cloudera的CDH属于即将过时的技术了,但是目前国内很多企业任然以5.x 的版本为主,如果有不会的同学可...

Bob hadoop
发表了文章

prometheus+telegraf+grafana监控学习(四)

启动服务后浏览器输入安装服务所在的IP 我的是http://192.168.1.1:3000/login用户名admin初始密码为admin,登入会提示修改初...

Bob hadoop
发表了文章

prometheus+telegraf+grafana监控学习(三)

我们之前已经修改了prometheus的yml文件并且在rules目录添加了磁盘告警规则,也在monitor-config里添加了被监控的机器标签,完整的结构应...

Bob hadoop
发表了文章

prometheus+telegraf+grafana监控学习(二)

通过上一篇prometheus+telegraf+grafana监控学习(一)已经启动了prometheus,那么现在我们需要在被监控机器上部署telegraf...

Bob hadoop
发表了文章

prometheus+telegraf+grafana监控学习(一)

普罗米修斯下载地址:https://prometheus.io/download/

Bob hadoop

个人简介

个人成就

扫码关注云+社区

领取腾讯云代金券