Cloudera Manager的运行状况测试

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 Fayson的github:https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢

1.运行状况测试介绍


Cloudera Manager使用运行状况测试(health tests)来监控集群中运行的服务,角色和主机的运行状况,包括Cloudera Management Service角色。基于角色的健康测试默认启用。以一个简单的健康测试为例,每个NameNode数据目录中是否有足够的磁盘空间。更复杂的运行状况测试可以评估何时将HDFS的上一个检查点与阈值进行比较或数据节点是否连接到NameNode。还有一些运行状况测试可以汇总其他的运行状况测试:在HDFS中,有几个DataNode关闭是正常的(假设你有几十个节点),你可以设置一个阈值说明百分之多少个节点挂了才表明整个服务挂掉。

运行状况测试返回三个结果:良好(Good),存在隐患(Concerning)和不良(Bad)。如果测试低于警告阈值(warning threshold),则返回存在隐患(Concerning)。如果测试低于临界阈值(critical threshold),则返回不良(Bad)。服务或角色实例的整体运行状况是其运行状况测试的汇总。如果任何运行状况测试是存在隐患(但没有一个是不良),角色或者服务的运行状况就是存在隐患(Concerning)。如果任何运行状况测试是不良,则该服务或角色的运行状况就是不良(Bad)。

在Cloudera Manager的界面上,运行状况测试有3种不同的图标代表:良好(Good)

,存在隐患(Concerning)

,不良(Bad)

有以下两种运行状况测试:

1.通过-失败测试(Pass-fail tests),有以下两种:

1) 有yes-no两个值。例如,服务或角色是否按预期启动,DataNode是否连接到其NameNode,或NodeManager被或未被列入黑名单。
2)    做一些轻量级的测试确保服务正常运行并能响应请求。HDFS(NameNode角色),HBase和ZooKeeper服务会被执行这些测试,称为“canary”测试。

以上两种通过-失败测试(Pass-fail tests)会导致运行状况测试的结果为良好(Good)或不良(Bad)。

2.指标测试 - 将测试的属性值与阈值进行比较。例如,正在使用的文件描述符(file descriptors)的数量,可用或剩余的磁盘空间,GC花费多少时间,或者在前15分钟内有多少页面被交换到磁盘。通过测试得到的值与阈值进行比较来判断是否一切良好(Good),比如,是否有足够的磁盘空间,是存在隐患(Concerning)(磁盘空间变低),还是不良(Bad)(极低磁盘空间量)。

默认情况下,大多数运行状况测试都会启用,并被配置了合适的阈值。你可以通过编辑“配置”页面的监控属性来修改阈值。也可以启用或禁用单个或汇总的运行状况测试,或者指定需要哪些服务,角色实例和主机的运行状况测试。

2.查看运行状况测试结果


运行状况测试可以在以下几个地方进行查看:

1.“主页>状态”页面,是各个服务和角色的整体运行状况健康程度。角色或服务的整体健康状况是运行状况测试的一个汇总;如果任何运行状况测试是不良(Bad),则服务或者角色的状态就是不良(Bad)。如果任何运行状况测试是存在隐患(Concerning)(没有任何一项是不良(Bad)),则角色或者服务的状况就是存在隐患(Concerning)。

2.“主机”页面,显示所有主机的汇总结果。

3.进入单个服务,角色或主机页面,通过“运行状况测试”面板可以查看你选择的单个服务,角色实例或主机的健康状态。

4.“主页>所有运行状况问题”,可以查看所有运行状况问题,你可以“按实体组织”或“按运行状况检查组织”排序。

对于某些运行状况测试结果,你可以使用自定义图表功能绘制一段时间范围内的关联指标。

3.抑制运行状况测试结果


当运行状况测试结果显示集群中存在问题时,Cloudera Manager会显示警告。有些警告不一定指向集群真正的根源问题,或者是预期的警告问题。你可以在Cloudera Manager中抑制显示这些警告。

在运行状况测试警告出现时,或者在运行测试前,你都可以抑制运行状况警告。抑制的运行状况测试隐藏在Cloudera Manager中,它们的状态不会影响服务,主机或角色实例显示的运行状况测试的汇总。(如果你的集群由Multi Cloudera Manager Dashboard监控,那么显示的运行状况测试的汇总也不受抑制警告的影响。)抑制的运行状况测试警告在Cloudera Manager中保持可用,并且测试继续运行,但结果被隐藏。 你可以随时取消抑制健康测试。

注1:Multi Cloudera Manager Dashboard是由一个Cloudera Manager同时监控由多个Cloudera Manager汇总上来的监控数据。

注2:抑制运行状况测试与禁用运行状况测试不同。禁用的运行状况测试永远不会运行,而受抑制的运行状况测试仍旧会运行,只是其结果是隐藏的。

3.1.抑制运行状况测试


1.进入你想要抑制的运行状况。参考第二章:查看运行状况测试结果。

2.点击“抑制…”按钮,一般在运行状况描述的右边。

在弹出的对话框中输入你要抑制的备注。

3.点击确认,状态会变为“正在抑制…”

成功后,刷新页面,将再看不到警告。

3.2.管理抑制运行状况测试


1.当你按照3.1的操作抑制了某一项后,你可以在“所有运行状况问题”页面看到“显示抑制的测试”的链接

2.点击显示查看,你可以查看所有已抑制的测试,点击“解除抑制”可以不再抑制某一项。

3.或者你可以继续“隐藏被抑制的测试”

注:对于这个功能,Fayson开始采用Kudu进行抑制测试,“显示抑制的测试”的链接并没有出现在这个页面上,换了HBase服务进行测试才通过。说明CM对于新产品Kudu的集成使用有一些小问题,应该属于bug。不过你依旧可以从下面章节3.4中查看所有被抑制的项目。Fayson的环境是5.13.1

3.3.在运行状况测试之前配置抑制


1.进入一个服务或者主机的页面,你想要抑制运行状况测试的。这里我们以HBase服务为例。

2.进入配置页面

3.切换到经典布局

4.在左边的目录中找到抑制,并点击。

选择你想要抑制的项目,然后勾上后点击“保存更改”即完成配置。

3.4.查看抑制的运行状况测试列表


1.“配置”->“已抑制运行状况和配置问题”查看所有你抑制的检查项。

2.可以看到抑制的运行状况测试的列表

如果这里项目比较多,可以选择左边菜单的“非默认”删选一次,或者在搜索栏里搜搜。

3.5.解除抑制运行状况测试


1.参见3.2章节“管理抑制运行状况测试”章节,你可以选择“解除抑制”。

2.参考3.4章节“查看抑制的运行状况测试列表”,通过取消勾选某一项,然后点击保存来解除抑制。

参考:

https://www.cloudera.com/documentation/enterprise/latest/topics/cm_dg_health.html

提示:代码块部分可以左右滑动查看噢 为天地立心,为生民立命,为往圣继绝学,为万世开太平。 温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。

推荐关注Hadoop实操,第一时间,分享更多Hadoop干货,欢迎转发和分享。

原创文章,欢迎转载,转载请注明:转载自微信公众号Hadoop实操

原文发布于微信公众号 - Hadoop实操(gh_c4c535955d0f)

原文发表时间:2018-03-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

将基于MicroProfile的应用程序部署到IBM Cloud Private上

Eclipse MicroProfile是一个用于优化微型服务体系结构的企业级Java的开源项目。基于MicroProfile的应用程序可以部署到Kuberne...

2699
来自专栏Jerry的SAP技术分享

在Kubernetes上运行SAP UI5应用(下)

上一篇文章 在Kubernetes上运行SAP UI5应用(上),我介绍了如何在Docker里运行一个简单的SAP UI5应用,并且已经成功地将一个包含了这个U...

811
来自专栏FreeBuf

浅谈Docker隔离性和安全性

介绍 相信很多开发者都默认Docker这样的容器是一种沙盒(sandbox)应用,也就是说他们可以用root权限在Docker中运行随便什么应用,而Docke...

5138
来自专栏北京马哥教育

真正零停机 HAProxy 重载

Yelp 础设施团队的主要目标之一就是为了尽可能接近零停机时间。那也就是说当用户访问www.yelp.com作出动作的时候,网站的响应速度必须尽可能的快。一种方...

45610
来自专栏Brian

Docker 学习系列一之原理

---- Docker 认识 在谈及Docker时,不得不牵扯到一个现在很重要的一个领域:云计算。云计算是一种资源的服务模式,该模式可以按需的从可配置计算资源共...

3659
来自专栏SDNLAB

Docker生态系统系列之网络和通信

编者按:网络一直是Docker集群中的最令人头疼的问题,目前Docker已经收购了SocketPlane团队来解决相关问题,也发布了 libnetwork项目。...

3399
来自专栏北京马哥教育

docker容器技术系列一:基本概念

前言:从去年下半年开始,我们就尝试在使用docker部署生产应用,至现在已经有十多个项目使用了docker容器部署,docker为我们节约 了大量的服务器资源,...

3064
来自专栏大魏分享(微信公众号:david-share)

五大Kubernetes最佳实践

4574
来自专栏云计算D1net

八种最常见Docker开发模式 别说你还不知道

Docker已迅速成为本人最喜欢的基础工具之一,以便构建可重复软件产品,从而带来尽可能静态的服务器环境。   我在本文中将概述我在使用Docker的过程中开始...

3456
来自专栏重庆的技术分享区

在API网关和微服务开发中使用Docker

原文地址:https://dzone.com/articles/using-docker-in-api-gateway-and-microservice-dev...

2094

扫码关注云+社区

领取腾讯云代金券