前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Cloudera Manager的运行状况测试

Cloudera Manager的运行状况测试

作者头像
Fayson
修改2018-04-01 18:17:04
8.2K1
修改2018-04-01 18:17:04
举报
文章被收录于专栏:Hadoop实操Hadoop实操

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 Fayson的github:https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢

1.运行状况测试介绍


Cloudera Manager使用运行状况测试(health tests)来监控集群中运行的服务,角色和主机的运行状况,包括Cloudera Management Service角色。基于角色的健康测试默认启用。以一个简单的健康测试为例,每个NameNode数据目录中是否有足够的磁盘空间。更复杂的运行状况测试可以评估何时将HDFS的上一个检查点与阈值进行比较或数据节点是否连接到NameNode。还有一些运行状况测试可以汇总其他的运行状况测试:在HDFS中,有几个DataNode关闭是正常的(假设你有几十个节点),你可以设置一个阈值说明百分之多少个节点挂了才表明整个服务挂掉。

运行状况测试返回三个结果:良好(Good),存在隐患(Concerning)和不良(Bad)。如果测试低于警告阈值(warning threshold),则返回存在隐患(Concerning)。如果测试低于临界阈值(critical threshold),则返回不良(Bad)。服务或角色实例的整体运行状况是其运行状况测试的汇总。如果任何运行状况测试是存在隐患(但没有一个是不良),角色或者服务的运行状况就是存在隐患(Concerning)。如果任何运行状况测试是不良,则该服务或角色的运行状况就是不良(Bad)。

在Cloudera Manager的界面上,运行状况测试有3种不同的图标代表:良好(Good)

,存在隐患(Concerning)

,不良(Bad)

有以下两种运行状况测试:

1.通过-失败测试(Pass-fail tests),有以下两种:

代码语言:txt
复制
1) 有yes-no两个值。例如,服务或角色是否按预期启动,DataNode是否连接到其NameNode,或NodeManager被或未被列入黑名单。
代码语言:txt
复制
2)    做一些轻量级的测试确保服务正常运行并能响应请求。HDFS(NameNode角色),HBase和ZooKeeper服务会被执行这些测试,称为“canary”测试。

以上两种通过-失败测试(Pass-fail tests)会导致运行状况测试的结果为良好(Good)或不良(Bad)。

2.指标测试 - 将测试的属性值与阈值进行比较。例如,正在使用的文件描述符(file descriptors)的数量,可用或剩余的磁盘空间,GC花费多少时间,或者在前15分钟内有多少页面被交换到磁盘。通过测试得到的值与阈值进行比较来判断是否一切良好(Good),比如,是否有足够的磁盘空间,是存在隐患(Concerning)(磁盘空间变低),还是不良(Bad)(极低磁盘空间量)。

默认情况下,大多数运行状况测试都会启用,并被配置了合适的阈值。你可以通过编辑“配置”页面的监控属性来修改阈值。也可以启用或禁用单个或汇总的运行状况测试,或者指定需要哪些服务,角色实例和主机的运行状况测试。

2.查看运行状况测试结果


运行状况测试可以在以下几个地方进行查看:

1.“主页>状态”页面,是各个服务和角色的整体运行状况健康程度。角色或服务的整体健康状况是运行状况测试的一个汇总;如果任何运行状况测试是不良(Bad),则服务或者角色的状态就是不良(Bad)。如果任何运行状况测试是存在隐患(Concerning)(没有任何一项是不良(Bad)),则角色或者服务的状况就是存在隐患(Concerning)。

2.“主机”页面,显示所有主机的汇总结果。

3.进入单个服务,角色或主机页面,通过“运行状况测试”面板可以查看你选择的单个服务,角色实例或主机的健康状态。

4.“主页>所有运行状况问题”,可以查看所有运行状况问题,你可以“按实体组织”或“按运行状况检查组织”排序。

对于某些运行状况测试结果,你可以使用自定义图表功能绘制一段时间范围内的关联指标。

3.抑制运行状况测试结果


当运行状况测试结果显示集群中存在问题时,Cloudera Manager会显示警告。有些警告不一定指向集群真正的根源问题,或者是预期的警告问题。你可以在Cloudera Manager中抑制显示这些警告。

在运行状况测试警告出现时,或者在运行测试前,你都可以抑制运行状况警告。抑制的运行状况测试隐藏在Cloudera Manager中,它们的状态不会影响服务,主机或角色实例显示的运行状况测试的汇总。(如果你的集群由Multi Cloudera Manager Dashboard监控,那么显示的运行状况测试的汇总也不受抑制警告的影响。)抑制的运行状况测试警告在Cloudera Manager中保持可用,并且测试继续运行,但结果被隐藏。 你可以随时取消抑制健康测试。

注1:Multi Cloudera Manager Dashboard是由一个Cloudera Manager同时监控由多个Cloudera Manager汇总上来的监控数据。

注2:抑制运行状况测试与禁用运行状况测试不同。禁用的运行状况测试永远不会运行,而受抑制的运行状况测试仍旧会运行,只是其结果是隐藏的。

3.1.抑制运行状况测试


1.进入你想要抑制的运行状况。参考第二章:查看运行状况测试结果。

2.点击“抑制…”按钮,一般在运行状况描述的右边。

在弹出的对话框中输入你要抑制的备注。

3.点击确认,状态会变为“正在抑制…”

成功后,刷新页面,将再看不到警告。

3.2.管理抑制运行状况测试


1.当你按照3.1的操作抑制了某一项后,你可以在“所有运行状况问题”页面看到“显示抑制的测试”的链接

2.点击显示查看,你可以查看所有已抑制的测试,点击“解除抑制”可以不再抑制某一项。

3.或者你可以继续“隐藏被抑制的测试”

注:对于这个功能,Fayson开始采用Kudu进行抑制测试,“显示抑制的测试”的链接并没有出现在这个页面上,换了HBase服务进行测试才通过。说明CM对于新产品Kudu的集成使用有一些小问题,应该属于bug。不过你依旧可以从下面章节3.4中查看所有被抑制的项目。Fayson的环境是5.13.1

3.3.在运行状况测试之前配置抑制


1.进入一个服务或者主机的页面,你想要抑制运行状况测试的。这里我们以HBase服务为例。

2.进入配置页面

3.切换到经典布局

4.在左边的目录中找到抑制,并点击。

选择你想要抑制的项目,然后勾上后点击“保存更改”即完成配置。

3.4.查看抑制的运行状况测试列表


1.“配置”->“已抑制运行状况和配置问题”查看所有你抑制的检查项。

2.可以看到抑制的运行状况测试的列表

如果这里项目比较多,可以选择左边菜单的“非默认”删选一次,或者在搜索栏里搜搜。

3.5.解除抑制运行状况测试


1.参见3.2章节“管理抑制运行状况测试”章节,你可以选择“解除抑制”。

2.参考3.4章节“查看抑制的运行状况测试列表”,通过取消勾选某一项,然后点击保存来解除抑制。

参考:

https://www.cloudera.com/documentation/enterprise/latest/topics/cm_dg_health.html

提示:代码块部分可以左右滑动查看噢 为天地立心,为生民立命,为往圣继绝学,为万世开太平。 温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。

推荐关注Hadoop实操,第一时间,分享更多Hadoop干货,欢迎转发和分享。

原创文章,欢迎转载,转载请注明:转载自微信公众号Hadoop实操

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-03-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Hadoop实操 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档