前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >VMware SDDC 分析工具介绍----第一篇

VMware SDDC 分析工具介绍----第一篇

作者头像
魏新宇
发布2018-03-22 11:40:24
1.5K0
发布2018-03-22 11:40:24
举报

在接下来的一段时间,笔者会分享VMware SDDC体系架构中分析工具,vROps和LogInsight。由于篇幅有限,我会以连载的方式,先介绍vROps(预计会有三篇),再介绍Log Insight。

分析工具用于分析数据。谈到数据的类型,可以分为结构化数据和非结构化数据。在VMware的SDDC解决方案中,两种数据我们都有相应的分析方法。针对与结构化数据,主要指的是虚拟化环境中的:性能、告警、事件类的信息,通过vROps与vCenter进行通讯进行收集,经过分析后,用报表的形式展示给用户。对于非结构化数据,主要指的是日志,使用LogInsight与vCenter进行通讯,收集信息,然后进行智能化分析,方便用户查看和追溯。本篇我先介绍vROps。

一. vROps是什么

vROps全称是vRealize Operations Manager。谈到vROps是什么,相当多的人第一反应它是一个监控工具,其实这样说并不十分准确。

严格来讲,vROps是一个分析工具,vROps中展示的所有和虚拟化相关的数据,都来自于vCenter。其实,vCenter才是分析工具。这也是很多客户问过我的问题:vCenter本身已经可以对虚拟机监控,还要vROps干什么。

我举个例子,如果将vCenter监控到的信息,比作我们体检的时候,每个体检项的具体指标和结果(总之非医科人员看不懂),那么vROps所展示的,就是最终体检报告首页的体检结果总结和医生的建议。因此,vROps真正的意义在于,可以直观地向IT管理员展现生产环境中所有虚拟机的运行情况,并且给出相应的建议。因此,vROps节省的是运维管理成本,并且保证分析的过程是标准化的。

二. vROps的衡量指标

衡量一个对象(如虚拟机)的运行情况,vROps有三大指标:运行情况(或健康)、风险、效率。同时用不同的颜色表示此项指标的状态。分为四个颜色:绿色、黄色、橘黄色、红色颜色越深,问题越大。

三大指标并不是vROps拍脑袋拍出来的,而是每个指标有其子指标,几个子指标共同决定了这个大指标的状态。子指标一共有9个,加上大的指标,一共13个。正是这13个指标,共同决定了对象在vROps中的表现。

与“运行情况”或“健康”相关的子指标有:

工作负载、异常、故障(下图前三个)

(1)工作负载

(2)异常

(3)故障

与“风险”相关的子指标有:

剩余容量、剩余时间、压力、合规性。

(1)剩余容量

(2)剩余时间

(3)压力

(4)合规性

与“效率”相关的子指标有:

可回收容量、密度。

(1)可回收容量

(2)密度

三. vROps的架构

vROps 6之前的版本的名字是vCenter Operations Manager,简称vCOps。vCOps的架构是两个虚拟机,一个做分析用,一个做UI用。UI是我们实际登陆vCOps Web的界面。

下图是vCenter中,vCOps的两个虚拟机。

vROps6的架构发生了较大的变化,不再使用分析和UI两个虚拟机,合并成一个。

为了保证vROps的高可用,可以将vROps配置成集群模式。需要注意的是,集群模式不是必须的,非集群模式,一个虚拟机就可以完成所有的工作。在安装vROps的appliance的时候,vROps虚拟机的配置(CPU,内存,磁盘)会根据我们选的虚拟化规模而不同。

vROps的一个集群最多有四个角色,可以配置四个虚拟机,分别为:

  • Master / Master Replica
  • Data Node
  • Remote Collector

其中Master和Replica是主备两个节点,负责vROps的主要工作。两个节点的信息是同步的,当Master节点出现故障,Replica将会变成Master,继续提供服务。当Master修复以后,变成Master的节点将会再度变回Replica。

Data Node:

数据节点主要的工作是:负责收集和处理数据。如果有Remote Collector的的话,数据收集工作则由Remote Collector完成。

Remote Collector:

Remote Collector的作用主要是:收集数据并且把它们提交给Data Node。

在试验中,笔者配置了vROps 四个节点的集群:

在集群中,我们可以手工地在集群中做再平衡操作(平均分配负载):

四. 阀值的问题

我们知道,对于监控和分析系统而言,阀值或者说基线很重要。大多数监控工具采用的都是静态阀值,而vROps采用的是动态阀值。那么采用动态阀值的意义是什么?

我举个例子,大家就明白了。用北京地铁13号线的容积率举例:早晚高峰的时候,很多人坐地铁。在那个时候,基本上爆满,如果用容积率去衡量,90%比较合适,也就是告警的基线。而到中午非高峰期,我们做地铁,或许还有座,在这个时候,容积率假定40%比较合适。因此,如果我们做一套监控系统来监控13号线的容积率,那么早晚高峰和中午的阀值一定是不同的。否则,以90%作为基准,那么该监控系统基本不会告警,如果以40%作为基线,那么该系统将会频频告警。

我大致解释一下vROps动态阀值产生的原理:vROps部署以后,它会先用一周的时间收集对象的数据,然后花三周时间进行修正,由此得到了基线。因此,如果客户要将vROps投入生产使用,必须要在正式使用一个月前部署好,开始监控虚拟化对象。

五. 自定义部分

vROps6相对于vCOps的进步,在于有很多地方客户可以自定义。我们可以自定义症状、自定义建议、自定义警报、自定义报告、自定义仪表盘等等。

实际上,在vROps中,能自定义的部分很多,但需要注意的是,行动是不能自定义的。但我们可以将行动和建议绑定在一起。

在下面的案例中,我将展示一个创建告警的完整记录。即:

创建两个症状=》创建一个建议,并将建议关联一个行动=》创建一个警报,包含之前创建的症状和建议。==》触发和查看警报。

实际上,我创建的这个警报包含两个症状:1.虚拟机Demand的CPU大于60%的时候。同时2. Demand CPU大于70%。两个症状都满足的时候,触发警报,并且给出的建议将是:增加虚拟机CPU的数量。

(1)自定义一个症状:

当虚拟机Demand的CPU大于60%的时候触发,它叫“WXY medium cpu demand”

定义好以后,我们发现会有虚拟机触发这个症状。

需要注意的是,此时,WXY medium cpu demand还只是个症状,还没有告警与他关联。因此在alerts中还看不到相关的信息。

(2)创建第二个症状

创建一个,当Host Demand CPU大于70%的时候触发的症状。

(3)创建一个建议

创建一个建议,并且与已有的Actions相关联。此处我创建了两个建议,第二个是“增加虚拟机CPU数量”,创建方法与第一个相同,就不再重复粘贴了。后面步骤实际上用的第二个建议。读者请勿疑惑。

(4)创建一个警报

一个警报可以包含多个征兆。

对象选择虚拟机:

定义警报的级别和位置,需要注意的是,此处选的位置是“运行情况"/“健康”:

选择对应的症状,此处的症状,就是我最开始创建的两个:

此处选择建议,也是我事先创建好的。

截止到此时,告警已经创建好。

(5)查看告警

我们可以看到,告警被触发,并且出现在健康(此前设置的位置)的项目下。

这样,一个完整的警报就创建好了,是不是很神奇,很好用?

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2015-12-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大魏分享 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
腾讯云 BI
腾讯云 BI(Business Intelligence,BI)提供从数据源接入、数据建模到数据可视化分析全流程的BI能力,帮助经营者快速获取决策数据依据。系统采用敏捷自助式设计,使用者仅需通过简单拖拽即可完成原本复杂的报表开发过程,并支持报表的分享、推送等企业协作场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档