本章描述如何解决HAWQ系统中常见的错误和问题。
问题:查询慢。
原因:一个查询执行缓慢可能有多个原因。例如,数据分布的位置,虚拟段的数量,查询使用的主机数量等都可能影响查询性能。以下过程描述如何排查查询性能问题。
一个查询不像预期执行的那么快。以下是如何调查慢的可能原因。
问题:HAWQ资源管理器拒绝了查询的资源分配请求。
原因:出现以下情况时,HAWQ资源管理器拒绝查询的资源分配请求:
解决方案:检查集群中节点的状态。如果有必要,重启或新增节点。修改hawq_rm_nvseg_variance_amon_seg_limit(尽管这会影响查询性能)。
问题:使用太多虚拟内存的特定查询被取消。实例错误消息:
ERROR: Canceling query because of high VMEM usage. Used: 1748MB, available 480MB, red zone: 9216MB (runaway_cleaner.c:135) (seg74 bcn-w3:5532 pid=33619) (dispatcher.c:1681)
原因:当一个段上虚拟内存的使用超过了由runaway_detector_activation_percent配置的虚拟内存百分比阈值,就会发生此错误。
如果一个物理段使用的虚拟内存总量超过计算阈值,HAWQ开始基于内存使用终止查询,从消耗最大内存量的查询开始。直到虚拟内存使用低于指定的百分比才停止对查询的终止。
解决方案:临时加大hawq_re_memory_overcommit_max的值,允许特性查询无误运行。
检查pg_log文件,得到会话和QE进程使用内存的更多细节。HAWQ记录查询终止信息,如内存分配历史、上下文信息,以及查询计划操作符的内存使用信息。这些信息被发送到master和segment实例的日志文件中。
问题:段启动成功,但没有出现在gp_segment_configuration表中。
原因:你的段可能分配了相同的IP地址。
有些软件和项目具有使用自动配置IP地址的虚拟网卡。这可能引起HAWQ的段获得相同的IP地址。资源管理器的容错服务组件只能识别具有相同IP地址的段中的一个。
解决方案:启动HAWQ集群前,修改网络配置,禁止IP地址相同。
问题:HAWQ容错服务(fault tolerance service,FTS)在gp_segment_configuration目录表中标记一个段为down。
原因:当段碰到严重错误时,FTS标记该段为down。例如,因为硬件问题导致段上的临时目录失效。其它原因可能包括网络或通信错误、资源管理器错误,或简单的心跳超时等。段通过心跳报告向主节点报告一个严重故障。
解决方案:依赖于不同的原因,需要存取不同的恢复操作。有些情况下,段仅仅是被临时标记为down,直到心跳周期再次检查段的状态。为了调查段被标记为down的原因,从gp_configuration_history目录表查找对应的原因。容错服务将段标记为down的各种原因,参见Viewing the Current Status of a Segment的描述。
不同HAWQ资源队列的虚拟段资源限额可以不同,由此可能导致资源碎片。例如,一个HAWQ集群有4GB内存可用于当前排队的查询,但是资源队列被配置为在4个不同的段上分裂成四个512MB的内存块。它不可能分配两个1GB内存的虚拟段。
在独立资源模式中,所有段资源为HAWQ所独占。当段的配额不是虚拟段资源限额的倍数时,就可能出现资源碎片。例如,一个段有15GB的内存配额,但是虚拟段资源限额设置成2GB。一个段最多可以消耗14GB内存。因此,你应该配置段的资源配额为所有虚拟段资源限额的倍数。
YARN模式里,资源从YARN资源管理器分配。HAWQ资源管理器通过一个vcore获得一个YARN容器。例如,如果YARN报告一个段为YARN应用配置了64GB内存和16个vcore,HAWQ通过4GB内存和1个vcore请求YARN容器。照此方法,HAWQ资源管理器按需获取YARN容器。如果YARN容器的配额不是虚拟段资源限额的倍数,可能发生资源碎片。例如,YARN容器的资源配额为3GB内存和1个vcore,每个段可以有1个或3个YARN容器用于HAWQ执行查询。在这种情况下,如果虚拟段的资源限额为2GB内存,那么HAWQ总有1GB内存不能利用。因此,推荐仔细配置YARN模式的资源配额,使YARN容器资源限额是所有虚拟段资源限额的倍数。另外,确认你的CPU、内存比率是yarn.scheduler.minimum-allocation-mb配置的倍数。更多信息参见Setting HAWQ Segment Resource Capacity in YARN。
如果出现资源碎片,排队的请求不被处理,直到一些运行的查询返还资源,或者全局资源管理器提供了更多的资源。如果你碰到资源碎片,你应该检查资源队列设置的配额,找到为任何错误的配置。例如,可能的一个错误是,全局资源容器的内存核数比率,不是虚拟段资源限额的倍数。