如果发现任务延迟较大,可通过以下步骤进行自助排查和解决。
第一步:确定任务是否存在异常
查看作业的关键事件。首先选择最近一段时间,查看作业运行失败/快照失败等事件,如果存在作业失败,可以展开查看失败原因,需要查看更多信息,则可以复制异常事件的关键字到下一步查看详细日志信息。如没有运行失败/快照失败等异常事件,则跳转到第三步。

第二步:确定异常事件或者其他异常日志
在运行日志页面,首选选择时间段,查看是否有相关 ERROR/WARN 级别的异常日志。也可以根据关键事件中的关键字或者其他关键字进行搜索,找到异常日志信息,确定任务异常原因。

第三步:确定读写性能是否有瓶颈
查看反压指标,如果指标超过60%说明目标端有瓶颈。可以查看目标端数据库是否负载过高,如果目标端负载过高,需要目标端数据库进行排查;如果目标端负载正常或者反压指标不超过60%,则进一步查看任务的资源指标是否负载较高,如果负载较高则需要调整 TM 的并发数或者规格。
进入统计指标 > 读写指标:

查看反压指标:

第四步:确定是否任务资源分配不足
查看 TM 和 JM 的 CPU 和内存相关监控信息。如果负载较高,则需要扩容任务的资源。

如果负载不高,则进一步查看快照生成是否正常。checkpoint 耗时一般小于快照间隔的30%。例如 checkpoint 间隔是1min,则 checkpoint 耗时一般在20秒以内,超过20秒则可能存在异常,此时尝试增加任务配置的资源或者调大快照间隔。

第五步:使用高级参数进行性能调优
如果以上内容均正常,可以使用源端和目标端的高级参数控制读写频次等,进一步提升性能。