前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >0747-5.16.2-YARN日志聚合目录说明

0747-5.16.2-YARN日志聚合目录说明

作者头像
Fayson
发布2020-02-18 15:57:32
3.2K0
发布2020-02-18 15:57:32
举报
文章被收录于专栏:Hadoop实操

作者:朱超杰

文档编写目的

日志聚合是YARN提供的日志集中化管理功能,它能将运行完成的Container任务日志上传到HDFS上,从而减轻NodeManager负载,且提供一个集中式存储和分析机制。默认情况下,Container任务日志存在在各个NodeManager上,如果启用日志聚集功能需要额外的配置。本文需要介绍的yarn.nodemanager.remote-app-log-dir配置是当应用程序运行结束后,日志被转移到的HDFS目录,默认是/tmp/logs。本文将模拟修改该目录,然后又将其修改回默认。

  • 测试环境

1.CM和CDH版本均为5.16.2

2.集群正常运行

3.采用管理员用户登录CM

4.集群未启用Kerberos安全认证

问题重现

2.1 默认配置下的MR日志

1.集群当前运行正常

2.未修改配置前,YARN的yarn.nodemanager.remote-app-log-dir默认配置路径为/tmp/logs

3.查看/tmp/logs目录属性如下:属主为mapred,属组为hadoop,目录权限为777。

代码语言:javascript
复制
hdfs dfs -ls /tmp/

4.执行MR作业测试,可以正常执行

代码语言:javascript
复制
hadoop jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar pi 5 5

5.查看作业日志,日志可以正常查看

2.2 YARN配置修改后的日志

1.查看当前HDFS上不存在/data0/tmp/logs目录

代码语言:javascript
复制
hdfs dfs -ls /
hdfs dfs -ls /data0/tmp/logs

2.修改YARN的yarn.nodemanager.remote-app-log-dir配置为/data0/tmp/logs。然后保存更改,按照提示重启YARN服务。

3.配置修改后集群运行正常

4.执行MR作业测试

代码语言:javascript
复制
hadoop jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar pi 5 5

如上所示,MR作业可以正常执行

5.查看作业日志

如上所示,无法正常查看日志。提示:

代码语言:javascript
复制
Logs not available for job_1581405002681_0001.Aggregation may not be complete, Check back later or try the nodemanager athadoop03.focus.com:8041
Or see application log athttp://hadoop03.focus.com:8041/node/application/application_1581405002681_0001

问题解决

3.1 方式一:自动创建日志目录

1.通过CM进入YARN服务界面,然后选择【创建NodeManager远程应用程序日志目录】。

2.执行上述操作后会在HDFS上生成/data/tmp/logs目录,并且属主:属组为mapred:hadoop,目录权限为1777

代码语言:javascript
复制
hdfs dfs -ls /
hdfs dfs -ls /data/tmp

3.执行MR作业

代码语言:javascript
复制
hadoop jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar pi 5 5

4.查看作业日志

如上所示,日志已被聚合到HDFS,可以正常查看

3.2 方式二:手动创建日志目录

1.在HDFS上创建/data/tmp/logs目录

代码语言:javascript
复制
sudo -u hdfs hdfs dfs -mkdir -p /data/tmp/logs
hdfs dfs -ls /
hdfs dfs -ls /data/tmp/

2.修改/data0/tmp/logs目录的属主和属组为mapred:hadoop

代码语言:javascript
复制
sudo -u hdfs hdfs dfs -chown mapred:hadoop /data/tmp/logs
hdfs dfs -ls /data/tmp/

3.修改/data0/tmp/logs目录访问权限为1777

代码语言:javascript
复制
sudo -u hdfs hdfs dfs -chmod 1777 /data/tmp/logs
hdfs dfs -ls /data/tmp/

4.执行MR作业测试,作业正常执行

代码语言:javascript
复制
hadoop jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar pi 5 5

5.查看作业日志

如上所示,MR作业日志可以正常查看。

3.3 方式三:修改回默认目录/tmp/logs

1.修改yarn.nodemanager.remote-app-log-dir参数配置为默认目录/tmp/logs。保存后根据提示重启相关服务

2.执行MR测试

代码语言:javascript
复制
hadoop jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar pi 5 5

MR作业正常执行

3.查看作业日志

注意:无论是哪一种解决方式,对于无法查看日志的作业仍然无法查看,只能通过命令行的形式在本地查看。如下所示:

在hadoop03节点上查看本地日志

代码语言:javascript
复制
cd /data0/yarn/container-logs/
ll
ll application_1581405002681_0001/
ll application_1581405002681_0001/container_1581405002681_0001_01_000003/

如上所示,作业job_1581319903607_0001的本地日志(每个NodeManager节点上都存在一部分)仍然在本地存在,未被聚合到HDFS,因此在HistoryServer Web UI上仍然无法查看该作业日志。

总结

1.在HistoryServer Web UI上查看YARN的历史作业日志需要开启日志聚合功能,即设置yarn.log-aggregation-enable参数为true。当任务运行结束后,YARN会把appmaster container任务的日志都上传到HDFS的地址中;每个用户的作业在/tmp/logs下都有自己用户名对应的日志;比如,root用户其作业在HDFS上日志路径为/tmp/logs/root/logs/。

2.YARN的yarn.nodemanager.remote-app-log-dir参数:应用程序运行结束后,日志被转移到的HDFS目录(启用日志聚集功能时有效),默认为HDFS上的/tmp/logs

目录。配置该参数时,如果其修改目录不存在,则需要执行YARN服务界面的【创建NodeManager远程应用程序日志目录】操作自动创建目录或者手动创建属主:属组为mapred:hadoop,权限设置为1777的HDFS目录;如果HDFS上该目录已存在,但是由于目录权限或属主问题导致无法查看日志,此时只能手动修改该目录权限和属主,不能通过YARN服务界面的【创建NodeManager远程应用程序日志目录】操作来修改属主和权限。

3.由于启了日志聚合功能(yarn.log-aggregation-enable),对于所有的MR作业,在作业执行完毕后会将本地日志聚合到HDFS上指定目录,在日志聚合完毕后会自动删除本地日志。此时参数yarn.nodemanager.log.retain-seconds所设置的本地日志保留时间是不生效的。

4.对于未被聚合到HDFS上的YARN作业日志,日志存储在yarn.nodemanager.log-dirs参数所配置的目录(每个NodeManager节点上都存在),只能通过命令行的形式在本地查看日志信息。并且本地日志不会被删除,只能手动定期清理。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-02-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Hadoop实操 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
专用宿主机
专用宿主机(CVM Dedicated Host,CDH)提供用户独享的物理服务器资源,满足您资源独享、资源物理隔离、安全、合规需求。专用宿主机搭载了腾讯云虚拟化系统,购买之后,您可在其上灵活创建、管理多个自定义规格的云服务器实例,自主规划物理资源的使用。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档