默认情况下，yarn:yarn.log-aggregation-enable设置为true，而yarn:yarn.nodemanager.remote-app-log-dir设置为Dataproc 1.5+上的gs://<cluster-tmp-bucket>/<cluster-uuid>/yarn-logs，因此在GCS dir中聚合纱线容器日志，但可以用

gcloud dataproc clusters create ... \
  --properties yarn:yarn.nodemanager.remote-app-log-dir=<gcs-dir>

或将集群的tmp桶更新为

gcloud dataproc clusters create ... --temp-bucket <bucket>

请注意，

如果您的

作业处于client模式(默认值)，那么Spark驱动程序将在主节点上运行，而不是在纱线中运行，驱动程序日志存储在Dataproc生成的作业属性driverOutputResourceUri中，该属性属性是集群的暂存桶中的一个特定于作业的文件夹。否则，在集群模式下，火花驱动程序在纱线中运行，驱动程序日志是纱线容器日志，并按照上面的描述进行聚合。

如果要禁用群集的云日志记录，请设置

，设置dataproc:dataproc.logging.stackdriver.enable=false。但请注意，它将禁用所有类型的云日志记录，包括纱线容器日志、启动日志和服务日志。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/74065164

复制

相似问题

问Dataproc: PySpark登录到GCS桶
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Dataproc: PySpark登录到GCS桶EN