提交Google Dataproc Hadoop作业时找不到Hadoop流jar？

当您在Google Dataproc上提交Hadoop作业时遇到找不到Hadoop流jar的问题，这通常是由于环境配置或路径设置不正确导致的。以下是解决此问题的详细步骤和相关概念解释。

基础概念

Hadoop流jar：这是一个用于支持Hadoop Streaming的jar文件，允许用户使用任何可执行文件或脚本作为Mapper和Reducer。它通常位于Hadoop安装目录的share/hadoop/tools/lib下。

可能的原因

路径配置错误：Hadoop流jar的路径没有正确设置。
环境变量未更新：Hadoop相关的环境变量（如HADOOP_HOME）可能未正确配置。
集群配置问题：Dataproc集群可能未正确安装或配置Hadoop流jar。

解决方案

1. 确认Hadoop流jar的位置

首先，确认Hadoop流jar文件的确切位置。通常，它位于：

$HADOOP_HOME/share/hadoop/tools/lib/hadoop-streaming-*.jar

2. 设置正确的路径

在提交作业时，显式指定Hadoop流jar的路径。例如，使用gcloud命令行工具提交作业时，可以这样指定：

gcloud dataproc jobs submit hadoop \
    --cluster=my-cluster \
    --region=us-central1 \
    --jar=/path/to/hadoop-streaming-*.jar \
    -- \
    -input /user/input \
    -output /user/output \
    -mapper my_mapper.py \
    -reducer my_reducer.py

3. 更新环境变量

确保Hadoop相关的环境变量在你的环境中是正确的。例如，在提交作业的脚本中添加：

export HADOOP_HOME=/path/to/hadoop
export PATH=$PATH:$HADOOP_HOME/bin

4. 检查Dataproc集群配置

如果上述步骤都不奏效，可能是Dataproc集群本身的配置问题。可以尝试重新创建集群或检查集群的初始化脚本是否正确安装了所有必要的Hadoop组件。

示例代码

以下是一个简单的Python脚本示例，用于在本地环境中设置Hadoop路径并提交作业：

import os

# 设置Hadoop路径
os.environ['HADOOP_HOME'] = '/usr/lib/hadoop'
os.environ['PATH'] += os.pathsep + os.path.join(os.environ['HADOOP_HOME'], 'bin')

# 提交作业的命令
submit_command = """
gcloud dataproc jobs submit hadoop \
    --cluster=my-cluster \
    --region=us-central1 \
    --jar=/usr/lib/hadoop/share/hadoop/tools/lib/hadoop-streaming-*.jar \
    -- \
    -input gs://my-bucket/input \
    -output gs://my-bucket/output \
    -mapper my_mapper.py \
    -reducer my_reducer.py
"""

# 执行命令
os.system(submit_command)