我有一个简单的Hadoop流媒体问题。如果我正在使用Python流,并且我的映射器/缩减程序需要Python包,但默认情况下没有安装,我是否需要在所有Hadoop机器上也安装这些包,或者是否有某种序列化将它们发送到远程机器?
发布于 2010-05-20 06:44:17
如果它们未安装在任务框中,则可以随-file一起发送。如果您需要一个包或其他目录结构,您可以发送一个zipfile,它将为您解压缩。下面是一个Haddop 0.17调用:
$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/contrib/streaming/hadoop-0.17.0-streaming.jar -mapper mapper.py -reducer reducer.py -input input/foo -output output -file /tmp/foo.py -file /tmp/lib.zip但是,请参阅此问题以获得警告:
https://stackoverflow.com/questions/2862345
复制相似问题