首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用Hadoop流管理依赖项?

使用Hadoop流管理依赖项?
EN

Stack Overflow用户
提问于 2010-05-19 09:46:32
回答 2查看 1K关注 0票数 0

我有一个简单的Hadoop流媒体问题。如果我正在使用Python流,并且我的映射器/缩减程序需要Python包,但默认情况下没有安装,我是否需要在所有Hadoop机器上也安装这些包,或者是否有某种序列化将它们发送到远程机器?

EN

Stack Overflow用户

回答已采纳

发布于 2010-05-20 06:44:17

如果它们未安装在任务框中,则可以随-file一起发送。如果您需要一个包或其他目录结构,您可以发送一个zipfile,它将为您解压缩。下面是一个Haddop 0.17调用:

代码语言:javascript
复制
$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/contrib/streaming/hadoop-0.17.0-streaming.jar -mapper mapper.py -reducer reducer.py -input input/foo -output output -file /tmp/foo.py -file /tmp/lib.zip

但是,请参阅此问题以获得警告:

https://issues.apache.org/jira/browse/MAPREDUCE-596

票数 2
EN
查看全部 2 条回答
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/2862345

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档