我试图在python的dumbo包的帮助下,从hadoop的序列文件中获取文件名。但它为我提供了某种标识。如何将此映射到文件名?下面是我在hadoop系统上获取文件名的步骤:指挥:
hadoop jar /mnt/Clustering/Checking/AllJars/binarypig-1.0-SNAPSHOT-jar-w
我有一个mapper.py reducer.py和helper.py,还有一个包。基本上,我的mapper.py将调用helper.py,而helper.py将为包中的模块(一堆python文件)导入。
当我运行hadoop作业时,我的命令应该是什么?这是我正在使用的输入:hadoop jar /usr/lib/hadoop-0.20/contrib/streaming/hadoop-streaming-0.2
(ReflectionUtils.java:113) at org.apache.hadoop.hive.ql.exec.FunctionRegistry.registerGenericUDTF(FunctionRegistry.java:539)
at org.apache.hadoop.hive.ql.exec.Func