在运行这个sqoop导入命令时
sqoop import --connect jdbc:mysql://localhost/training --username training --password training --table cityByCountry
论cloudera VM 4.1.1
mapreduce作业被打印在终端mapreduce.Job中的最后一行卡住:正在运行的作业: job_1450451392672_0001
15/12/17 10:41:55 INFO mapreduce.Job:用于跟踪作业的url: 15/12/17 10:41:55 INFO mapre
在独立模式下运行hadoop时,Eclipse的远程调试没有问题。但是,当我在伪分布式模式下运行hadoop时,它不起作用。下面是我如何在伪分布式模式下尝试使用hadoop进行eclipse远程调试:
我在hadoop脚本中添加一行代码,如下所示:
#added this line to enable remote debugging
HADOOP_OPTS="$HADOOP_OPTS -agentlib:jdwp=transport=dt_socket,server=y,suspend=y,address=5000"
# run it
exec "$JAVA"
我正在尝试用eclispe调试我的mapreduce程序。我将export HADOOP_OPTS="-agentlib:jdwp=transport=dt_socket,server=y,suspend=y,address=5002"放在hadoop-env.sh中,并在本地主机的5002端口上配置了eclipse以进行远程调试。
它在main中开始调试很好,但是当涉及到job.waitForCompletion(true);时,它在一个新文件JobSubmitter.class中失败,该文件说:
Source not found
The JAR file /home/hdu
Im new to Hadoop. I setting up a hadoop-cluster with 1 Master and 3 Slaves. Everything is working fine so far. If I start a MapReduce Job the output folder isnt set like do命令说
hadoop jar TestApp.jar /hdfs/input /hdfs/output
但是在/hdfs/中没有输出目录,它在/user/hduser/hdfs/output中,我无法获得作业的结果。
有人能解释一下吗?
曼纽尔
我一直试图使用Java在HDFS上创建和维护序列文件,而不运行MapReduce作业作为未来MapReduce作业的设置。我希望将MapReduce作业的所有输入数据存储在一个序列文件中,但是这些数据会在一天中随时间增加。问题是,如果存在SequenceFile,下面的调用将只是覆盖SequenceFile,而不是附加到它。
// fs and conf are set up for HDFS, not as a LocalFileSystem
seqWriter = SequenceFile.createWriter(fs, conf, new Path(hdfsPath),
当我提交星火作业时,我使用星火-提交与主纱和部署模式集群,它不打印/返回任何applicationId,一旦作业完成,我必须手动检查MapReduce jobHistory或火花HistoryServer,以获得工作细节。
我的集群被许多用户使用,需要很多时间才能发现我在职务历史/历史服务器中的工作。
有任何方法来配置spark-submit以返回applicationId吗?
注意:我发现了许多类似的问题,但是它们的解决方案使用sparkcontext.applicationId在驱动程序代码中检索sparkcontext.applicationId,如果是master yarn and d
我尝试在mapreduce中提交远程作业,但得到错误1。我甚至在远程hadoop中的hdfs-site.xml中设置了内容2,并更改了权限3,但问题仍然存在。
客户端为xeon,超级用户为xubuntu。
如何添加远程用户权限以在mapreduce中提交?我如何为至强设置一个组?
1
2015-04-23 05:57:35,648 WARN org.apache.hadoop.security.UserGroupInformation: No groups available for user xeon
2
<property>
<name>dfs.web.ug
我最近升级到了clodera4b1 .Before upgraded作业运行得很好,但现在当我执行任何mapreduce程序时,出现以下错误:
命令运行:
hadoop jar /usr/lib/hadoop/hadoop-mapreduce-examples-0.23.0-cdh4b1.jar grep *.xml /user/out/ 'dfs'
12/04/10 19:23:15 INFO mapreduce.Cluster: Failed to use org.apache.hadoop.mapred.LocalClientProtocolProvider due