问使用Sequencefile的Hadoop流非常慢
EN

Stack Overflow用户

提问于 2018-05-30 19:27:47

回答 1查看 314关注 0票数 0

我有一个使用python的hadoop流任务。它起作用了，但32个映射器中有一个非常慢。我认为问题是某种数据倾斜，但我不知道问题在哪里。

这是hadoop任务日志，第一个映射器非常非常慢。

task_1520332877638_567306_m_000000      Records R/W=11327/11207 > map
task_1520332877638_567306_m_000001      Records R/W=786/783
task_1520332877638_567306_m_000002      Records R/W=854/851
task_1520332877638_567306_m_000003      Records R/W=850/847
task_1520332877638_567306_m_000004      Records R/W=812/809
task_1520332877638_567306_m_000005      Records R/W=802/799
task_1520332877638_567306_m_000006      Records R/W=854/851
task_1520332877638_567306_m_000007      Records R/W=822/819
task_1520332877638_567306_m_000008      Records R/W=888/885
task_1520332877638_567306_m_000009      Records R/W=1030/871
task_1520332877638_567306_m_000010      Records R/W=894/891
task_1520332877638_567306_m_000011      Records R/W=850/847
task_1520332877638_567306_m_000012      Records R/W=832/829
task_1520332877638_567306_m_000013      Records R/W=804/801
task_1520332877638_567306_m_000014      Records R/W=838/835
task_1520332877638_567306_m_000015      Records R/W=856/853
task_1520332877638_567306_m_000016      Records R/W=852/849
task_1520332877638_567306_m_000017      Records R/W=884/881
task_1520332877638_567306_m_000018      Records R/W=928/925
task_1520332877638_567306_m_000019      Records R/W=896/893

作业命令:如果启用投机性执行，它也会非常慢。

hadoop jar \
     /usr/local/hadoop/hadoop-2.6.0-EDH-0u1-SNAPSHOT-HA-SECURITY/share/hadoop/tools/lib/hadoop-streaming-2.6.0-EDH-0u1-SNAPSHOT.jar \
    -D stream.map.input=typedbytes \
    -D stream.map.output=typedbytes \
    -D stream.reduce.input=typedbytes \
    -D stream.reduce.output=text \
    -D mapred.job.queue.name=root.default \
    -D mapred.map.tasks.speculative.execution=false \
    -inputformat org.apache.hadoop.mapred.SequenceFileAsBinaryInputFormat \
    -mapper "sh map.sh" \
    -reducer "sh reduce.sh" \
    -input xxx \
    -output xxx ......

输入文件是一个带有文本密钥和二进制值的序列文件。

此输入序列文件由MR任务生成，该任务只有一个reducer和一个多个输出类。

-rw-rwx---+  3 lmt lmt      3.9 G 2018-05-24 19:53 inputfile

有什么错误吗？

谢谢你的帮助。

mapreduce

hadoop-streaming

hadoop

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-05-31 19:27:37

我终于找到原因了。

序列文件中的值大小并不相等，其中一些非常大，而另一些非常小--导致了数据倾斜。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/50603514

复制

相似问题

问使用Sequencefile的Hadoop流非常慢
EN

回答 1

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用Sequencefile的Hadoop流非常慢EN

回答 1

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用Sequencefile的Hadoop流非常慢
EN