首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >使用luigi搭建hadoop作业流水线时,如何调试我的任务?

使用luigi搭建hadoop作业流水线时,如何调试我的任务?
EN

Stack Overflow用户
提问于 2015-09-01 16:47:42
回答 1查看 313关注 0票数 1

我使用luigi作为hadoop作业流水线。我阅读了示例和文档,但在将作业推送到hadoop服务器之前,找不到如何调试脚本?

更具体地说,我需要处理大数据集,而且运行时间很长,我更喜欢在小的测试数据集中测试作业,而不是在真实数据集中运行它。

EN

回答 1

Stack Overflow用户

发布于 2015-09-02 00:16:04

据我所知,这不是一件微不足道的事情,因为您想要调试的是实际的Hadoop集成。也许有一种方法可以模拟或模拟hadoop系统。或者只是在你的机器上安装一个最小的hadoop?

我们对集群任务做类似的事情。我们通过一种方便的方法执行命令,该方法允许我们在本地或通过HPC系统在运行命令之间切换,只需切换参数值。如果您感兴趣,可以在这里查看代码:https://github.com/samuell/sciluigi/blob/d403b1d04779fcb9d4d949cd2e554a892c86a67d/sciluigi/slurm.py#L99-L113

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/32327283

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档