首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >我们如何知道Heritrix何时完成爬网作业?

我们如何知道Heritrix何时完成爬网作业?
EN

Stack Overflow用户
提问于 2016-02-09 00:12:11
回答 1查看 223关注 0票数 0

在我们的应用程序中,Heritrix被用作抓取引擎,抓取工作完成后,我们将手动启动一个端点,以便从网站下载PDF。我们想自动化这个下载pdf任务,一旦抓取任务完成。HEritrix是否提供了返回作业状态的URI/webservice方法?(或者)我们是否需要创建一个轮询应用程序来持续监控作业的状态?

EN

回答 1

Stack Overflow用户

发布于 2016-02-09 13:27:51

我不知道是否有任何选项可以在不进行持续监控的情况下执行此操作,但您可以使用Heritrix API来获取作业的状态,例如

代码语言:javascript
运行
复制
curl -v -d "action=" -k -u admin:admin --anyauth --location -H "Accept: application/xml" https://localhost:8443/engine/job/myjob

为您提供XML,您可以从中读取作业状态。

另一个可能更简单(但不是很专业)的选择是检查你的作业warcs目录是否包含一个扩展名为.open的文件。如果不是,则作业已完成。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/35274156

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档