在我们的应用程序中,Heritrix被用作抓取引擎,抓取工作完成后,我们将手动启动一个端点,以便从网站下载PDF。我们想自动化这个下载pdf任务,一旦抓取任务完成。HEritrix是否提供了返回作业状态的URI/webservice方法?(或者)我们是否需要创建一个轮询应用程序来持续监控作业的状态?
发布于 2016-02-09 13:27:51
我不知道是否有任何选项可以在不进行持续监控的情况下执行此操作,但您可以使用Heritrix API来获取作业的状态,例如
curl -v -d "action=" -k -u admin:admin --anyauth --location -H "Accept: application/xml" https://localhost:8443/engine/job/myjob为您提供XML,您可以从中读取作业状态。
另一个可能更简单(但不是很专业)的选择是检查你的作业warcs目录是否包含一个扩展名为.open的文件。如果不是,则作业已完成。
https://stackoverflow.com/questions/35274156
复制相似问题