heritrix - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

使用Heritrix 1.14

unix、shell、installation

浏览了帖子和您建议的解决方案-- 停留在导出HERITRIX_HOME=/PATH/TO/BUILT/HERITRIX。该命令以静默方式运行，但cd $heritrix_home结果为 -bash: cd: /root/heritrix-1.14.4/bin/heritrix:不是目录。chmod

浏览 2提问于2010-11-16得票数 0

1回答

在Java上运行网络蜘蛛

java、windows、web、web-crawler、heritrix

C:\Users\I>cd c:\Users\i\Desktop\heritrix-1.14.4 You have to specify either a username and password for theExample: heritrix.cmd --admin=admin:letmein

浏览 4提问于2013-12-09得票数 2

4回答

solr + Heritrix

search、indexing、search-engine、solr、web-crawler

如何将solr与heritrix集成？谢谢

浏览 4提问于2009-11-03得票数 2

回答已采纳

1回答

在Heritrix 3.1.0中更改MirrorWriterProcessor的路径

spring、heritrix

我正在使用Heritrix 3.1.0进行爬行。我正在尝试使用MirrorWriterProcessor保存文件。但是，此选项在crawler-beans.cxml中不可用。org.archive.modules.writer.WARCWriterProcessor“的"warcWriter”替换为"org.archive.modules.writer.MirrorWriterProcessor“我将“路径”配置为"${launchId}

浏览 7提问于2013-07-04得票数 0

1回答

如何使用Python从Heritrix crawler中读取.ARC文件？

python、web-crawler

我查看了Heritrix文档网站，上面列出了一个Python .ARC文件阅读器。然而，当我点击它时，它是404没有找到。还有谁知道使用Python的Heritrix ARC阅读器？

浏览 3提问于2009-10-15得票数 2

回答已采纳

1回答

Java和Heritrix 3.1.x: Web内容解析？

java、web-crawler、webpage、document-classification、heritrix

由于Heritrix 3.x的开发人员文档大部分已经过时(其中大部分与Heritrix 1.x有关，因为大多数类都已更改或代码已被显着重写/重构)，有人能告诉我系统中处理实际网页内容提取的相关类(或类)我想要做的是获取Heritrix将要抓取的网页的内容，然后将分类器应用于该网页的内容？Heritrix应用正则表达式的内容( html)在哪里(以便查找链接、某些文件类型等)？

浏览 8提问于2013-07-19得票数 0

1回答

如何从heritrix爬网中排除除链接/外链以外的所有内容？

web-crawler、heritrix

我正在与Heritrix合作，但我有点纠结于管理它的输出。我正在研究PageRank，我需要Heritrix生成一个文件来应用排名算法。我需要的文件应该只有每个访问页面的链接和外链。是否可以通过指定哪些内容应包含哪些内容不应包含来自定义Heritrix的输出？我已经尝试过修改cxml文件，但是输出中仍然有很多无用的信息(比如内容页面)。

浏览 5提问于2013-07-25得票数 0

1回答

我们如何知道Heritrix何时完成爬网作业？

heritrix

在我们的应用程序中，Heritrix被用作抓取引擎，抓取工作完成后，我们将手动启动一个端点，以便从网站下载PDF。我们想自动化这个下载pdf任务，一旦抓取任务完成。HEritrix是否提供了返回作业状态的URI/webservice方法？(或者)我们是否需要创建一个轮询应用程序来持续监控作业的状态？

浏览 13提问于2016-02-09得票数 0

2回答