heritrix java_heritrix_heritrix linux - 腾讯云开发者社区

、、

浏览了帖子和您建议的解决方案-- 停留在导出HERITRIX_HOME=/PATH/TO/BUILT/HERITRIX。该命令以静默方式运行，但cd $heritrix_home结果为 -bash: cd: /root/heritrix-1.14.4/bin/heritrix:不是目录。chmod

浏览 2提问于2010-11-16得票数 0

4回答

solr + Heritrix

、、、、

如何将solr与heritrix集成？谢谢

浏览 4提问于2009-11-03得票数 2

回答已采纳

1回答

在Java上运行网络蜘蛛

、、、、

C:\Users\I>cd c:\Users\i\Desktop\heritrix-1.14.4 You have to specify either a username and password for theExample: heritrix.cmd --admin=admin:letmein

浏览 4提问于2013-12-09得票数 2

1回答

Nutch与Heritrix的比较

、、

我想选择上面的其中之一，为特定的网站建立一个爬行框架。这不是互联网范围内的抓取。我不是建立一个搜索索引，而是有兴趣从网站上抓取特定的页面。

浏览 1提问于2010-07-16得票数 2

回答已采纳

2回答

基于PHP的Web爬虫或基于JAVA的Web爬虫

、、

我对基于PHP的网络爬虫有些怀疑，它能像基于java线程的爬虫一样运行吗？我之所以问这个问题，是因为在java中，线程可以一次又一次地执行，我不认为PHP有类似线程的功能，你们能说一下，哪个网络爬虫更能充分利用吗?基于PHP的爬虫还是基于Java的爬虫

浏览 1提问于2010-07-27得票数 0

回答已采纳

1回答

支持通配符的Java robots.txt解析器

、、、

我发现了一些用于解析robots.txt文件的librairies，但它们都不支持Googlebot风格的模式匹配：有人知道有一个java库可以做到这一点吗？

浏览 3提问于2011-08-30得票数 7

2回答

Heritrix 3.2.x，如何从warc文件中读取内容？

使用Heritrix 3.2.x，我抓取了一个网站，现在我想从创建的warc文件中读取HTML内容。有人能帮上忙吗？我尝试使用python warc和基于java的warc tools.jar。

浏览 21提问于2016-08-26得票数 0

1回答

在Heritrix 3.1.0中更改MirrorWriterProcessor的路径

、

我正在使用Heritrix 3.1.0进行爬行。我正在尝试使用MirrorWriterProcessor保存文件。但是，此选项在crawler-beans.cxml中不可用。org.archive.modules.writer.WARCWriterProcessor“的"warcWriter”替换为"org.archive.modules.writer.MirrorWriterProcessor“我将“路径”配置为"${launchId}

浏览 7提问于2013-07-04得票数 0

1回答

如何使用Python从Heritrix crawler中读取.ARC文件？

、

我查看了Heritrix文档网站，上面列出了一个Python .ARC文件阅读器。然而，当我点击它时，它是404没有找到。还有谁知道使用Python的Heritrix ARC阅读器？

浏览 3提问于2009-10-15得票数 2

回答已采纳

1回答

Java和Heritrix 3.1.x: Web内容解析？

、、、、

由于Heritrix 3.x的开发人员文档大部分已经过时(其中大部分与Heritrix 1.x有关，因为大多数类都已更改或代码已被显着重写/重构)，有人能告诉我系统中处理实际网页内容提取的相关类(或类)我想要做的是获取Heritrix将要抓取的网页的内容，然后将分类器应用于该网页的内容？Heritrix应用正则表达式的内容( html)在哪里(以便查找链接、某些文件类型等)？

浏览 8提问于2013-07-19得票数 0

1回答

如何从heritrix爬网中排除除链接/外链以外的所有内容？

、

我正在与Heritrix合作，但我有点纠结于管理它的输出。我正在研究PageRank，我需要Heritrix生成一个文件来应用排名算法。我需要的文件应该只有每个访问页面的链接和外链。是否可以通过指定哪些内容应包含哪些内容不应包含来自定义Heritrix的输出？我已经尝试过修改cxml文件，但是输出中仍然有很多无用的信息(比如内容页面)。

浏览 5提问于2013-07-25得票数 0

1回答

我们如何知道Heritrix何时完成爬网作业？

在我们的应用程序中，Heritrix被用作抓取引擎，抓取工作完成后，我们将手动启动一个端点，以便从网站下载PDF。我们想自动化这个下载pdf任务，一旦抓取任务完成。HEritrix是否提供了返回作业状态的URI/webservice方法？(或者)我们是否需要创建一个轮询应用程序来持续监控作业的状态？

浏览 13提问于2016-02-09得票数 0

2回答

如何远程使用Heritrix的webUI

、、、

你好，我一直在与Heritrix玩，并希望将它包含在一个网站上/允许远程访问它。我查看了手册，发现了-b命令将其绑定到远程主机，但是文档可能更好。

浏览 5提问于2012-10-05得票数 0

回答已采纳

1回答

Heritrix3.2.0能够抓取基于ajax的网站吗？

、、

是否可以使用Heritrix-3.2.0抓取基于ajax的网站？

浏览 5提问于2015-04-05得票数 2

回答已采纳

5回答

Googlebot是用哪种编程语言编写的(或任何其他高效的网络爬虫)？

、

我见过很多Java语言，但在我看来，它不是最适合开发网络爬虫的语言，因为它产生了太多的开销(尝试使用Heritrix网络爬虫，它非常重)。

浏览 0提问于2009-10-29得票数 1

回答已采纳

1回答

Nutch vs Heritrix vs Stormcrawler vs MegaIndex vs Mixnode

、、、

我们需要每两周抓取大量(约15亿)的网页。速度，因此成本，对我们来说是一个巨大的因素，因为我们最初的尝试最终花费了我们超过20000美元。

浏览 6提问于2017-10-11得票数 4

1回答

Heritrix 3.2.0:编写和添加扩展

、、、

我目前正在使用Heritrix，我有一个标准的安装(这个是：)，它工作得很好。我尝试将java测试项目导出为jar文件，并将该文件放在Heritrix的lib文件夹中(其他库也在这里)。但在启动后，我收到了这个错误: 2014-11-07T19:51:40.296Z严重无法实例化bean类myModule.TestClass:找不到默认构造函数；嵌套异

浏览 4提问于2014-11-08得票数 0

3回答