为什么我的Apache Nutch warc和commoncrawldump在抓取后失败？

Apache Nutch是一个开源的网络爬虫工具，用于抓取和索引互联网上的网页内容。Warc和CommonCrawlDump是Nutch用于存储抓取结果的文件格式。

当你的Apache Nutch抓取后失败时，可能有多种原因导致。以下是一些可能的原因和解决方法：

网络连接问题：检查你的网络连接是否正常，确保能够正常访问目标网站。如果网络连接不稳定，可以尝试使用代理服务器或者调整网络设置。
配置错误：检查你的Nutch配置文件是否正确设置。确保你已经正确配置了要抓取的网站URL、抓取深度、抓取间隔等参数。可以参考Nutch官方文档或者社区论坛获取更多配置信息。
Robots.txt限制：有些网站会通过robots.txt文件来限制爬虫的访问。检查目标网站的robots.txt文件，确保你的爬虫没有被禁止访问。你可以在Nutch配置文件中设置忽略robots.txt文件，但需要注意遵守网站的爬取规则。
内容解析问题：Nutch使用插件来解析网页内容，如果你的抓取目标包含复杂的页面结构或者动态内容，可能会导致解析失败。你可以尝试使用不同的解析插件或者自定义插件来解决这个问题。
存储问题：检查你的存储设置是否正确。确保你已经正确配置了存储路径、文件格式等参数。如果你使用的是Warc或CommonCrawlDump格式，确保你的存储路径有足够的空间来存储抓取结果。

如果以上方法都无法解决问题，你可以尝试查看Nutch的日志文件，以获取更多的错误信息和调试信息。根据具体的错误信息，你可以在Nutch社区论坛或者相关的开发者社区中寻求帮助。

腾讯云提供了一系列与云计算相关的产品和服务，包括云服务器、云数据库、云存储等。你可以根据具体需求选择适合的产品来支持你的云计算应用。具体的产品介绍和相关链接可以在腾讯云官方网站上找到。

Apache步骤解释

、

我遵循了以下文章：并设置了apache +solr。但我想澄清一下，我是否理解关于nutch台阶工作的正确性。 1)。注入:在这个部分中，apache从给定的seed.txt中读取url列表，将url与regex-urlfiler regex进行比较，并使用支持的url更新爬行数据库。 2)。Generate: bin/nutch生成爬行/ crawldb爬行/段Nutch从crawldb获取URL，并创建已准备好要获取的URL的获取列表。它接受诸如-topN和时间差等输入，然后在段下创建当前时间的目录。我相信，在最初的两个步骤中，没有与互联网的互动。一切都发生在当地。问:取货清单保存在哪

浏览 3提问于2015-04-12得票数 6

回答已采纳

3回答

如何在Java中使用Sitemap进行网页抓取？

、

我需要开发的爬虫，这将从一个网站抓取所有的产品链接和价格。我听说使用robots.txt文件中提到的站点地图更有效和更快，但我不能想出如何使用站点地图进行爬行。请谁帮我如何使用网站地图爬行。谢谢。

浏览 0提问于2011-11-15得票数 0

3回答

聚合器是如何构建的？

、、、

比方说，我想要从许多来源(可以是旅行、技术或其他任何来源)聚合与特定利基相关的信息。我该怎么做呢？有一个爬虫/爬虫，它会爬网寻找我需要的信息(我如何告诉爬虫要爬行什么，因为我不想获取整个网络？)？然后有一个索引系统来索引和组织我抓取的信息，也是一个搜索引擎？像Nutch lucene.apache.org/nutch这样的系统可以用于我想要的吗？你有推荐的其他东西吗？或者你能推荐另一种方法吗？例如，Techmeme.com是如何构建的？(它是一个技术新闻的聚合器，而且它是完全自动化的--直到最近他们才增加了一些人工干预)。构建这样的服务需要做些什么？或者Kayak.com如何聚合他们

浏览 2提问于2009-05-29得票数 14

2回答

仅将Nutch限制为种子路径及其下面的网页

、、

我已经设置了Nutch 2.x来抓取少数几个多语域。我可以将Nutch限制为仅内链接，但不能限制子文件夹。例如，对于后续种子，我只想抓取/urdu中的URL，因为这个网站也包含其他语言的网页。现在，我如何配置或自定义Nutch来处理这些案例？

浏览 8提问于2020-09-17得票数 0

回答已采纳

1回答

如何将Nutch2.3中的图像作为HBase作为后端？

我想从某些网站抓取图片。到目前为止，我尝试修改regex-urlfilter.txt。我改变了： -\.(gif|GIF|jpg|JPG|png|PNG|ico|ICO|css|CSS|sit|SIT|eps|EPS|wmf|WMF|zip|ZIP|ppt|PP T|mpg|MPG|xls|XLS|gz|GZ|rpm|RPM|tgz|TGZ|mov|MOV|exe|EXE|jpeg|JPEG|bmp|BMP|js|JS)$ 至： -\.(css|CSS|sit|SIT|eps|EPS|wmf|WMF|zip|ZIP|ppt|PPT|mpg|MPG|xls|XLS|gz|GZ|rpm|RP

浏览 6提问于2015-05-27得票数 2

回答已采纳

2回答

使用nutch爬行twitter和linkedin

、、

我一直试图用nutch来抓取twitter和linkedin的数据，Nutch-0.9。然而，当我尝试爬行twitter时，regex-filter似乎不起作用，我的regex-filter文件有+^，而我希望做的是只爬行那些遵循上述模式的urls。我以urls结束，比如。至于linkedin的部分内容，每当我尝试爬行时，它都会显示超时。linkedin上的robots.txt说，你需要发送邮件才能让你的爬虫变成白色，但他们从来没有回复。感谢你的帮助！

浏览 1提问于2013-09-14得票数 2

1回答

仅用Solr和Nutch索引特定域

、、

我想用Nutch爬行一个网站，用Solr索引它。我有一个网站，其结构如下：主页：example.com 我想索引的文档：subdomain.example.com/{some_number}.html 为了“发现”所有这些文档，我从example.com/discover开始，它有我想要的许多文档的列表。所以我现在拥有的是：在我的regex-urlfilter.txt中，我只从example.com中抓取文档，这是非常完美的。我用Solr索引，一切都很好。我使用以下命令： ./$nutch/bin/crawl -i -s $nutch/urls/ $nutch/ 5 我现在想要的是只

浏览 0提问于2018-11-22得票数 0

回答已采纳

5回答

如何使用Apache Nutch保存原始html文件

、、

我是搜索引擎和网络爬虫的新手。现在，我希望将特定网站中的所有原始页面存储为html文件，但使用Apache Nutch只能获得二进制数据库文件。如何使用Nutch获取原始html文件？ Nutch支持它吗？如果没有，我可以使用哪些其他工具来实现我的目标。(支持分布式爬行的工具更好。)

浏览 2提问于2012-04-04得票数 5

回答已采纳

3回答

如何使用ManifoldCF或nutch抓取具有SAML身份验证的网站？

、、、、

我正在尝试抓取一个网站，更具体地说是一个使用ManifoldCF的Google Site，它具有SAML身份验证，并将抓取的数据索引到Apache Solr中。但当我抓取网址，它给我的302重定向到登录页面，然后说RESPONSECODENOTINDEXABLE。我不确定我的身份验证是否正确。在manifoldCF中，我们可以选择HTTP basic身份验证、NTLM authentication和Session-based访问凭据身份验证方法。我使用的是Session based身份验证方法，它看起来更像是基于表单的身份验证，而不是SAML身份验证。有没有人用具有SAML身份验证的man

浏览 9提问于2016-08-08得票数 18

2回答

带有Lucene的Apache Nutch

、、、

我们在Lucene中有一个遗留代码，作为新的需求，我们需要使用Apache Nutch进行爬行。这意味着Apache Nutch应该抓取内容，然后现有的Lucene分析器应该生成索引。我的问题是Apache Nutch已经生成了索引，而我无法从中生成内容。我们不想使用Nutch索引。你是建议我使用另一个爬虫，还是仍然可以使用Apache Nutch来达到这个目的？

浏览 0提问于2013-08-22得票数 1

1回答

Nutch不是解析整个网站，而是解析第一个URL

、

我试图使用Nutch Fetcher获取整个网站，但它只加载第一个网址： import org.apache.nutch.fetcher.Fetcher; new Fetcher(conf).fetch(segment, 1); 这就是我在日志中看到的： [INFO] org.apache.nutch.fetcher.Fetcher: Fetcher: starting at 2019-03-29 00:11:47 [INFO] org.apache.nutch.fetcher.Fetcher: Fetcher: segment: /var/folders/vl/633jwjvn2jvbj9z

浏览 1提问于2019-03-28得票数 0

回答已采纳

1回答

修改Nutch crawler以解析页面并从搜索到的页面中获取特定数据

、、

我想爬行几个网站，并收集基于语言的数据。"Java“等。我是新的Nutch爬虫。我刚刚用HBase完成了Nutch2.3的安装。如何自定义爬行，以便在解析每个页面时，我可以获得该页面中的链接并从中提取一些数据。例如日期、主题等。谢谢。

浏览 2提问于2015-03-16得票数 3

1回答

使用nutch 1.8抓取不同的站点

我正在使用nutch 1.8从从同一领域具有不同模式的网站抓取信息。我正在为每个站点编写插件，但当我启动nutch时，第一个插件与所有站点匹配，其他站点则不存在。如果第一个插件与站点不匹配，跳到下一个并检查它们，依此类推，直到找到正确的站点插件？

浏览 0提问于2014-06-18得票数 0

1回答

更新Nutch以获取每个获取的URL的父URL

、

当我运行Apache Nutch 1.4爬虫时，我想存储一些额外的信息。我想存储每个URL的父URL。例如，我想抓取一个有两个指向b.html和c.html的锚链的页面a.html，所以当我抓取a.html时，我应该会得到这样的结果： a.html null b.html a.html c.html a.html 我想存储像这样的东西。我已经阅读了nutch的工作原理，并在eclipse中运行了nutch。我还读取了fetcher.java，并记录了它获取内容的位置。但是我没有成功地知道Nutch从哪里获取给定页面的子URL。我认为这一步发生在解析步骤之后。

浏览 0提问于2012-05-22得票数 1

4回答

如何使用nutch解析html并将特定的标签索引到solr？

、、

我已经安装了nutch和solr来抓取一个网站并在其中进行搜索；正如你所知道的，我们可以用nutch的解析meta tag插件将网页的meta标签索引到solr中。()现在我想知道有什么方法可以抓取另一个不是meta的html标签到solr中？(插件或其他)就像这样： <div id=something> me specific tag </div> 实际上，我想在solr (某物)中添加一个字段，该字段在此页面中的值为"me specific tag“。有什么想法吗？

浏览 0提问于2012-09-09得票数 5

1回答

轻量云 Wordpress 批量处理产品直接502 bad gateway nginx怎么办？

、、、、

4h8g的轻量云，搭的wordpress商城，经常满负载，而且批量编辑产品会直接 502 bad gateway nginx。 php 配置如图：图片

浏览 242提问于2023-08-02

1回答

在多个solr索引之间共享抓取的nutch数据

、、、

我们有数以千计的solr索引/集合，它们共享nutch正在爬行的页面。目前，这些页面被抓取了多次，每个包含它们的solr索引抓取一次。有没有可能一次抓取这些网站，并在索引之间共享抓取数据？也许可以通过检查现有的爬虫数据库，如果一个网站已经被爬行，并从那里获得数据进行解析和索引。或者一次抓取所有站点，然后有选择地向每个索引提交抓取数据。(例如:每个段一个站点，但不确定如何识别哪个段属于哪个站点，因为段名称是数字) 感谢您的任何想法或帮助:)

浏览 0提问于2014-12-19得票数 1

2回答

如何使用Nutch爬行和解析精确的数据？

、、、、

我对Nutch和爬行很陌生。我安装了Nutch2.0，通过遵循一些基本教程，使用Solr 4.5爬行和索引数据。现在我不想解析页面的所有文本内容，我想定制它，就像Nutch应该爬行页面一样，并且只抓取/获取与地址相关的数据，因为我的用例是爬行URL，只将地址信息解析为文本。例如，我需要爬行和解析的文本内容，其中有地址信息，电子邮件id，电话号码和传真号码。我该怎么做？是否已经有任何插件可供使用？如果我想为此编写一个自定义的解析器，有人能在这方面帮助我吗？

浏览 3提问于2015-09-24得票数 1

1回答

Nutch可以抓取视频网站吗？

、、

有没有可能使用Nutch抓取只有视频文件的网站？感谢您对此的见解。

浏览 1提问于2012-07-20得票数 0

3回答

网络爬虫与Django前端的接口

、、

我试着做三件事。第一:抓取和存档，至少每天，一组预定义的站点。第二:对此数据运行通宵批处理python脚本(文本分类)。第三:向用户公开一个基于Django的前端，让他们搜索抓取的数据。我一直在使用Apache Nutch/Lucene，但当我可以使用另一个爬虫引擎时，让它与Django很好地配合似乎太难了。 about 建议我可以只用Django本身编写爬虫，但我不确定该怎么做。基本上--对于用Django或现有的python爬虫编写我可以适应的爬虫有什么建议吗？或者我是否应该在第二步中加入“变成Django友好的东西”，并编写一些胶水代码？或者，最后，我应该完全放弃Django吗

浏览 0提问于2009-06-09得票数 2