nutch设置爬行深度 - 腾讯云开发者社区

、

我使用Nutch-1.8爬行网站和solr索引。我需要在没有指定深度参数的情况下爬行整个网站直到最后一个子链接(-depth)。语法：bin/nutch crawl <urlDir> [-solr <solrURL>] [-dir d] [-threads n] [-depthi] [-topN N] 在上面的命令中，我不想指定<em

浏览 2提问于2016-01-25得票数 3

回答已采纳

1回答

如何通过指定深度来抓取网站

、、

我用的是nutch 2.x。因此，我试图使用nutch命令和深度选项作为执行此命令后，收到如下消息所以当我在这方面失败的时候，我试着用nutch爬行作为错误，如命令爬行是不推荐的，请使用bin/爬行代

浏览 1提问于2014-08-01得票数 3

回答已采纳

1回答

给出深度=‘N’的Nutch爬行与深度=‘1’的循环N次爬行的区别

、

我在循环中运行爬行(‘N=depth’次数)，给depth=1.I一些urls，当我在循环中爬行深度为1时，N次与爬行给深度N。请查找以下伪码：} 当我在循环中爬行的次数是深度的时候，我得到了一些丢失的urls (db不取)。我已经在独立的Nutch上尝试过了，我运行的深度为3

浏览 0提问于2012-07-12得票数 0

1回答

在评分深度过滤器中更新Apache-Nutch Crawler的最大深度不起作用。

、、

我已经设置了Apache 1.18来爬行网络。对于排名，我使用评分深度过滤器。默认情况下，最大深度长度设置为1000 (在每个页面中爬行)。现在，我必须更新这个值(例如增加)。为此，我已更新了纳奇的下列财产 <name>scoring.depth.max</name></property> 现在，Nutch

浏览 6提问于2022-08-02得票数 1

1回答

Apache-Nutch* Crawler的设置深度*

、

如何为设置深度？bin/nutch crawl seed.txt -dir crawler/stat -depth 1 -topN 5 我试过用垃圾桶/爬行代替爬行。

浏览 0提问于2017-12-26得票数 2

1回答

IOException IOException #Crawl.run() -> #JobClient.runJob()

、、、

我和nutch是新来的，所以请容忍我。在我的一个测试爬行过程中，我遇到了一个IOException。我使用的是Nutch1.6和Hadoop0.20.2(在设置文件访问权限时选择此版本是为了windows兼容)。我的爬虫代码来自这个网站：solrUrl未设置，索引将被跳过.爬行开始:爬线程=1 深度</e

浏览 1提问于2013-03-31得票数 0

1回答

深度、topn对nutch爬行的影响

我一直想知道深度和顶端对nutch爬行的影响是什么？例如，假设深度为100，topn为10000可确保完全爬行，将深度更改为1000是否会影响爬行所需的时间？所以，要抓取一个不熟悉的网站，可以给出一个任意大的深度和topn吗？阿南斯。

浏览 0提问于2012-07-03得票数 2

回答已采纳

1回答

关于使用Nutch内容限制的建议

、、

我正在使用Nutch2.1爬行整个域(例如，company.com)。我曾经遇到过这样的问题:由于Apache中设置的内容限制，我没有得到我想要的所有链接。为了解决这个问题，我更改了nutch-site.xml，使内容限制看起来如下： <name>http.content.limit</name>at org.apache.nutch.parse

浏览 2提问于2016-01-22得票数 0

回答已采纳

1回答

根据我所读到的，-topN参数决定了在深度/页面中有多少最高的得分链接将排队。实际上，网上的资源让我感到困惑，这就引出了我的第一个问题：这些topN链接是否在优先级中与来自其他页面/深度的其他排队的topN链接排队？例如，对于种子URL中的2个爬行页面，topN = 2，1个种子URL，是否将从这个深度获取的链接聚合起来，然后排序？还是只有页面内的链接被排序？不过，这假定topN为每页。我希望得分最高的链接首先被<

浏览 1提问于2015-11-12得票数 1

2回答

在Nutch每个站点爬行一定深度

、、

我正在尝试使用Nutch V1.12爬行大量的网站，而我没有问题的爬行网站，我无法控制我想要的爬行。问题主要在于，似乎不可能进行爬行，从它到达的每一个新主机计算深度。据我所知，爬行脚本中的一个回合被认为是爬行的深度。但这意味着在爬行早期发现的站点比后来发现的站点要多。是否有办法实现每个站点爬行深度的功能？

浏览 4提问于2017-03-29得票数 1

回答已采纳

3回答

如何防止apache nutch爬行外部链接？

、、、、

我只想爬到nutch上的特定域。为此，我将db.ignore.external.links设置为true，正如在中所说的那样我通过运行200深度的爬行脚本来获得结果。

浏览 0提问于2016-04-05得票数 0

1回答

有没有办法在Nutch* crawl中记录“忽略”的urls列表？*

、、、

我正在使用Nutch抓取种子文件中指定的topN列表，深度为100，URLS为10,000，以确保完全抓取。此外，我还尝试使用regex-urlfilter 忽略路径中有重复字符串的urls 然而，我很想知道哪些urls在爬行过程中被忽略了。有没有什么办法，我可以记录的urls列表“忽略”，而Nutch爬行？

浏览 3提问于2013-03-17得票数 0

回答已采纳

1回答

Solr 5.0和Nutch* 1.10*

、

我在windows server 2008 R2上使用solr5.0，nutch1.10和cygwin。我发出的命令如下：据我所知，2是爬行的轮数。此外，它不会在更深的深度爬行。当我发出这个命令将数据传递给Solr时：然后执行搜索，那么我总共只得到了20个u

浏览 0提问于2015-06-03得票数 0

1回答

多个solr芯的nutch配置

、、

我在Linux上使用Nutch 1.9和Solr 4.10。我需要抓取和索引的大网站的内容，并希望这样做使用单独的Solr核心。下面是Nutch配置作为cronjob的一部分..。 .这是可行的，但我希望为每个核心有单独的regex-urlfilter.txt文件，并且Nutch应该检测到它。请让我知道我如何做到这一点。如果在单个Nutch中不可能实现上述操作，是否应该为每个Solr核心设置单独的Nutch实例？

浏览 1提问于2016-01-22得票数 0

2回答

Nutch :获取插件中的当前爬行深度

我想为nutch编写自己的HTML解析器插件。我正在通过生成只落在特定xpath中的外部链接来进行有针对性的爬行。在我的用例中，我希望根据当前爬行的深度从html页面获取不同的数据。所以我需要知道我正在解析的每个内容在HtmlParser插件中的当前深度。使用Nutch可以吗？我发现CrawlDatum没有crawl_depth信息。我在考虑将信息映射到另一种数据结构中。

浏览 1提问于2010-08-20得票数 0

回答已采纳

1回答

nutch爬行被卡在旋转等待或活动。如何减少取货周期？

、、

我正在使用Nutch2.1和爬行一个网站。问题是，爬行器一直显示抓取url、旋量/活动，而且由于抓取花费了大量时间，所以到mysql的连接会超时。在nutch中是否有这样的设置:只获取100或500个urls，然后解析并存储到mysql，然后再获取下一个100或500个urls？org.apache.hadoop.mapreduce.TaskInputOutputContext.write(TaskInputOutputContext.java:80) at org.apache.<em

浏览 5提问于2013-01-02得票数 1

1回答

使用nutch* crawl，如果我为-topN和-depth使用较小的值，它仍然会爬行所有相同的页面吗？*

我正在运行Nutch 1.4/Solr 4.10来索引许多站点。我的爬虫包括一些带有数百个链接的种子页面。我目前运行的是使用这些设置，完成抓取需要5-7个小时。我希望"nutch crawl“的每个单独迭代花费较少的时间，但我需要确保所有页面最终都被爬行。

浏览 0提问于2016-10-11得票数 0

1回答

使用Nutch* 1.9获得清晰的内容(无标记)*

、、

使用Nutch1.9，我如何获取爬行页面的清晰内容(没有html标记)，并以可读的形式保存.content。Solr有办法做到这一点吗?或者没有它也可以做到，以及如何做到？还有一个子问题，如何使用bin/crawl脚本控制爬行深度？在bin/nutch crawl命令中有一个那个(和topN)的选项，但现在它被弃用了，不能执行。

浏览 0提问于2014-10-28得票数 0

1回答

多层网络蜘蛛与正则表达式匹配？

、、

爬行器将访问网站列表，找到与正则表达式模式列表匹配的链接，访问这些匹配的链接，并重复操作，直到配置的深度级别。我正要在php上编写这个代码，但我不太擅长php上的线程，我需要这个应用程序的线程。

浏览 4提问于2011-10-13得票数 1

回答已采纳

1回答

Nutch -如何在小块地爬行？

、、

我不能让Nutch用小补丁帮我爬行。我通过参数bin/nutch爬行命令-depth 7和-topN 10000启动它。而且它永远不会结束。只有当我的硬盘是空的时候才会结束。我需要做的是：循环步骤3，n次。在脚本的末尾，我有和我一样的索引，当我开始爬行的时候。但是，我需要继续爬行。

浏览 0提问于2010-03-29得票数 4

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在不指定深度的情况下抓取整个网站的nutch配置

如何通过指定深度来抓取网站

给出深度=‘N’的Nutch爬行与深度=‘1’的循环N次爬行的区别

在评分深度过滤器中更新Apache-Nutch Crawler的最大深度不起作用。

Apache-Nutch* Crawler的设置深度*

IOException IOException #Crawl.run() -> #JobClient.runJob()

深度、topn对nutch爬行的影响

关于使用Nutch内容限制的建议

Apache修改要爬行的链接队列

在Nutch每个站点爬行一定深度

如何防止apache nutch爬行外部链接？

有没有办法在Nutch* crawl中记录“忽略”的urls列表？*

Solr 5.0和Nutch* 1.10*

多个solr芯的nutch配置

Nutch :获取插件中的当前爬行深度

nutch爬行被卡在旋转等待或活动。如何减少取货周期？

使用nutch* crawl，如果我为-topN和-depth使用较小的值，它仍然会爬行所有相同的页面吗？*

使用Nutch* 1.9获得清晰的内容(无标记)*

多层网络蜘蛛与正则表达式匹配？

Nutch -如何在小块地爬行？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐