RCrawler :限制RCrawler收集的页面数量的方法？(不是爬网深度)

RCrawler是一个用于爬取网页数据的R语言包。它提供了一种简单而灵活的方式来收集网页数据。在RCrawler中，限制收集页面数量的方法可以通过设置爬取的起始URL和终止条件来实现。

设置起始URL：可以通过设置起始URL来限制收集页面的数量。只需指定一个或多个起始URL，RCrawler将从这些URL开始爬取数据。可以选择性地指定特定的网页或网站作为起始URL，以便仅收集感兴趣的页面。
设置终止条件：可以通过设置终止条件来限制收集页面的数量。终止条件可以是页面数量、时间限制或其他自定义条件。例如，可以设置收集100个页面后停止爬取，或者设置在一定时间内收集尽可能多的页面。

通过以上两种方法的组合，可以灵活地控制RCrawler收集的页面数量。根据具体需求，可以调整起始URL和终止条件来满足不同的爬取需求。

推荐的腾讯云相关产品：腾讯云云服务器（CVM）和腾讯云对象存储（COS）。

腾讯云云服务器（CVM）：提供高性能、可扩展的云服务器实例，可满足各种计算需求。可以使用CVM来部署和运行RCrawler，并控制爬取的页面数量。
腾讯云对象存储（COS）：提供安全、可靠的对象存储服务，适用于存储和管理大量的非结构化数据。可以使用COS来存储RCrawler爬取的网页数据。

腾讯云云服务器（CVM）产品介绍链接：https://cloud.tencent.com/product/cvm

腾讯云对象存储（COS）产品介绍链接：https://cloud.tencent.com/product/cos

页面内容是否对你有帮助？

有帮助

没帮助

Solr 5.0和Nutch 1.10

、

我在windows server 2008 R2上使用solr5.0，nutch1.10和cygwin。我发出的命令如下： B/爬网-D urls/ b/urls爬网/2 据我所知，2是爬行的轮数。当我执行此命令并读取crawldb时，我只收到127个url，这比预期的要少得多。此外，它不会在更深的深度爬行。当我发出这个命令将数据传递给Solr时： bin/nutch solrindex段爬网/crawldb -linkdb爬网/linkdb爬网/ /* 然后执行搜索，那么我总共只得到了20个url。有人能帮上忙吗。我需要做一个更深的深度爬行。

浏览 0提问于2015-06-03得票数 0

1回答

SharePoint 2010 search中的爬网程序影响规则和爬网规则有何不同？

、、

SharePoint 2010 search中的爬网程序影响规则和爬网规则有何不同？

浏览 1提问于2011-02-13得票数 4

回答已采纳

3回答

当添加新页面时，Nutch会自动抓取我的站点吗？

当我向网站添加新页面时，会自动爬网吗？

浏览 4提问于2009-11-25得票数 0

1回答

在AssociationNavigator中具有AttachmentAssociator属性的自定义索引连接器中搜索

、、、

嗨, 我有一个自定义的索引连接器，通过AssociationNavigator方法与实体相关联。为了( SharePoint 2013的)搜索爬网关联实体，我们需要在关联实体中设置'DirectoryLink‘属性或'AttachmentAccessor’属性，如下所述：* 当我设置DirectoryLink属性时，搜索将搜索关联的实体(子实体)和父实体。但是，当我将子实体设置为作为附件进行爬网时，如果使用AttachmentAccessor属性，爬网程序只会爬行父实体，而忽略相关实体，因此不会对其进行索引。这是自定义连接器的一些问题吗？就像在帖子里一样。如果更改为.n

浏览 4提问于2013-07-12得票数 1

1回答

仅抓取域名

、、

如何使用Scrapy实现只抓取域名？我对任何domain.tld的深度搜索不感兴趣。我的想法是从每个域的索引页面只使用1跳的深度-所以直接从主页链接将足够作为链接缓冲区。我需要尽可能快的爬虫作为唯一的。我想将域领域限制为.cz 谢谢。

浏览 11提问于2019-03-14得票数 0

1回答

SharePoint 2010 Search未搜索.log格式的文件

、、

SharePoint 2010 Search未爬网日志文件格式(.log)文件类型，我向共享文档添加了一些新的日志文件(.log)。但我不能在他们里面搜索。我已在文件类型页面中添加了文件类型(日志)，并运行了完全爬网，但无法搜索日志文件内容。爬网日志未显示任何内容有什么想法吗？

浏览 3提问于2014-11-22得票数 0

1回答

Sharepoint 2010搜索不会为自定义字段建立索引

、

我正在尝试创建一个托管元数据字段，但它没有显示在我的爬网列中。它是一个自定义字段。我不确定哪里出了问题，但当我搜索时，我唯一的结果是查看与列表相关的所有项目页面。它似乎不会搜索列表项本身。我不知道这是否相关。我将此列添加到我的视图中，以备需要时使用，但这并不起作用。

浏览 1提问于2010-06-15得票数 1

2回答

如何配置Nutch只抓取搜索列表中的URL？(不需要爬行)

、

我有一个包含超过100000个网址的网址种子列表。我知道nutch不仅会抓取种子列表中的网址，还会抓取网站内发现的任何网址链接。但是，我想知道有什么方法可以阻止这种行为吗？因此只需要对种子列表中指定的urls进行爬行。

浏览 1提问于2013-01-10得票数 0

1回答

SharePoint 2010中元数据属性映射中缺少ows_editior

、、

我正在尝试将托管属性映射到文档库的Modified By字段。我可以看到该字段的内部名称是Editor。但我在爬网属性中找不到ows_editor。有没有办法将其添加到爬网属性中，以及如何添加？

浏览 2提问于2011-02-14得票数 0

1回答

如何实现将索引表分布在3个系统上的任务？

、、

我想要达到这样的效果给定一个文档，比如一个带有id的txt文件，我需要对其进行处理，根据单词进行词干提取，并从中生成索引表。但是这个索引表可能分布在3个系统上，可能是基于这样的标准:以字母a-h开头的单词在第一个系统上被索引，下一个三分之一在第二个系统上，最后三分之一在第三个系统上。但是我不知道我应该使用什么技术来实现这一点？索引表数据结构应该在RAM中，以便可以快速回答搜索查询(假设我们能够以这种方式对其进行索引，并让用户搜索来自不同系统的单词或句子)。这个目的可以通过使用JAVA Sockets来实现吗？实际上，我们(5人组)正在尝试制作一个小型但分布式的搜索引擎。假设爬行已经完成，页

浏览 1提问于2014-08-23得票数 0

1回答

Scrapy CrawlSpider后处理:求平均值

、、

假设我有一个类似以下示例的爬网爬行器:从scrapy.contrib.spiders导入CrawlSpider，从scrapy.contrib.linkextractors.sgml导入SgmlLinkExtractor从scrapy.selector导入HtmlXPathSelector从scrapy.item导入项目 class MySpider(CrawlSpider): name = 'example.com' allowed_domains = ['example.com'] start_urls = ['http://

浏览 1提问于2011-03-27得票数 0

回答已采纳

1回答

未在sharepoint 2007的已爬网属性中显示的列表列

、

嗨在一些网站的列表中，我有一个名为"Number“类型的名为"Grade”的列。我已经执行了完整爬网和增量爬网，但该列未出现在已爬行的属性中。我想在这个等级之外创建一个托管属性，但是当我点击“添加映射”时，我看不到“等级爬行”属性。是否对列表中的所有列都进行了爬网？请告诉我是不是丢了什么东西？

浏览 0提问于2011-05-05得票数 0

回答已采纳

1回答

已提交的url存在已删除页面的爬网问题

我已经从我的wordpress网站上删除了一些页面。但是GSC对那些被删除的页面显示错误“提交的url有爬网问题”。使用检查url工具后，显示url不在Google上。如何解决这个错误？

浏览 0提问于2020-01-16得票数 0

1回答

已暂停爬网问题的计划增量爬网行为

快速问一下，我错误地开始了对我的一个内容源的增量抓取。然后我暂停了它，这样它就不会影响用户了。它将在下一次计划的增量爬网时恢复还是需要手动恢复？

浏览 12提问于2019-12-20得票数 0

1回答

nutch crawler -如何设置每个主机的最大inlink数

、、、

如何设置每个主机要索引的最大页数？我不想索引所有百万页的网站，我只想索引前100000个找到的页面。

浏览 4提问于2010-10-06得票数 1

1回答

SQL数据使用- SharePoint 2007计时器作业

、、

除了爬网之外，哪个SharePoint 2007计时器作业消耗的SQL数据最多？

浏览 3提问于2010-02-27得票数 0

2回答

离线(本地)数据上的Python Scrapy

、、

我的计算机上有一个270MB的数据集(10000个html文件)。是否可以使用Scrapy在本地对此数据集进行爬网？多么?

浏览 0提问于2013-10-16得票数 17

1回答

在SharePoint爬网期间以编程方式生成其他属性

、、、、

是否有可能挂钩到MOSS 2007爬网进程，并在内容被索引时以编程方式填充元数据属性？我需要在爬网时这样做的原因是，内容来自SharePoint外部(来自文件共享)，因此我不能将元数据直接添加到文档本身。有各种各样不同的文档类型，所以定制的IFilter也不是一种选择。

浏览 1提问于2010-06-25得票数 1

回答已采纳

1回答

nutch crawl不使用seed.txt中的所有条目

、

我正在使用 apache-nutch-1.6，我可以成功抓取网站。我的问题是并非使用了seed.txt 文件中的所有条目。这取决于里面有哪些站点。那么有没有限制爬多少？没有错误信息。就像我删除一个站点一样，另一个站点会被深度爬网，无论另一个站点是否存在，这个站点都会被爬网，而从其他站点中，只有我相信的顶级站点....

浏览 0提问于2014-06-06得票数 0

1回答

Sharepoint 2010 search无法爬网mediawiki网站

、、、、

使用Sharepoint 2010企业搜索，我们正在尝试爬行基于内部媒体维基的维基站点。搜索失败，错误为：“该URL已永久移动。( URL重定向至... )”。由于wiki站点具有区分大小写的URL，因此当Sharepoint 2010尝试使用小写URL名称进行爬网时，Wiki会说“页面不存在”并使用301！重定向有人有解决方案吗？提前谢谢。

浏览 1提问于2011-05-17得票数 4

回答已采纳

1回答

改进Crawler4j-Crawler效率

、、

我正在使用Crawler4j爬虫来爬行一些domains.Now，我想提高爬虫的效率，我希望我的爬虫能使用我的全部带宽，并且在给定的时间内尽可能多的爬行period.For，我正在采取以下设置：- 我增加了号码。(使用此函数ContentCrawler('classfilename', 10 );) 我已经将礼貌延迟减少到50 ms (使用Crawlconfig.setpolitenessdelay(50);) 我给爬行深度作为2(使用Crawlconfig.setMaxDepthOfCrawling(2)) 现在我想知道的是：- ( 1)这种设置有什么副作

浏览 3提问于2014-09-29得票数 1

回答已采纳

1回答

scrapy似乎没有在depth_limit上进行优化

、、

我刚接触scrapy，似乎还没有人问过这个问题。问题是，我只想浅层抓取一个大站点(大约500个链接)，所以我设置了depth_limit=1 (可能以后会扩展到2或3)，还要求爬行器过滤所有重复的响应。然而，在阅读日志后，我发现即使在depth_limit=1时，爬虫仍然检查很多首页的外链(大约100000)和所有返回的depth > 1，这是浪费时间，因为首页上的所有链接都是深度1，那么生成的链接肯定会深度2或更高。我认为没有理由检查深度为1的链接的外链来查找深度等于1的外链。那么我如何编写我的设置来实现我自己的逻辑或者优化爬行器呢？

浏览 2提问于2013-10-22得票数 1

7回答

Web Cralwer算法:深度？

、、

我正在做一个爬虫，需要确切地理解什么是“链接深度”。以nutch为例：深度表示应该从根页面抓取的链接深度。所以，假设我有域www.domain.com，想要爬一个深度的，比如说，3 --我需要做什么？如果一个站点可以被表示为二叉树，那么我认为它不会是一个问题。

浏览 10提问于2010-12-04得票数 4

回答已采纳

2回答

如何让crawler4j更快地从页面下载所有链接？

、

我所做的是： crawl 获取页面的所有链接，将它们放入列表启动一个新的爬虫程序，它访问列表中的每个链接下载它们一定有更快的方法，当我访问页面时，我可以直接下载链接？谢谢！

浏览 3提问于2012-01-10得票数 6

回答已采纳

1回答

即使网址从seed.txt中删除，网站也会被爬行(Nutch2.1)

、

我在seed.txt中用url-1成功地执行了一次爬行，我可以在MySQL数据库中看到爬行的数据。现在，当我尝试通过在seed.txt中用url-2替换url-1来执行另一次新的爬行时，新的爬行开始于抓取步骤，并且它试图抓取的url是seed.txt中旧的替换的url。我不确定它是从哪里拿到这个旧网址的。我尝试检查隐藏的种子文件，但没有找到，并且在我运行爬网命令的NUTCH_HOME/ run /local中只有一个文件夹urls/seed.txt。请告诉我可能是什么问题？

浏览 1提问于2013-04-17得票数 1

1回答

如何从不同的文件中读取urls并设置不同的爬行深度？

、、、

我希望有两个文件seed.txt和seed2.txt，并且在每个文件中都有不同的urls。在seed.txt中，我想为ex提供爬行深度。2，在seed2.txt中，深度为3。有什么解决方案或变通方法吗？？

浏览 0提问于2013-01-17得票数 2

回答已采纳

1回答

Firestore中Map字段的最大深度是多少？

我正在使用Map字段来存储成员的所有医疗救助ID。我不想使用子集合，因为它的最大深度只有100。一名成员的医疗救助可达100多人。下面是我的地图字段的一个例子： medicalAids:{ id1: true, id2: true, id3: true} 我可以在这个medicalAids (地图)中存储多少个in？我应该用子集合代替吗？

浏览 2提问于2022-10-10得票数 1

回答已采纳

1回答

如何使用c#获取运行爬网(Sharepoint)

我是新来的，对Sharepoint、Visual Studio和C#一无所知。我需要知道爬行需要多长时间。下面的代码运行得很好--它是一个来自：但这只是历史(就像CrawlHistory所说的对象...)。要处理问题，我需要有关正在运行的爬网的信息。我找到了一个枚举"CrawlStatus“，但我不知道如何才能抓取它。爬网将自动从MS Sharepoint启动。有人能帮我吗？ ... SearchContext context; using (SPSite site = new SPSite("myServer")) { conte

浏览 1提问于2015-03-06得票数 0

2回答

Crawler不创建自定义爬网属性

、、

这几天我遇到了一个非常奇怪的问题。我有与MOSS 2007 SP2和WS 2008的开发环境，我有搜索配置，一切都很好。我已经开始配置过渡环境(MOSS 2007 SP2和June )，并创建新的场和新的SSP。我已经使用包(wsp)部署了我的更改，并手动创建了网站集、子网站、页面等。当fill crawl完成时，我在Crawl日志中看到我的所有页面都已成功抓取，并且当我使用一些测试工具查询搜索时，我的页面已被找到。在爬网日志中，很少出现像这样的错误：“crawler无法与服务器通信。请检查服务器是否可用以及防火墙访问是否配置正确。”，但此页库中的所有页都已被索引。问题是，我在搜索查询中使用

浏览 0提问于2009-09-15得票数 3

6回答

如何防止Googlebot淹没网站？

、

我在一个中间的专用服务器上运行一个内容很多但流量很少的网站。偶尔，Googlebot会蜂拥而至，导致Apache耗尽其内存，并导致服务器崩溃。我怎样才能避免这种情况？

浏览 2提问于2009-08-25得票数 11

回答已采纳

2回答

边界Heritrix深度

我是Heritrix的新手，正在使用heritirx 1.14。我不知道如何做以下事情: 1)绑定下载链接的BFS深度到一个特定的数字，例如3.2)限制下载的类型为html和text。非常感谢您的关注。

浏览 1提问于2010-06-20得票数 1

1回答

使用iframe抓取网站

、、

我有一个测试项目，使用一个支持爬网(开放构建蜘蛛)的库。问题是当我在url "“上爬行的时候。此页面包含来自"“的iframe。我想将元素p(s)放入iframe中。但我现在只能通过访问iframe.com来获取这些元素。我想知道，即使我不访问iframe.com，比如wait for ifame loaded，是否仍然可以获取元素p。谢谢!

浏览 16提问于2018-01-27得票数 1

回答已采纳

1回答

如何抓取只从特定类别抓取链接，并忽略产品页面上的链接？

、、

我想从一个类别中抓取产品，但我不希望蜘蛛沿着产品页面上找到的链接(相关产品来自同一品牌，但类型不同-例如。我想要的产品是香水，作为相关产品，它有一支口红)。类别的url是site.com/category_name/，产品的url是site.com/brand_name/product-name-here/。我应该如何定义爬网规则？

浏览 1提问于2015-01-16得票数 1

1回答

将robots.txt放在何处以防止爬行

、

我使用robots.txt文件来防止爬虫抓取特定的页面。当我想要阻止在/folder/myfolder/中爬行myfolder中的所有内容时，我可以将robots.txt放在/folder/myfolder/robots.txt中并写道： User-agent: * Disallow: / 或者我必须将robots.txt放在/robots.txt中并设置： User-agent: * Disallow: /folder/myfolder/ 谁知道呢？

浏览 3提问于2016-12-03得票数 1

1回答

Sharepoint2010搜索服务

、、、

如何在sharepoint 2010搜索服务爬网中创建和配置内容源以查找word文档中的文本？

浏览 5提问于2011-08-23得票数 0

1回答

Praw (Reddit API)如何检索对超过10个层次的评论的答复

、、

好的，所以我已经编写了一些代码，为了所有的意图和目的，这些代码应该可以工作： def checkComments(comments): for comment in comments: print comment.body checkComments(comment.replies) def processSub(sub): sub.replace_more_comments(limit=None, threshold=0) checkComments(sub.comments) #login and subreddit init stuff here sub

浏览 0提问于2014-08-20得票数 0

回答已采纳

4回答

访问常见的爬网AWS公共数据集

、、、、

我需要浏览和下载公共爬虫公共数据集的一个子集。页面提到了数据托管的位置。如何浏览和下载托管在s3://aws-publicdatasets/common-crawl/crawl-002/上的常见爬网数据？

浏览 0提问于2013-05-20得票数 6

回答已采纳

1回答

为什么传输不符合我的1KB/秒上传限制？

、

我正在使用Ubuntu10.10，并有一个关于传输2.22网络活动的问题。尽管我将全球上传限制设置为1kbs/s或甚至0 kb/s，但我的系统监视器/Conky显示出稳定的20~25 kb/ or上传速率。我只是好奇，这个上传率是怎么回事，有没有机会降低它？

浏览 0提问于2011-04-27得票数 5

1回答

SharePoint 2010 -“企业关键字”字段的托管属性是什么？

、

我有包含企业关键字网站列的页面库。如果我正在加载一个页面，其中的企业关键字列包含‘主页’，那么我想要获取在其企业关键字列中具有相同值的所有其他页面的列表。我正在尝试编写一个KeyWordQuery，用于在Taxonomy字段中搜索企业关键字。但我不确定哪个是它的托管属性。我找到一个名为"TaxKeyword“的爬网属性，但它没有映射到任何托管属性。有人能帮我一下吗？提前谢谢。

浏览 3提问于2012-08-24得票数 1

1回答

在linux上作为后台进程运行时，Nutch crawl失败

、、、

当我以本地模式在Ubuntu上作为后台进程运行Nutch crawl时，Fetcher会挂起线程而中止。这条消息类似于： WARN fetcher.Fetcher -中止，"X“挂起线程。我使用nohup和&启动脚本，因为我想从会话注销，并让crawler仍然在服务器上运行。否则，当爬网在特定深度完成并且爬网数据库正在更新时，SSH会话将超时。我尝试在没有太多帮助的情况下配置"keep alive“消息。该命令类似于： nohup ./bin/nutch crawl ....... & 以前有没有人经历过这种情况？似乎只有当我使用nohup或&时才会发

浏览 0提问于2012-08-29得票数 0

2回答

来自多个ajax调用的缓慢响应

、、

我有一个两列UI，其中两列都包含来自使用JQuery的两个不同ajax调用的消息。页面上还有其他ajax调用。这两个服务都缓存在服务器端，我可以看到它们都在不到0.01秒的中执行。然而，firebug告诉我，它们的加载时间是0.41秒。，通过查看加载时间，也可以看出加载时间太长了。还要注意的是，没有那么多的数据被发送，所以它不是传输时间。有什么原因吗？这是ajax造成的问题吗？JQuery会以某种方式排队请求吗？编辑增加的萤火虫网选项卡截图缓存的调用是ProjectTodo.aspx和GetHappenings.aspx，它们都在服务器端执行不到0.01秒。也没有那么严重的结

浏览 4提问于2012-10-04得票数 4

回答已采纳

1回答

SharePoint 2010:标记配置文件未显示所有标记的项目

、

在标记了一些项目后，我转到标记配置文件，看不到已标记的项目，也没有选择“全部”或“最近60天内流行”。以下是我核实过的事情： 1)我正在确保这两个作业每分钟都在运行， User Profile Service应用程序-社交数据维护作业分钟 User Profile Service应用程序-社会评级同步作业 2)尝试了完全爬网和增量爬网，结果相同。 3)不要在“可搜索的列”排除的列列表中选择任何列。有什么想法吗？其他收集这些信息的工作，我遗漏了什么吗？提前谢谢。更新:一天后，我看到了正在标记的项目。这意味着，有一些服务，以及完整的爬网，会导致这些信息出现。这些是哪些服务/工作？

浏览 2提问于2011-03-15得票数 1

回答已采纳

1回答

Angular:如果模式(弹出)中止，则不更新ngx-datatable-column中的值

、、

我有一个ngx-datatable，其中有几个列，如下所示： <ngx-datatable-column name="PLZ/Ort" prop="plzCity" [flexGrow]="1" > <ng-template let-column="column" let-sort="sortFn" let-sortDir="sortDir" ngx-datatable-header-template> <span (click)="so

浏览 0提问于2019-05-15得票数 0

1回答

PHP博客中的分页

、

我正在用PHP创建一个博客(试图让它接近OOP)，并且正在努力让分页在显示所有帖子的页面上工作。有问题的blog.php的代码是 <?php require_once("includes/init.php"); $pagetitle = "Blog"; //include header. require_once("includes/template/header.php"); // initialise script $blog = new Blog($db); $parsedown = new Parsedown(); // load

浏览 2提问于2014-05-06得票数 0

3回答

MSTP环-最大开关数？

、

我们继承了用MSTP配置的12个交换机的环形拓扑。每个交换机要么是4个或8个端口，但在一般情况下，大多数是4个端口与2光纤上行，形成环。我们得到的统计数据中似乎有大量的拓扑变化：开关的状态显示了大量的拓扑变化: 3185。我已经看过几个帖子，表明一个环中有最多的开关/桥接器。虽然这些职位确实与RSTP有关，但与MSTP无关。带以太网环的RSTP恢复时间我正在试图找到具体的初步证据，证明是这样的，并确定一个环的最大开关。最大可能也受到MSTP设置的影响，目前我对MSTP的了解有限。亲切的问候艾丹

浏览 0提问于2019-08-15得票数 1

1回答

如何查找哪个已爬网/托管属性属于列表的哪一列？

、

我知道在SharePoint中爬行会自动为我们创建爬行属性。我们可以使用它们来创建托管属性。有没有什么配置或设置可以让我们知道哪个爬网/托管属性属于列表的哪一列？或者，有没有其他方法来了解它？

浏览 4提问于2018-02-21得票数 0

回答已采纳

1回答

硬件以太网IP限制

、、

Linux环境下我可以为一个硬件以太网接口分配多少个IP地址？有什么限制吗？什么是最大的不。虚拟以太网接口我可以分配给硬件以太网接口吗？

浏览 0提问于2013-05-29得票数 2

2回答

抓取大型站点，处理超时

、、、、

我希望你能帮助我。我试图抓取一个4500在它包含信息的链接的网站。所以结构是这样的：第一级(只是不同的类别) Tier 2 (Containing different Topics) Tier 3 (Containing Topic Information) 所以我的脚本在一个循环中打开每个类别-然后一个主题一个主题地打开，并从Tier 3中提取所有信息。但是由于有大约4500个主题，我有一些问题，我有时会有一个超时错误，在这之后我必须从头开始尝试(有时在200个主题之后，另一些时间在2200个主题之后)。我的问题是，我如何才能以正确的方式完成它，这样如果它崩溃了，我可

浏览 0提问于2013-06-12得票数 0

回答已采纳

1回答