当爬网在最后一页(request，python)时，如何打破爬网？

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、、

我做了一个有请求的爬虫程序，当它在最后一页时，我想停止它。我应该把break语句放在哪里来中断最后一页的循环？现在它可以运行，但不会在最后一页停止。我附加了这个程序。

浏览 13提问于2018-02-05得票数 0

回答已采纳

1回答

Nutch crawl命令

、、

对于Nutch 2.2.1，我知道有两个爬行命令- bin/nutch (step by step)，bin/crawl (全部在一起) 我知道如何为bin/crawl命令指定爬网ID。同样，如何为bin/nutch命令指定爬网ID？我问的原因是，我使用all-in-one crawl command "bin/crawl"运行了一个大型爬网作业，指定了一个爬<em

浏览 1提问于2013-10-25得票数 1

2回答

手动将项目添加到SharePoint Search索引

、、、

我正在寻找一种方法来添加一个文件到搜索索引使用API，因为和当文件被添加到文档库。我可以添加eventhandler并编写代码来调用API。我需要知道API是否支持这样的接口。

浏览 0提问于2011-07-14得票数 2

1回答

如何在我的CF模板中设置胶水爬行器RecrawlPolicy

、、

但是我找不到任何关于如何在CloudFormation模板中做到这一点的指导。

浏览 59提问于2020-11-07得票数 2

回答已采纳

1回答

我只知道如何显示它，但我希望能够进入其中的每一个链接。这是我们的内部网数据，因此您将无法访问链接。另外，当数据显示在文件中时，我如何格式化日期？是否需要在start_url中添加urls列表？row>from scrapy.contrib.spiders.init import InitSpider from scrapy.http import Request:8080/dis/login.jsp&

浏览 3提问于2013-07-10得票数 2

回答已采纳

4回答

让我的小蜘蛛停止爬行

、

当特定的if条件为真(如scrap_item_id == predefine_value )时，是否有机会停止爬网。我的问题类似于，但我想“强制”我的抓取蜘蛛在发现最后一个抓取的项目后停止爬行。

浏览 0提问于2010-12-15得票数 35

1回答

TYPO3爬虫程序一直在加载，直到出现内部服务器错误500

、

我在多个TYPO3实例上配置了crawler (版本5.1.3) (配置和TYPO3版本7.6.20始终相同)。有时它会工作，有时我会遇到这样的问题：这使得不可能使用爬网程序来抓取页面。提前谢谢。

浏览 6提问于2017-08-11得票数 0

回答已采纳

1回答

Scrapy:如何构建一个从多个URL收集信息的项目？

、、、

在不情愿地编写了几年的代码后，我发现了，我几乎把它当做今年给自己的圣诞礼物！它的使用很自然，而且似乎是为了让几乎所有东西都变得优雅和可重用而构建的。但我正处于一种不确定如何处理的情况:我的爬虫爬行并抓取一个列表页面A，我从该页面生成一组条目。我的问题分为两个部分:在抓取过程之外获取URL的协议是什么？如何以一种优雅的方式从多个来源构建项目？这个问题已经在StackOverflow上的中得到了部分询问(并得到了回答)。

浏览 0提问于2012-08-05得票数 4

回答已采纳

4回答

web爬虫在对web服务器的重复请求之间等待的最佳持续时间是多少

、

这个值在不同的服务器上是否也不同...如果是这样的话，如何确定呢？

浏览 0提问于2009-04-28得票数 7

2回答

在虚拟机上运行python程序

、

我安装了python和scrapy。我想从那里运行我的蜘蛛，scrapy crawl test -o test1.csv我从gcp打开终端并运行蜘蛛(工作)，这将需要至少3个小时。如何确保在退出终端(浏览器)时脚本将继续执行。

浏览 23提问于2019-08-31得票数 1

回答已采纳

2回答

Nutch-Hadoop:-我们怎么才能只抓取url中的更新来重新抓取呢？

、、

请任何人让我知道，我如何才能识别更新的网址去重新抓取？当页面要重新爬行时，我只想抓取页面的更新内容，而不是已经抓取的旧内容。提前谢谢。普拉亚..。

浏览 0提问于2012-04-20得票数 0

1回答

我想进行网络爬网，但有些项目已爬网，但有些项目未爬网。我不知道原因

、

我正在使用python中的BeautifulSoup来抓取一个网站。在对addrs、a_earths进行爬网时，无法对末尾的points = soup.select('.addr_point')此部分进行爬网。import BeautifulSoup req = urllib

浏览 5提问于2020-02-24得票数 1

2回答

Crawler不创建自定义爬网属性

、、

当fill crawl完成时，我在Crawl日志中看到我的所有页面都已成功抓取，并且当我使用一些测试工具查询搜索时，我的页面已被找到。在爬网日志中，很少出现像这样的错误：“crawler无法与服务器通信。请检查服务器是否可用以及防火墙访问是否配置正确。”，但此页库中的所有页都已被索引。问题是，我在搜索查询中使用了自定义托管属性(映射到自定义爬网属性)，但crawler并没有为我的所有新站点列创建爬<

浏览 0提问于2009-09-15得票数 3

1回答

在linux上作为后台进程运行时，Nutch crawl失败

、、、

当我以本地模式在Ubuntu上作为后台进程运行Nutch crawl时，Fetcher会挂起线程而中止。这条消息类似于： WARN fetcher.Fetcher -中止，"X“挂起线程。我使用nohup和&启动脚本，因为我想从会话注销，并让crawler仍然在服务器上运行。否则，当爬网在特定深度完成并且爬网数据库正在更新时，SSH会话将超时。我尝试在没有太多帮助的情况下配置&qu

浏览 0提问于2012-08-29得票数 0

1回答

关于随机写入操作，有哪些“附加操作”的例子？

、、、

我刚刚读完Google文件系统(GFS)这篇文章。报纸上说GFS是鉴于这一特点在整篇论文中都得到了强调，我认为它肯定非常重要。

浏览 4提问于2012-01-07得票数 2

2回答

nodejs express - cant设置标头

、、、

使用由express提供的webfrom提交的值来使用request + cheerio启动爬网。这是怎么回事？

浏览 2提问于2016-05-10得票数 0

1回答

在递归中使用scrapy回调时，xlsxwriter无法创建文件

、、、

xlsxwriter无法在递归中创建文件，有没有人可以看看？== 'https://www.hotelgg.com/venue/mittitlt/':已发送爬网请求yield scrapy.Request(url=start_urls[0], callback=self.parse) def parse(self, resp

浏览 1提问于2018-10-23得票数 1

2回答

此URL的SharePoint 2007 -Content已被服务器排除，因为没有索引属性

、、、

有没有人遇到过这样的错误:搜索爬虫忽略了一个aspx页面？对于这些页面，我收到以下警告消息：“此URL的内容已被服务器排除，因为没有索引属性”。谢谢。

浏览 0提问于2009-05-19得票数 1

回答已采纳

1回答

如何使在自定义.NET连接器中添加了自定义ACL的BCS安全修剪项目可供搜索结果中的ADFS用户使用

、、、

我不工作的意思是，当通过windows身份验证登录时，有权访问这些BCS记录的用户可以在搜索中看到它们(这是正确的)。使用ADFS登录的同一用户无法在搜索中看到这些相同的记录(这是不正确的)。我的设置是在带有ADFS的Windows2012 R2上安装SharePoint 2013。正在使用自定义.NET连接器通过BCS对SQL server数据库进行爬网。连接器通过添加ACL在爬网时提供安全修剪。

浏览 5提问于2014-07-10得票数 2

2回答