开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Scrapy跟随链接但不返回数据，可能是计时问题？

Scrapy是一个基于Python的开源网络爬虫框架，用于快速、高效地从网页中提取数据。它可以自动地跟随链接并抓取网页内容，但在某些情况下可能会出现跟随链接但不返回数据的问题。这种情况通常是由于计时问题引起的。

在爬取网页时，有些网站会对频繁的请求进行限制，例如设置了访问频率限制或者使用了反爬虫机制。当Scrapy发送请求后，如果在规定的时间内没有收到响应，就会认为请求超时，从而导致跟随链接但不返回数据的情况发生。

为了解决这个问题，可以尝试以下几种方法：

增加下载延迟：通过在Scrapy的配置中增加下载延迟，可以减少请求的频率，降低被网站限制的概率。可以使用DOWNLOAD_DELAY参数来设置下载延迟，例如设置为0.5秒：DOWNLOAD_DELAY = 0.5。
使用代理IP：通过使用代理IP，可以隐藏真实的请求来源，减少被网站限制的可能性。可以在Scrapy的配置中设置代理IP，例如：PROXIES = [{'ip': '127.0.0.1', 'port': '8888', 'user': 'username', 'pass': 'password'}]。
随机选择User-Agent：有些网站会根据User-Agent来判断请求的合法性，通过随机选择User-Agent，可以增加请求的多样性，减少被网站限制的概率。可以在Scrapy的配置中设置User-Agent池，例如：USER_AGENT_POOL = ['Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3']。
使用Scrapy的自动限速功能：Scrapy提供了自动限速功能，可以根据网站的响应速度自动调整请求的频率，避免被网站限制。可以在Scrapy的配置中启用自动限速功能，例如：AUTOTHROTTLE_ENABLED = True。

以上是解决Scrapy跟随链接但不返回数据的一些常见方法。根据具体情况选择适合的方法，可以提高爬取数据的成功率。腾讯云提供了云服务器、云数据库、云存储等相关产品，可以帮助开发者构建稳定可靠的云计算环境。更多关于腾讯云产品的信息，请参考腾讯云官方网站：https://cloud.tencent.com/。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

爬虫课堂（二十八）|Spider和CrawlSpider的源码分析

包括了爬取的动作（是否跟进链接）以及如何从网页的内容中提取结构化数据（提取Item）。 Spider就是定义爬取的动作以及分析某个（或某些）网页的地方。...Item传给Item pipline持久化，Requests交由Scrapy下载，并由指定的回调函数处理，一直进行循环，直到处理完所有的数据为止。重点：这个类需要我们自己去实现。...因此，第一个被获取到的页面的URL将是该列表之一，后续的URL将会从获取到的数据中提取。...使用方式案例如下： rules = ( # 提取匹配 'category.php' (但不匹配 'subsection.php') 的链接并跟进链接(没有callback意味着follow默认为...（该回调函数可能是rule中的解析函数，也可能是 parse_start_url函数） #2、如果设置了回调函数（parse_start_url()），那么首先用parse_start_url

1.8K8 0

Python爬虫之scrapy框架

（放爬虫的地方）容器（items）的定义，容器不一定是一开始全部都定义好的，可以跟随项目的更新一点点向里面添加也就是定义我们要爬取的内容 import scrapy class DmozItem...爬虫的唯一标识，不能重复，启动爬虫的时候要用 allowed_domains = ["dmoz.org"] # 限定域名，只爬取该域名下的网页 start_urls = [ # 开始爬取的链接...，执行生成response对象并送回给parse() 方法进行解析,所以请求链接的改变是靠回调函数实现的。...yield scrapy.Request(self.url, callback=self.parse) 3.Scrapy框架的整体架构和组成官方的Scrapy的架构图图中绿色的是数据的流向...：项目管道，负责处理spider从网页中抽取的数据，主要是负责清洗，验证和向数据库中存储数据 Downloader Middlewares：下载中间件，是处于Scrapy的Request和Requesponse

3231 0

新闻推荐实战（四）：scrapy爬虫框架基础

爬行器是自己定义的类，Scrapy使用它从一个网站(或一组网站)中抓取信息。它们必须继承 Spider 并定义要做出的初始请求，可选的是如何跟随页面中的链接，以及如何解析下载的页面内容以提取数据。...最后，从spider返回的项目通常被持久化到数据库（在某些 Item Pipeline ）或者使用 Feed 导出 ....# 必须返回请求的可迭代(您可以返回请求列表或编写生成器函数)，spider将从该请求开始爬行。后续请求将从这些初始请求中相继生成。...mongodb数据库中，并且需要监控每天爬取新闻的状态（比如某天爬取的数据特别少可能是哪里出了问题，需要进行排查）每天爬取新闻的时候只爬取当天日期的新闻，主要是为了防止相同的新闻重复爬取（当然这个也不能完全避免爬取重复的新闻...，注意这里需要将item返回注意：判断新闻是否是今天的，每天只保存当天产出的新闻，这样可以增量的添加新的新闻数据源 """ if isinstance(

8322 0

从原理到实战，一份详实的 Scrapy 爬虫教程

本文将从原理到实战带领大家入门另一个强大的框架 Scrapy。如果对Scrapy感兴趣的话，不妨跟随本文动手做一遍！ ?...selector list列表，语法同 BeautifulSoup4 re(): 根据传入的正则表达式对数据进行提取，返回字符串list列表七、案例实战本节，我将使用Scrapy爬取站酷数据作为示例...方法 & 描述 extract() 返回的是符合要求的所有的数据，存在一个列表里。 extract_first() 返回的hrefs 列表里的第一个数据。...ZcoolItem 然后使用yield返回数据。...没有问题，数据采集完毕。 7.7. 总结入门案例，需要细心，主要是基础知识的巩固，以便于为进阶学习做好准备。 -END-

9.6K5 1

爬虫框架 Scrapy 知识点简介

使用之前你要清楚这么一件事，Scrapy框架和你自己编写的区别，我理解的区别就是没什么区别，你编写的爬虫也是为了抓取数据，框架也是为了抓取数据，唯一有一定不同的就是，不管是我们现在所说的Scrapy框架还是其他的爬虫框架都是使爬虫功能模块话...（放爬虫的地方）容器（items）的定义，容器不一定是一开始全部都定义好的，可以跟随项目的更新一点点向里面添加 import scrapy class DmozItem(scrapy.Item): #...，执行生成response对象并送回给parse() 方法进行解析,所以请求链接的改变是靠回调函数实现的。...：项目管道，负责处理spider从网页中抽取的数据，主要是负责清洗，验证和向数据库中存储数据 Downloader Middlewares：下载中间件，是处于Scrapy的Request和Requesponse...原文链接: https://www.jianshu.com/p/cecb29c04cd2

2982 0

爬虫框架Scrapy总结笔记

我的总结大概分为四步： Scrapy的整体架构使用Scrapy框架的一个完整流程 Scrapy框架的安装使用Scrapy实现爬虫 scrapy的整体架构 ?...item pipelines：管道，用来去存储爬取的数据，该如何存储、存储到哪里还是由开发者写。 scrapy engine：负责数据和信号在不同模块之间的传递，已经实现。...引擎不断从调度器中取请求，拿到这个请求 4、将请求发送给Downloader下载器，下载器把数据下载下来，把数据返回给引擎 5、数据返回给spiders，进行一系列分析，提取出想要的数据，再把数据发送给引擎...scrapy.cfg: 项目的配置文件容器（items）的定义，容器不一定是一开始全部都定义好的，可以跟随项目的更新一点点向里面添加。...，启动爬虫的时候要用 allowed_domains = ["dmoz.org"] # 限定域名，只爬取该域名下的网页 start_urls = [ # 开始爬取的链接

4751 0

《Learning Scrapy》（中文版）第3章爬虫基础

本章非常重要，你可能需要读几遍，或是从中查找解决问题的方法。我们会从如何安装Scrapy讲起，然后在案例中讲解如何编写爬虫。开始之前，说几个注意事项。...MacOS 为了轻松跟随本书学习，请参照后面的Vagrant说明。如果你想在MacOS中安装Scrapy，只需控制台中输入： $ easy_install scrapy 然后，所有事就可以交给电脑了。...右键复制链接地址，就可以复制URL。其中一个URL可能是这样的：https://www.gumtree.com/p/studios-bedsits-rent/split-level。...通常，Scrapy会先执行高优先级的请求，但不会花费太多时间思考到底先执行哪一个具体的请求。在你的大多数爬虫中，你不会有超过一个或两个的请求等级。...设定callback之后，Rule才能返回。如果你想让Rule跟随外链，你应该从callback方法return/yield，或设定Rule()的follow参数为True。

3.2K6 0

学会运用爬虫框架 Scrapy (三)

scrapy 发起的 http 请求中 headers 部分中 User-Agent 字段的默认值是Scrapy/VERSION (+http://scrapy.org)，我们需要修改该字段伪装成浏览器访问网站...在 settings.py 文件中增加配置： 6 页面跟随规则在爬取网站时，可能一些页面是我们不想爬取的。如果使用最基本的 Spider，它还是会将这些页面爬取下来。...其定义了如何从爬取到的页面提取链接。...allow_domains：会被提取的链接的domains。 deny_domains：一定不会被提取链接的domains。...还有一个类似的restrict_css callback：从 link_extractor 中每获取到链接时将会调用该函数。它指定一个回调方法。会返回一个包含 Item 对象的列表。

3983 0

Python 学习之 Tkinter「下」

如果单击一个项目，然后拖动鼠标会跟随选中，是默认的。 2.SINGLE：和 BROWSE 的区别是你只能选择一行，不能拖动。...3.EXTENDED:通过 shift 和 control 可以使 ListBox 支持连选和多选，能拖动 4.MULTIPLE:支持连选和多选，但不能拖动列表框 ListBox I # 创建一个 listbox...print(lb.get(0, 2)) # 获取元素值，用法同删除 print(lb.curselection()) # 返回当前的索引值 print(lb.selection_includes...高级爬虫(一):Scrapy爬虫框架的安装高级爬虫(二):Scrapy爬虫框架初探高级爬虫(三)：使用Scrapy爬取拉勾网数据并写入数据库您的Python之旅长按，识别二维码，关注公众号...公众号回复：Flask ,爬虫，数据分析，可获得电子书

2.2K2 0

Scrapy框架-CrawlSpider

（该回调函数可能是rule中的解析函数，也可能是 parse_start_url函数） #如果设置了回调函数（parse_start_url()），那么首先用parse_start_url...LinkExtractors:提取Response中的链接 class scrapy.linkextractors.LinkExtractor Link Extractors 的目的很简单: 提取链接｡...每个LinkExtractor有唯一的公共方法是 extract_links()，它接收一个 Response 对象，并返回一个 scrapy.link.Link 对象。...scrapy genspider -t crawl tencent www.tencent.com 修改爬虫文件代码 import scrapy # 导入链接规则匹配类，用来提取符合规则的链接 from...&start=0'] # Reponse里链接的提取规则，返回符合匹配规则的链接匹配对象的列表 pagelink = LinkExtractor(allow=("start=\d+")

6092 0

scrapy爬虫标准流程

对于会阻塞线程的操作包含访问文件、数据库或者Web、产生新的进程并需要处理新进程的输出(如运行shell命令)、执行系统层次操作的代码(如等待系统队列),Twisted提供了允许执行上面的操作但不会阻塞代码执行的方法...() pipelines.py 负责对spider返回数据的处理。...pipeline主要是对spiders中爬虫的返回的数据的处理，这里我们可以让写入到数据库，也可以让写入到文件等等。...导入CrawlSpider类和Rule from scrapy.spiders import CrawlSpider, Rule # 导入链接规则匹配类，用来提取符合规则的连接 from scrapy.linkextractors...&start=0#a"] # Response里链接的提取规则，返回的符合匹配规则的链接匹配对象的列表 pagelink = LinkExtractor(allow=("start=\d

6234 0

基于Scrapy的爬虫解决方案

导语 | Scrapy是一个较为流行的Python爬虫框架，本文将简单介绍Scrapy的使用方法，并对一些常见问题提出解决方法。对于想快速上手爬虫的初学者来说，本文值得一阅。...解析函数的初始化如下： def parse(self, response): pass 其中只有response一个实参，该实参就是访问某个URL链接的返回结果，里面含有该URL链接的HTML源码...三、常见问题 1....反爬虫之IP池在很多时候，爬取网站时一开始是能正常获得数据的，但是爬着爬着，就不能正常地获得数据了。一个很大的可能是IP被该网站封禁了。...四、结语本文简单介绍了下Scrapy框架的相关用法，并针对爬虫中常遇见的问题给出了基于Scrapy框架的解决方案，希望能对读者有所帮助，也欢迎大家在评论区与我交流。 ?

7181 0

使用python获取基金历史数据

可能是还没有体验到赚钱的快感或者说胆子太小还满足于余额宝那种万分收益2毛钱的幸福中，总之对自己的评价就是眼界太小。虽然意识到这一点了，但还是没有具体实践呀。...最明显的是中美贸易战，美联储通过连续降息方式引导资本回流美国导致人民币跟随降息导致债券一路走强。而新冠疫情的蔓延使得政府大量发行新冠相关的债券导致债券持续走的弱。除此之外股票和债券还存在跷跷板现象。...要获取全部基金历史数据分两步；第一步：获取所有上市的基金代码问题1：你连上人家服务器然后才能获取所有基金呀，你总不能从空气中直接拿吧！通过查阅相关资料，找到了东方财富的api，如代码所示。...= scrapy.Field() # 基金名称 # unitNetWorth = scrapy.Field() # 单位净值 # day = scrapy.Field()...当然您可以将这两段代码进行整合，这样就可以获取中国目前所有的基金数据。当然您还可以将数据存储到数据库中，这样您获取历史数据的时候只需要获取前一天的数据或者当天数据即可然后做增量存储。

2.2K4 2

python爬虫入门（八）Scrapy框架之CrawlSpider类

（该回调函数可能是rule中的解析函数，也可能是 parse_start_url函数） #如果设置了回调函数（parse_start_url()），那么首先用parse_start_url...｡每个LinkExtractor有唯一的公共方法是 extract_links()，它接收一个 Response 对象，并返回一个 scrapy.link.Link 对象。...Link Extractors要实例化一次，并且 extract_links 方法会根据不同的 response 调用多次提取链接｡ class scrapy.linkextractors.LinkExtractor...&start=0#a"] # Response里链接的提取规则，返回的符合匹配规则的链接匹配对象的列表 pagelink = LinkExtractor(allow=("start=\...# 链接 url = scrapy.Field() # -*- coding: utf-8 -*- import scrapy from scrapy.linkextractors import

2.2K7 0

三、scrapy后续 LinkExtractorsrules Logging发送POST请求内置设置参考手册

（该回调函数可能是rule中的解析函数，也可能是 parse_start_url函数） 49 #如果设置了回调函数（parse_start_url()），那么首先用parse_start_url...Link Extractors 的目的很简单: 提取链接｡每个LinkExtractor有唯一的公共方法是 extract_links()，它接收一个 Response 对象，并返回一个 scrapy.link.Link...如果其返回 Request 对象，Scrapy则停止调用 process_request方法并重新调度返回的request。.../en/latest/topics/items.html 7 8 import scrapy 9 10 '''Item 定义结构化数据字段，用来保存爬取到的数据，有点像Python中的dict...scrapy.Field() 25 #发布时间 26 publishTime = scrapy.Field() 写爬虫代码：(使用框架很简单，其实主要是提取数据） 1 # -*- coding

2K4 0

Python:CrawlSpiders

（该回调函数可能是rule中的解析函数，也可能是 parse_start_url函数） #如果设置了回调函数（parse_start_url()），那么首先用parse_start_url...Link Extractors 的目的很简单: 提取链接｡每个LinkExtractor有唯一的公共方法是 extract_links()，它接收一个 Response 对象，并返回一个 scrapy.link.Link...Link Extractors要实例化一次，并且 extract_links 方法会根据不同的 response 调用多次提取链接｡ class scrapy.linkextractors.LinkExtractor...allow_domains：会被提取的链接的domains。 deny_domains：一定不会被提取链接的domains。...#tencent.py import scrapy from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import

3333 0

Scrapy学习

它在项目中必须是唯一的，也就是说，不能为不同的蜘蛛设置相同的名称 start_requests():必须返回蜘蛛将开始从中爬行的请求的 iterable（您可以返回请求列表或编写生成器函数）。...shell 并输出数据，了解如何提取所需的数据： D:\python_cuijianzhe\scrapy_test>scrapy shell "http://quotes.toscrape.com"...: Spider closed (finished) 存储所抓取的数据（json 数据） D:\python_cuijianzhe\scrapy_test>scrapy crawl quotes -o...链接追踪既然知道了如何从页面中提取数据，那么看看如何跟踪页面中的链接第一件事是提取到我们要跟踪的页面的链接。...请参见选择元素属性）： In [3]: response.css('li.next a').attrib['href'] Out[3]: '/page/2/' 现在让我们看看我们的 spider 被修改为递归地跟随到下一页的链接

1.3K2 0

Scrapy爬取笑话网，Python3.5+Django2.0构建应用

('base::attr(href)').extract() response.extract() 返回被选择元素的unicode字符串 response.re() 返回通过正则表达式提取的unicode...如此循环，直至没有下一篇链接分支2：提取上一篇链接，依据上一篇链接提取笑话内容如此循环，直至没有上一篇链接 Part6：创建Scrapy项目抓取数据 1、创建Scrapy项目 E:\scrapy...\myScrapy1815>scrapy crawl joke 抓取的数据，文本文件格式如下 ?...抓取的数据，Excel文件格式如下 ? 抓取的数据，保存在SQLite数据库中如下 ?...-- 上述3个meta标签*必须*放在最前面，任何其他内容都*必须*跟随其后！

8441 0

手把手教你用Python实现分布式爬虫(四) - scrapy爬取技术文章网站

该方法负责解析返回的数据(response data)，提取数据(生成item)以及生成需要进一步处理的URL的 Request 对象。...html信息，比如js生成的，然后有些节点可能是在后台返回信息时才创建的，对于静态的网页就是检查源代码，定位的结果可能不一样，采用第二种id确定的方式更容易标准的定位。...中只有一个url，没有涉及到如何解析这个字段，通过文章分页一页一页的传递给scrapy，让scrapy自动去下载其他页面. 5.1 在scrapy中，不需要自己使用request去请求一个页面返回，所以问题是如何将众多的...VS 结构性数据 6.1.1 为何不使用dict数据类型数据爬取的主要目的就是从非结构的数据源得到结构性数据，解析完成的数据返回问题, 最简单的就是将这些字段分别都放入一个字典里，返回给scrapy...mysql的编码问题，解决办法为将mysql中数据库以及表的格式和连接数据库时的charset都要设置为utf8mb4格式，就解决了。

1.8K3 0

爬虫框架scrapy之中间件

中间件是Scrapy里面的一个核心概念。使用中间件可以在爬虫的请求发起之前或者请求返回之后对数据进行定制化修改，从而开发出适应不同情况的爬虫。...那么如果发现了这种自动的重定向，就没有必要让这一次的请求返回的内容进入数据提取的逻辑，而应该直接丢掉或者重试。...同一个时间点，不同页数提交的参数中，date对应的日期可能是今天的也可能是昨天的。同一个页数，不同时间提交的参数中，date对应的日期可能是今天的也可能是昨天的。...爬虫本身的代码，数据提取部分完全没有做任何修改，如果不看中间件代码，完全感觉不出爬虫在第5页重试过。除了检查网站返回的内容外，还可以检查返回内容对应的网址。...重新打开代理中间件，这一次故意设置一个有问题的代理，于是可以看到Scrapy控制台打印出了报错信息，如下图所示。 ? 从上图可以看到Scrapy自动重试的过程。

1.5K3 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭