开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >Scrapy如何过滤爬行的urls？

问Scrapy如何过滤爬行的urls？
EN

Stack Overflow用户

提问于 2012-11-28 23:43:15

回答 1查看 1.5K关注 0票数 3

我想知道Scrapy如何过滤那些爬行的urls？它是否存储了所有爬行在类似crawled_urls_list中的url，当它获得一个新的url时，它会查找列表以检查url是否存在？

CrawlSpider(/path/to/scrapy/contrib/spiders/crawl.py)过滤部分的代码在哪里？

非常感谢!

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2012-11-29 07:50:50

默认情况下，scrapy保存所见请求的指纹。这个列表保存在python集中的内存中，并在JOBDIR变量定义的目录中附加一个文件调用requests.seen。如果重新启动scrapy，文件将重新加载到python集中。控制它的类在scrapy.dupefilter中，如果需要不同的行为，您可以重载这个类。

票数 5

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/13621014

复制

相关文章

scrapy start_urls_renpy中文文档

https 网络安全 java http html

转载于:https://www.cnblogs.com/andy9468/p/8299636.html

全栈程序员站长

2022/09/19

2220

项目实战 | Python爬虫概述与实践（三）

python 爬虫 scrapy

《项目实战 | python爬虫及实践(一)》中介绍了网络爬虫的定义、分类和基本流程。

用户3946442

2022/04/11

5410

项目实战 | Python爬虫概述与实践（三）

016：Scrapy使用中必须得会的问题

scrapy php http python

（1）优点：scrapy 是异步的采取可读性更强的 xpath 代替正则强大的统计和 log 系统，同时在不同的 url 上爬行支持 shell 方式，方便独立调试写 middleware,方便写一些统一的过滤器，通过管道的方式存入数据库（2）缺点：基于 python 的爬虫框架，扩展性比较差基于 twisted 框架，运行中的 exception 是不会干掉 reactor，并且异步框架出错后是不会停掉其他任务的，数据出错后难以察觉。

李玺

2021/11/22

1.6K0

016：Scrapy使用中必须得会的问题

Scrapy 爬虫框架学习记录

爬虫 xslt & xpath css scrapy html

安装完 scrapy 后，新建一个爬虫的目录，然后在命令行窗口进入该目录，输入以下命令：

caoqi95

2019/03/28

5850

Scrapy 爬虫框架学习记录

scrapy小实例

爬虫 scrapy python https 编程算法

1.在安装好scrapy后，使用scrapy startproject +项目名来创建一个scrapy项目，如下图即创建成功：

句小芒

2022/12/29

2710

爬虫系列（10）Scrapy 框架介绍、安装以及使用。

爬虫 php scrapy python

运行命令:scrapy startproject myfrist（your_project_name）

野原测试开发

2019/07/10

1.4K0

爬虫系列（10）Scrapy 框架介绍、安装以及使用。

Scrapy-Redis分布式爬虫组件

爬虫分布式云数据库 Redis®scrapy php

Scrapy是一个框架，他本身是不支持分布式的。如果我们想要做分布式的爬虫，就需要借助一个组件叫做Scrapy-Redis，这个组件正是利用了Redis可以分布式的功能，集成到Scrapy框架中，使得爬虫可以进行分布式。可以充分的利用资源（多个ip、更多带宽、同步爬取）来提高爬虫的爬行效率。

用户2200417

2022/03/13

8610

一、了解Scrapy

scrapy css 网站 xml xslt & xpath

Scrapy 是一个用于爬取网站并提取结构化数据的高效爬虫框架，它可以用于各种应用程序/项目，比如数据挖掘、信息处理和档案处理等。最初设计 Scrapy 是用来爬取 Web 数据的，但是现在也可以将它用于爬取 API 信息和作为通用 Web 搜索器来提取数据。

喵叔

2020/09/08

9030

Django in App Urls

Django 2.0 版本urls配置 2.0 简化了路由的配置，不需要写正则了。和Flask定义路由格式差不多，都是 edit/<int:id> 1、项目的总urls配置： 2、apps的url

简单、

2018/07/17

3250

scrapy 快速入门

爬虫 scrapy python

乐百川

2018/01/09

1.3K0

新站优化如何吸引搜索引擎蜘蛛的爬行？

搜索引擎网站敏捷网络优化

随着搜索引擎算法不断更新和调整，互联网技术发展越来越快，目前搜索引擎对于网站文字的抓取和判断也非常先进，能够很敏捷的检索出网站内容的质量，如果是一些复制粘贴的内容很有可能会遭到搜索引擎蜘蛛的嫌弃，判定你的网站是抄袭行为。因此一定要注重网站内容的质量，高质量远传的内容才会得到搜索引擎蜘蛛的信任与喜爱，对网站进行多多关照。

NorthS

2023/03/21

4600

新站优化如何吸引搜索引擎蜘蛛的爬行？

又面试了Python爬虫工程师，碰到这么

网络安全 https php 编程算法分布式

采取可读性更强的 xpath 代替正则强大的统计和 log 系统，同时在不同的 url 上爬行支持 shell 方式，方便独立调试写 middleware,方便写一些统一的过滤器，通过管道的方式存入数据库。

py3study

2020/01/16

8040

QiqiHe

2017/12/21

1.6K1

基于 Python 的 Scrapy 爬虫入门：代码详解

python scrapy 爬虫

一、内容分析接下来创建一个爬虫项目，以图虫网为例抓取里面的图片。在顶部菜单“发现” “标签”里面是对各种图片的分类，点击一个标签，比如“美女”，网页的链接为：https://tuchong.com/tags/美女/，我们以此作为爬虫入口，分析一下该页面：打开页面后出现一个个的图集，点击图集可全屏浏览图片，向下滚动页面会出现更多的图集，没有页码翻页的设置。Chrome右键“检查元素”打开开发者工具，检查页面源码，内容部分如下： <div class="content"> <div clas

小莹莹

2018/04/24

1.4K0

基于 Python 的 Scrapy 爬虫入门：代码详解

Scrapy实战9: Item+Pipeline数据存储

scrapy python html http 数据库

好久没更新了，快半个月了，也少有读者催着更新，于是乎自己就拖啊，为公众号出路想方设法，着实是有点迷失自我，废话不多说了。

龙哥

2020/02/12

1.3K0

新闻推荐实战（四）：scrapy爬虫框架基础

scrapy 推荐系统 xslt & xpath python

本文属于新闻推荐实战-数据层-构建物料池之scrapy爬虫框架基础。对于开源的推荐系统来说数据的不断获取是非常重要的，scrapy是一个非常易用且强大的爬虫框架，有固定的文件结构、类和方法，在实际使用过程中我们只需要按照要求实现相应的类方法，就可以完成我们的爬虫任务。文中给出了新闻推荐系统中新闻爬取的实战代码，希望读者可以快速掌握scrapy的基本使用方法，并能够举一反三。

用户9656380

2022/04/14

8600

新闻推荐实战（四）：scrapy爬虫框架基础

Scrapy源码剖析（二）Scrapy是如何运行起来的？

爬虫 scrapy python

在上篇文章：Scrapy源码剖析（一）架构概览，我们主要从整体上了解了 Scrapy 的架构和数据流转，并没有深入分析每个模块。从这篇文章开始，我将带你详细剖析 Scrapy 的运行原理。

_Kaito

2021/03/23

1.1K0

Scrapy源码剖析（二）Scrapy是如何运行起来的？

专栏：016：功能强大的“图片下载器”

爬虫 python scrapy 存储官方文档

用理工科思维看待这个世界系列爬虫专栏初学者，尽力实现最小化学习系统如何实现项目图片的下载 ---- 0：学习理念推荐阅读简书：学习方法论我觉得对我有帮助，多问自己为什么从来不是什么坏毛病。学习理念作为初学者，独自在摸索中的过程中，往往会遇到各种各样的问题，第一遍的学习往往就算呈现的是正确答案，往往也不能全部理解，这歌层次需要知道：是什么？；第二遍的学习需要知道：怎么做？；第三遍的学习需要知道：如何实现已知的？；第四步的学习需要知道：如何实现自己的？

谢伟

2018/06/06

6200

scrapy中的强大媒体管道（二）

python scrapy bash php

上文用了scrapy爬取了百度的美女图片，今天写写scrapy中的Image Pipeline

润森

2019/08/29

1.2K0

scrapy中的强大媒体管道（二）

爬虫小白:11.scrapy框架(六) _媒体管道

bash scrapy php

直接使用ImagePipeline类 , 所有的图片都是保存在 full文件夹下:

见贤思齊

2020/08/05

8980

爬虫小白:11.scrapy框架(六) _媒体管道

相似问题

无法从爬行器获取urls计数(Scrapy)

10

将字符串导入scrapy以用作爬行urls

13

Python Scrapy只爬行start_urls，然后停止。如何走得更深？

21

Scrapy CSV爬行

20

在Scrapy规则的urls列表上使用参数进行爬行迭代

13

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

社区富文本编辑器全新改版！诚邀体验～

全新交互，全新视觉，新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能，全面提升创作效率和体验