scrapy - 标签 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

首页标签scrapy

#scrapy

一个开源和协作框架，用于从网站中提取所需的数据。

代理IP在分布式爬虫架构中的落地方案：Redis+Scrapy实战

永不掉线的小白 5天前2026-07-06 15:03:00

哈喽大家好！今天跟大家唠一手我线上长期稳定运行的实战方案，聊聊Redis + Scrapy 分布式爬虫的代理IP落地玩法，全程第一视角、干货拉满，直接能拿去上线...

14310

Python Scrapy 跨平台爬虫实战：XPath 解析与结构化数据提取

小白学大数据 12天前2026-06-29 16:52:52

爬虫开发中，请求—下载—解析—存储是最基础的四段流水线。请求和下载部分各语言方案大同小异，真正拉开效率差距的是解析层。BeautifulSoup 面对深层嵌套、...

17110

深度对比：Scrapy vs PySpider，谁更适合作为企业级分布式底层？

jackcode 12天前2026-06-29 14:03:36

搭建一个日产千万级页面的企业级分布式爬虫系统，框架选型往往是决定项目生死的第一步。在 Python 生态中，Scrapy 和 PySpider 是提及率最高的两...

14610

告别 Scrapy 反爬困境：无缝切换原生支持 JS 渲染的新一代爬虫框架

小白学大数据 16天前2026-06-25 16:48:56

一、前言：传统 Scrapy 爬虫在现代网页下的致命短板Scrapy 作为 Python 生态老牌同步爬虫框架，多年来是数据采集领域主流工具，凭借成熟管道、分布...

20210

告别频繁崩溃与OOM：百万级Scrapy爬虫架构优化

jackcode 17天前2026-06-24 14:59:02

不知道大家在日常开发中，有没有遇到过这种极其抓狂的场景：写了个 Scrapy 爬虫，跑十万级规模的项目稳如老狗，一旦把目标定到百万级页面，系统就开始疯狂“作妖”...

7410

集反爬、JS 渲染、AI 选器于一体，3 万 Star 的 Scrapling 凭什么火爆爬虫圈

小白学大数据 2026-06-042026-06-04 16:50:08

在Python网络爬虫工程化体系中，传统技术栈长期存在模块割裂、冗余度高、维护成本昂贵的行业痛点。常规数据采集方案高度依赖组件拼接：基于Requests实现HT...

35710

Scrapy爬虫大面积报错Timeout/403？彻底解决代理IP失效导致的“丢数据”痛点

jackcode 2026-04-092026-04-09 14:10:33

做爬虫开发的兄弟们肯定都经历过这种绝望时刻：周五下班前满心欢喜地部署了一个包含几十万URL的爬虫任务，挂上代理池，看着控制台刷刷地跑，安心回家过周末。结果周一早...

23110

python 3.7.4安装scrapy

Dragon水魅 2026-01-232026-01-23 14:20:59

进入网站：https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml cp37对应py3.7，自行选择32 or 64位...

21410

Python 网络爬虫：Scrapy 解析汽车之家报价与评测

小白学大数据 2025-12-292025-12-29 16:48:28

在汽车消费数字化的当下，汽车之家作为国内头部汽车资讯平台，汇聚了海量的车型报价、用户评测、配置参数等核心数据。借助 Python 的 Scrapy 框架构建爬虫...

59210

python的scrapy框架介绍

用户11754185 2025-12-162025-12-16 18:21:09

Scrapy是一个用于爬取网站数据的Python框架。它提供了一套强大的工具和API，可以简化爬取、处理和存储数据的过程。下面我将详细解释Scrapy框架的基本...

38010

【漏洞情报】Scrapy与Brotli解压缩漏洞导致拒绝服务攻击

qife122 2025-11-282025-11-28 18:33:47

Brotli 1.1.0及以下版本存在因解压缩导致的拒绝服务（DoS）攻击漏洞。该漏洞已在Brotli 1.2.0版本中得到修复。

36910

Scrapy框架在小米应用市场爬虫项目中的实战应用

小白学大数据 2025-11-172025-11-17 16:57:46

Scrapy，作为Python生态下最著名的专业爬虫框架，以其高内聚、低耦合的“五大件”架构（Spider、Item、Pipeline、Downloader、S...

42510

在Scrapy中如何处理API分页及增量爬取

小白学大数据 2025-11-122025-11-12 16:52:22

一、理解挑战：为何要处理分页与增量爬取？1. API分页 API分页是一种将大量数据分割成多个较小、可管理块（即页面）的技术。常见的分页模式包括：页码分页：最直...

42410

集成Scrapy与异步库：Scrapy+Playwright自动化爬取动态内容

小白学大数据 2025-11-032025-11-03 16:52:49

一、为什么选择Scrapy + Playwright？在技术选型时，我们有必要理解这套组合拳的优势所在：强强联合的异步架构：Scrapy基于Twisted，是...

71910

爬虫工程化：使用中间件在Scrapy中统一处理403状态码

小白学大数据 2025-10-162025-10-16 16:42:00

Scrapy的架构之美在于其高度的可扩展性。下载器中间件是位于Scrapy引擎和下载器之间的钩子框架，用于全局处理请求和响应。这正是我们统一处理403状态的理想...

37310

Scrapy爬虫优化：告别内存泄漏与磁盘爆满的高端技巧

华科云商小徐 2025-09-092025-09-09 11:19:49

做爬虫最怕啥？当然是电脑突然卡死或者硬盘爆满！程序跑着跑着就挂了，数据也没存上，简直让人头大。别慌，这种情况其实很常见，咱们今天就聊聊怎么快速救火，让你在资源耗...

46710

#scrapy

代理IP在分布式爬虫架构中的落地方案：Redis+Scrapy实战

Python Scrapy 跨平台爬虫实战：XPath 解析与结构化数据提取

深度对比：Scrapy vs PySpider，谁更适合作为企业级分布式底层？

告别 Scrapy 反爬困境：无缝切换原生支持 JS 渲染的新一代爬虫框架

告别频繁崩溃与OOM：百万级Scrapy爬虫架构优化

集反爬、JS 渲染、AI 选器于一体，3 万 Star 的 Scrapling 凭什么火爆爬虫圈

Scrapy爬虫大面积报错Timeout/403？彻底解决代理IP失效导致的“丢数据”痛点

python 3.7.4安装scrapy

Python 网络爬虫：Scrapy 解析汽车之家报价与评测

python的scrapy框架介绍

【漏洞情报】Scrapy与Brotli解压缩漏洞导致拒绝服务攻击

Scrapy框架在小米应用市场爬虫项目中的实战应用

在Scrapy中如何处理API分页及增量爬取

集成Scrapy与异步库：Scrapy+Playwright自动化爬取动态内容

爬虫工程化：使用中间件在Scrapy中统一处理403状态码

Scrapy爬虫优化：告别内存泄漏与磁盘爆满的高端技巧

热门专栏

进击的Coder

少年郎编程之路

编程派的专栏

腾讯技术工程官方号的专栏

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐