腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Python攻城狮

专栏作者

130

文章

189124

阅读量

40

订阅数

Python网络爬虫（六）- Scrapy框架1.Scrapy2.安装和配置3.安装过程常见错误4.代码操作 - 创建一个Scrapy项目5.Scrapy框架进阶 - 深度爬虫

python 爬虫 scrapy

Scrapy Engine(Scrapy核心) 负责数据流在各个组件之间的流。Spiders(爬虫)发出Requests请求，经由Scrapy Engine(Scrapy核心) 交给Scheduler(调度器)，Downloader(下载器)Scheduler(调度器) 获得Requests请求，然后根据Requests请求，从网络下载数据。Downloader(下载器)的Responses响应再传递给Spiders进行分析。根据需求提取出Items，交给Item Pipeline进行下载。Spiders和Item Pipeline是需要用户根据响应的需求进行编写的。除此之外，还有两个中间件，Downloaders Mddlewares和Spider Middlewares，这两个中间件为用户提供方面，通过插入自定义代码扩展Scrapy的功能，例如去重等。

Python攻城狮

2018-08-23

8130

Python网络爬虫（三）- 爬虫进阶1.爬虫进阶cookielib2.具体代码操作

python 爬虫 scrapy

注解：这里使用urllib2.HTTPHandler()访问https网页得到的html代码。

Python攻城狮

2018-08-23

6590

Python网络爬虫（四）- XPath1.XPath2.XPath在python中的应用

python 爬虫 scrapy

XPath 即为XML路径语言（XML Path Language），它是一种用来确定XML文档中某部分位置的语言。它使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。 XPath语法

Python攻城狮

2018-08-23

1.3K0

Python网络爬虫（一）- 入门基础1.通用爬虫 VS 聚焦爬虫2.HTTP & HTTPS3.urllib24.常用的响应报头(了解)

python 爬虫 https scrapy

1.选择已有的url地址，将url地址添加到爬取队列 2.从提取url，DNS解析主机IP，将目标主机IP添加到爬取队列 3.分析网页内容，提取链接，继续执行上一步操作

Python攻城狮

2018-08-23

1.5K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态