调度器(Scheduler)
用来接收引擎发过来的请求,压入队列中,并在引擎再次请求的时候返回,可以想象成一个URL(抓取网页的网址或者说是链接)的优先队列,由他来决定下一个要抓取的网址是什么,同时去除重复的网址...爬虫(Spiders)
爬虫主要是干活的,用于从特定的网页中提取自己需要的信息,即所谓的实体(item).用户也可以从中取出链接,让Scrapy继续抓取下一个页面。...请求传参
使用场景:爬取解析的数据不在同一张页面中(详情页)。...类
全站数据爬取的方式
基于spider: 手动请求
基于CrawlSpider
CrawlSpider的使用
创建工程
cd xxx
scrapy genspider -t crawl xxx www.xxx.com...链接提取器:
根据指定规则(allow)进行指定链接提取
规则解析器:
将链接提取提取到的链接进行指定规则 (callback) 的解析操作
----
案例演示
爬取sun网站中的编号,新闻标题,新闻内容