SitemapSiper 允许我们通过网站的 Sitemap 文件中的 URL 来爬取一个网站。Sitemap 文件包含整个网站的每个网址链接,其中包含了上次更新时间、更新频率以及网址的权重(重要程度)。常见的 Sitemap 文件格式有 TXT 、 XML 和 HTML 格式,大部分网站是以 XML 格式来显示的。下面我们来看一下 CSDN 网站的 Sitemap 文件格式。
我们来讲解一下上图中各个节点的意思:
下面我们来讲解一下 SitemapSiper 中常用的属性:
<url>
<loc>http://aaa.com</loc>
<!--备用网址/可选链接-->
<xhtml:link rel="alternate" hreflang="en" href="http://aaa.com/en"/>
</url>
下面我们通过爬取 CSDN 的 Sitemap 来看一下怎么使用 SitemapSiper 。
from scrapy.spiders import SitemapSpider
from ..items import CsdnItem
class csdnspider(SitemapSpider):
name = 'csdn_spider'
sitemap_urls = ['https://www.csdn.net/sitemap.xml']
sitemap_rules = [
('beautifulsoup4', 'parse')
]
def parse(self, response):
docs = response.css('.local-toc li')
for doc in docs:
item = CsdnItem()
item["title"] = doc.css(".reference::text").extract_first()
item["url"] = doc.css(".reference::attr(href)").extract_first()
yield item
import scrapy
class CsdnItem(scrapy.Item):
title = scrapy.Field()
url = scrapy.Field()