爬虫课堂(二十五)|使用CrawlSpider、LinkExtractors、Rule进行全站爬取

爬虫课堂(二十二)|使用LinkExtractor提取链接中讲解了LinkExtractor的使用,本章节来讲解使用CrawlSpider+LinkExtractor+Rule进行全站爬取。 一、CrawlSpider介绍 Scrapy框架中分两类爬虫,Spider类和CrawlSpider类。Spider类的使用已经讲解了很多,但是如果想爬取某个网站的全站信息的话,CrawlSpider类是个非常不错的选择。CrawlSpider继承于Spider类,CrawlSpider是爬取那些具有一定规则网站的常用爬虫,可以说它是为全站爬取而生。 它除了继承过来的属性(name、allow_domains)外,还提供了新的属性和方法: 1.1、LinkExtractors class scrapy.linkextractors.LinkExtractor Link Extractors 的目的很简单:提取链接。每个Link Extractor有唯一的公共方法是 extract_links(),它接收一个 Response 对象,并返回一个 scrapy.link.Link 对象。 Link Extractors要实例化一次,并且 extract_links()方法会根据不同的 Response 调用多次提取链接。 主要参数如下:

  • allow:满足括号中“正则表达式”的值会被提取,如果为空,则全部匹配。
  • deny:与这个正则表达式(或正则表达式列表)不匹配的URL一定不提取。
  • allow_domains:会被提取的链接的domains。
  • deny_domains:一定不会被提取链接的domains。
  • restrict_xpaths:使用XPath表达式,和allow共同作用过滤链接。

关于Link Extractors如何使用可以参考爬虫课堂(二十二)|使用LinkExtractor提取链接这篇文章。 1.2、rules 在rules中包含一个或多个Rule对象,每个Rule对爬取网站的动作定义了特定操作。如果多个Rule匹配了相同的链接,则根据规则在本集合中被定义的顺序,第一个会被使用。 Rule类的定义如下:

class scrapy.contrib.spiders.
Rule
(link_extractor,callback=None,cb_kwargs=None,follow=None,process_links=None,process_request=None)

主要参数如下:

  • link_extractor:是一个Link Extractor对象。其定义了如何从爬取到的页面提取链接。
  • callback:是一个callable或string(该Spider中同名的函数将会被调用)。从link_extractor中每获取到链接时将会调用该函数。该回调函数接收一个response作为其第一个参数,并返回一个包含Item以及Request对象(或者这两者的子类)的列表。
  • cb_kwargs:包含传递给回调函数的参数(keyword argument)的字典。
  • follow:是一个boolean值,指定了根据该规则从response提取的链接是否需要跟进。如果callback为None,follow默认设置True,否则默认False。
  • process_links:是一个callable或string(该Spider中同名的函数将会被调用)。从link_extrator中获取到链接列表时将会调用该函数。该方法主要是用来过滤。
  • process_request:是一个callable或string(该spider中同名的函数都将会被调用)。该规则提取到的每个request时都会调用该函数。该函数必须返回一个request或者None。用来过滤request。

二、CrawlSpider使用 假设我们要爬取简书的所有用户的信息(用户名称、关注数、粉丝数、文章数、字数、收获喜欢数),如下图25-1所示的用户主页:

图25-1

用户的主页地址为https://www.jianshu.com/u/c34455009dd8 2.1、定义Item文件

from scrapy.item import Item, Field

# 简书的全站用户信息
class JianshuUserItem(Item):
    # 用户名称
    name = Field()
    # 关注数
    followNumber = Field()
    # 粉丝数
    fansNumber = Field()
    # 文章数
    articleNumber = Field()
    # 字数
    wordCount = Field()
    # 收获喜欢数
    likeNumber = Field()

2.2、定义pipeline文件

import json
# 设置字符集,防止编码参数出错
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
from scrapy.exporters import JsonItemExporter

class DataSubmitJsonFilePipeline(object):
    def __init__(self):
        self.file = open('jianshu.json', 'wb')

    # 把item写入JSON文件
    def process_item(self, item, spider):
        line = json.dumps(dict(item)) + "\n"
        self.file.write(line)
        return item

    def close_spider(self, spider):
        self.file.close()

2.3、定义setting文件

ITEM_PIPELINES = {
    'tutorial.pipelines.DataSubmitJsonFilePipeline': 1,
}

2.4、编写spider文件 首先需要找出用户个人主页链接的通用字符,从https://www.jianshu.com/u/c34455009dd8及更多的其他用户个人主页URL分析得知通用字符为/u/

# response中提取链接的匹配规则,得出符合条件的链接
pattern = '.*/u/*.'
pagelink = LinkExtractor(allow=pattern)

分析个人主页的HTML代码,得知用户的用户名称、关注数、粉丝数、文章数、字数、收获喜欢数等字段都是在//div[@class='main-top']中,如下图25-2所示:

图25-2

进一步分析HTML,如下图25-3所示:

图25-3

编写提取用户名称、关注数、粉丝数、文章数、字数、收获喜欢数等值的代码如下:

# 用户名称
item['name'] = each.xpath("./div[@class='title']/a/text()").extract()[0]
# 关注数
item['followNumber'] = each.xpath("./div[@class='info']/ul/li[1]//a/p/text()").extract()[0]
# 粉丝数
item['fansNumber'] = each.xpath("./div[@class='info']/ul/li[2]//a/p/text()").extract()[0]
# 文章数
item['articleNumber'] = each.xpath("./div[@class='info']/ul/li[3]//a/p/text()").extract()[0]
# 字数
item['wordCount'] = each.xpath("./div[@class='info']/ul/li[4]//p/text()").extract()[0]
# 收获喜欢数
item['likeNumber'] = each.xpath("./div[@class='info']/ul/li[5]//p/text()").extract()[0]

最后完整代码如下:

#!/usr/bin/env python
# -*- coding: UTF-8 -*-

# **********************************************************
# * Author        : huangtao
# * Email         : huangtao@yimian.me
# * Create time   : 2018/4/1 下午6:34
# * Last modified : 2018/4/1 下午6:34
# * Filename      : jianshu_spider_crawl.py
# * Description   : 
# **********************************************************

# 导入链接匹配规则类,用来提取符合规则的链接
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from tutorial.items import JianshuUserItem

class JianshuCrawl(CrawlSpider):
    name = "jianshu_spider_crawl"
    # 可选,加上会有一个爬取的范围
    allowed_domains = ["jianshu.com"]
    start_urls = ['https://www.jianshu.com/']

    # response中提取链接的匹配规则,得出符合条件的链接
    pattern = '.*jianshu.com/u/*.'
    pagelink = LinkExtractor(allow=pattern)

    # 可以写多个rule规则
    rules = [
        # 只要符合匹配规则,在rule中都会发送请求,同时调用回调函数处理响应。
        # rule就是批量处理请求。
        Rule(pagelink, callback='parse_item', follow=True),
    ]

    # 不能写parse方法,因为源码中已经有了,会覆盖导致程序不能跑
    def parse_item(self, response):
        for each in response.xpath("//div[@class='main-top']"):
            item = JianshuUserItem()
            # 用户名称
            item['name'] = each.xpath("./div[@class='title']/a/text()").extract()[0]
            # 关注数
            item['followNumber'] = each.xpath("./div[@class='info']/ul/li[1]//a/p/text()").extract()[0]
            # 粉丝数
            item['fansNumber'] = each.xpath("./div[@class='info']/ul/li[2]//a/p/text()").extract()[0]
            # 文章数
            item['articleNumber'] = each.xpath("./div[@class='info']/ul/li[3]//a/p/text()").extract()[0]
            # 字数
            item['wordCount'] = each.xpath("./div[@class='info']/ul/li[4]//p/text()").extract()[0]
            # 收获喜欢数
            item['likeNumber'] = each.xpath("./div[@class='info']/ul/li[5]//p/text()").extract()[0]

            # 把数据交给管道文件
            yield item

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏刘望舒

设计模式(十五)状态模式

前言 建议在阅读本文前先阅读设计模式(十一)策略模式这篇文章,虽说状态模式和策略模式的结构几乎是相同的,但是它们所解决的问题是不同的,读完这两篇文章你就会有了答...

20860
来自专栏从零开始学自动化测试

Selenium2+python自动化39-关于面试的题

前言 最近看到群里有小伙伴贴出一组面试题,最近又是跳槽黄金季节,小编忍不住抽出一点时间总结了下, 回答不妥的地方欢迎各位高手拍砖指点。 一、selenium中如...

34760
来自专栏Java帮帮-微信公众号-技术文章全总结

JavaWeb08-XML,tomcat,HTTP轻松入门

XML&tomcat&HTTP 一.XML基础知识 1. xml介绍 XML 指可扩展标记语言(EXtensible Markup Language),也是一种...

41390
来自专栏Java成长之路

Java内存模型

多任务处理在现代计算机操作系统中几乎已经是一项必备的功能了。计算机cpu的运算速度与它的存储和通信子系统速度的差距太大,大量的时间都花费在磁盘I/O、网络通信或...

19610
来自专栏积累沉淀

Python快速学习第十二天--生成器和协程

yield指令,可以暂停一个函数并返回中间结果。使用该指令的函数将保存执行环境,并且在必要时恢复。 生成器比迭代器更加强大也更加复杂,需要花点功夫好好理解贯...

82850
来自专栏Golang语言社区

Go语言并发编程总结

Golang :不要通过共享内存来通信,而应该通过通信来共享内存。这句风靡在Go社区的话,说的就是 goroutine中的 channel ....... 他在...

28090
来自专栏Golang语言社区

Go语言并发编程总结

Golang :不要通过共享内存来通信,而应该通过通信来共享内存。这句风靡在Go社区的话,说的就是 goroutine中的 channel ....... 他在...

35990
来自专栏java一日一条

JAVA:自定义套件...

各位亲爱的小伙伴们大家好,最近很多伙伴都问我该怎么做自定义套件封装,我在这里做了一个教程分享给大家。

8720
来自专栏北京马哥教育

编写Linux Shell脚本的最佳实践

来自:Myths的个人博客 作者:myths 链接:https://blog.mythsman.com/2017/07/23/1/(点击尾部阅读原文前往) 前言...

42190
来自专栏JavaEdge

JSP必备知识点servlet VS CGI如何实现 servlet 单线程模式servlet 页面间对象传递的方法有几种jsp VS servlet<jsp:include page=”includ

37160

扫码关注云+社区

领取腾讯云代金券