scrapy全站爬取

用户8447427

发布于 2022-08-18 07:40:11

76500

代码可运行

文章被收录于专栏：userlyz学习记录userlyz学习记录

运行总次数：0

代码可运行

笔记

-基于Spider的全站数据爬取
   -基于网站中某一模板下的全部页码对应的页面数据进行爬取
   -需求：爬取校花网中的照片的名称
   -实现方式：
        -将所有的url添加到start_urls  不推荐使用
        -自行手动进行请求的发送
            # 手动请求发送 callback回调函数是专门用作与数据解析
             yield scrapy.Request(url=new_url,callback=self.parse)
 -CrawlSpider的使用
        -创建一个工程
        -cd xxx
        -创建爬虫文件(CrawlSpider):
            -Scrapy genspider -t crawl xxx www.xxx.com
            -链接提取器
                -作用：根据指定的规则(allow)进行指定链接的提取
            -规则解析器
                -作用：将连接踢球去提取到的链接进行指定规则(callback)的解析
            -follow
                -follow=True; 可以将连接提取器，继续作用到链接提取器提取到的链接，所对用的页面中
                   即使有重复的url请求，我们的调度器中的过滤器，也会帮我们给过滤掉
-五大核心组件
	Spider:主要进行数据解析
	引擎: 所有的流数据都会流经引擎1、用作数据流处理的2、可以触发事务
		
	调度器:
		过滤器：将送过来的请求进行去重，去重之后放入队列等待下一步操作
		队列：
		最终给下载器中
	下载器:从互联网上去请求网页资源 异步的操作
	管道:进行持久化存储
-请求传参

    -使用场景：如果爬取解析的数据不在同一张页面中。（深度爬取）
    -需求：爬取boss直聘的岗位名称，岗位描述

图片爬取

需求：爬取站长素材的高清图片的爬取https://sc.chinaz.com/tupian/

笔记

基于scrapy框架爬取字符串类型的数据和爬取图片类型的数据有什么区别

1、字符串，只需要xpath解析且提交管道进行持久化存储

2、图片：xpath解析到图片src属性值。单独对图片地址发起请求获取图片二进制类型的数据数据

ImagesPipeline:

只需要将img的src属性值进行解析，提交到管道，管道就会对图片的src进行请求发送获取到图片的二进制类型的数据，且话可以帮我们进行持久化存储

需求：爬取站长素材的图片爬取https://sc.chinaz.com/tupian/

使用流程：

1、数据解析（图片的地址）

2、将存储图片地址的item提交到指定的管道类

3、管道文件之中自指定一个基于ImagesPipeLine的一个管道类

def get_media_requests(self, item, info):
    #就是可以根据图片地址，进行图片数据的请求
def file_path(self, request, response=None, info=None, *, item=None):
    #指定图片储存的路径
def item_completed(self, results, item, info):
    return item#返回给下一个即将执行的管道类

4、在配置文件中：

指定图片二点存储目录：IMAGES_STORE=’./imgs_lyz’

指定开启的管道：自定制的管道类

img.py

import scrapy
from imgsPro.items import ImgsproItem

class ImgSpider(scrapy.Spider):
    name = 'img'
    allowed_domains = ['www.xxx.com']
    start_urls = ['https://sc.chinaz.com/tupian/']

    def parse(self, response):
        div_list=response.xpath('//*[@id="container"]/div')
        for div in div_list:
            # 注意：使用伪属性（这具体体现为，图片没在当前页面显示的话，就使用伪属性，显示出来之后才会去使用src属性）
            src=div.xpath('./div/a/img/@src2').extract_first()#//*[@id="container"]/div[1]/div/a/img/@src
            print(src)
            item = ImgsproItem()
            item ['src']='https:'+src#https://scpic1.chinaz.net/Files/pic/pic9/202112/apic37626_s.jpg
            yield item
        pass

pipelines.py

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html


# useful for handling different item types with a single interface
import scrapy
from itemadapter import ItemAdapter


# class ImgsproPipeline:
#     def process_item(self, item, spider):
#         return item

from scrapy.pipelines.images import ImagesPipeline
class imgsPipeline(ImagesPipeline):
    #重写父类中的三个方法
    def get_media_requests(self, item, info):
        #就是可以根据图片地址，进行图片数据的请求
        yield  scrapy.Request(item['src'])
    def file_path(self, request, response=None, info=None, *, item=None):
        #指定图片储存的路径
        img_name=request.url.split('/')[-1]
        return img_name
        pass
    def item_completed(self, results, item, info):
        return item#返回给下一个即将执行的管道类
        pass
    pass

items.py

# Define here the models for your scraped items
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/items.html

import scrapy


class ImgsproItem(scrapy.Item):
    # define the fields for your item here like:
    #
    src = scrapy.Field()
    pass

setting.py

USER_AGENT = 'ua检测'
ROBOTSTXT_OBEY = False
LOG_LEVEL='ERROR'

#去除注释，更改成自己写的管道类名
ITEM_PIPELINES = {
    'imgsPro.pipelines.imgsPipeline': 300,
}

#指定图片存储的目录
IMAGES_STORE='./imgs_lyz'

中间件

引擎和下载中间的是下载中间件 |||||重点

引擎和spider中间的是爬虫中间件

下载中间件：

作用：批量拦截到到整个工程中所有的请求和响应

拦截请求：

1、UA伪装 process_request 2、代理IP的设定 process_exception return request

拦截响应：

1、篡改响应数据，相应对象

拦截请求

爬取百度模拟拦截之后使用ua伪装和ip代理进行爬取

middlewares.py

class MiddleproDownloaderMiddleware:

    user_agent_list = [
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 "
        "(KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",
        "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 "
        "(KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 "
        "(KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 "
        "(KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",
        "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 "
        "(KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",
        "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 "
        "(KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",
        "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 "
        "(KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
        "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
        "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
        "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",
        "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 "
        "(KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",
        "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 "
        "(KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
    ]

    PROXY_http = [
        '153.180.102.104:80',
        '195.208.131.189:56055',
    ]
    PROXY_https = [
        '120.83.49.90:9000',
        '95.189.112.214:35508',
    ]

    def process_request(self, request, spider):
        #拦截请求的
        #ua伪装
        request.headers['User-Agent']=random.choice(self.user_agent_list)
        return None

    def process_response(self, request, response, spider):
        #拦截所有的响应
        # Called with the response returned from the downloader.

        # Must either;
        # - return a Response object
        # - return a Request object
        # - or raise IgnoreRequest
        return response

    def process_exception(self, request, exception, spider):
        #拦截发生异常的请求
        #代理IP，请求被拦截之后，换一个ip进行爬取
        if request.url.split(':')[0]=='http':
            request.meta['proxy']='http://'+random.choice(self.PROXY_http)
        else:

            request.meta['proxy']='https://'+random.choice(self.PROXY_https)
        return request#将修正之后的请求对象进行重新的请求发送

settings.py

ROBOTSTXT_OBEY = False


DOWNLOADER_MIDDLEWARES = {
    'middlePro.middlewares.MiddleproDownloaderMiddleware': 543,
}

middle.py

import scrapy


class MiddleSpider(scrapy.Spider):
    #请求的拦截，爬取百度
    name = 'middle'
    #allowed_domains = ['www.xxx.com']
    start_urls = ['https://www.baidu.com/s?wd=ip']

    def parse(self, response):
        page_txt=response.text
        with open ('ip.html','w',encoding='utf-8')as fp:
            fp.write(page_txt)
        pass

拦截响应

需求爬取网易新闻中的新闻数据（标题和内容）

1、通过网易新闻的首页解析出来五大板块对应的详情页url（没有动态加载）

2、每一个板块对应的新闻标题都是动态加载出来的（动态加载）

3、通过解析出每一个新闻详情页的url获取详情页的页面源码，解析出来新闻内容

需求：爬取网易新闻基于Scrapy爬取网易新闻中的新闻数据

wangyi.py

import scrapy
from selenium import webdriver
from wangyiPro.items import WangyiproItem

class WangyiSpider(scrapy.Spider):
    name = 'wangyi'
    allowed_domains = ['www.xxx.com']
    start_urls = ['https://news.163.com/']
    model_url_list=[]#存储五大板块对应详情页的url
    #解析五大板块对应详情页的url
    def parse(self, response):
        li_list=response.xpath('//*[@id="index2016_wrap"]/div[1]/div[2]/div[2]/div[2]/div[2]/div/ul/li')
        alist=[2,3,5,6,8]
        for index in alist:
            li=li_list[index]
            model_url=li.xpath('.//a/@href').extract_first()
            print(model_url)
            self.model_url_list.append(model_url)
        #依次对每一个板块对应的页面进行请求
        for url in self.model_url_list:
            yield scrapy.Request(url,callback=self.parse_model)
            print('第一步完成')
    #每一个板块的对应的新闻标题相关内容都是动态加载出来的
    def parse_model(self,response):
        #解析灭一个板块页面中对应的新闻的标题和新闻详情页的url
        print('第二步')
        div_list=response.xpath('/html/body/div/div[3]/div[4]/div[1]/div[1]/div/ul/li/div/div')
        for div in div_list:
            title=div.xpath('/div/div[1]/h3/a/text()').extract_first()
            new_detail_url=div.xpath('./a/@href').extract_first()
            item=WangyiproItem()
            item['title']=title
            yield scrapy.Request(url= new_detail_url, callback=self.parse_detail,meta={'item':item})
        pass


    def parse_detail(self,response):
        print('第三步')
        content=response.xpath('//*[@id="content"]/div[2]//text()').extract()
        content=''+content
        item=response.meta['item']
        item['content']=content
        yield item
        pass
    # 实例化一个浏览器对象
    def __init__(self):
        self.bro=webdriver.Chrome(executable_path='chromedriver.exe')
        pass

items.py

import scrapy


class WangyiproItem(scrapy.Item):
    # define the fields for your item here like:
    title=scrapy.Field()
    content= scrapy.Field()
    pass

middlewares.py

from itemadapter import is_item, ItemAdapter
from scrapy.http import HtmlResponse
from time import sleep


class WangyiproDownloaderMiddleware:

    def process_response(self, request, response, spider):
        #通过该方法拦截五大板块对应的响应对象，进行篡改
        #挑选出指定的响应对象进行篡改
        #spider是爬虫的对象
        bro=spider.bro#获取了爬虫类中定义的浏览器对象
        if request.url in spider.model_url_list:
            # response#五大板块对应的响应对象
            #针对定位到这些的response进行篡改
            #实例化一个新的响应对象（符合需求：包含动态加载出来的新闻数据），代替原来旧的响应对象
            #如何获取动态加载的数据
            # 基于selenium便捷的获取动态加载的数据
            bro.get(request.url)  # 五大板块对应的url进行请求发送
            sleep(5)
            page_text = bro.page_source  # 包含了动态记载的新闻数据
            new_response=HtmlResponse(url=request.url,body=page_text,encoding='utf-8',request=request)
            return new_response
        else:
            #response#其他请求对应的响应对象
            return response

    def process_exception(self, request, exception, spider):
        pass

pipelines.py

class WangyiproPipeline:
    # 专门用来处理item类型对象
    # 该方法可以接受爬虫文件提交过来的item对象
    # 该方法没接收到一个item就会被调用一次
    def process_item(self, item, spider):
       print(item)
       return item

CrawlSpider

他就是一个基于spider的一个子类CrawlSpider；专门去做的全站数据的爬取

全站数据爬取的方式

基于spider：手动请求发送（利用页面通用的url进行页面的请求的发送）

基于CrawlSpider:

CrawlSpider的具体使用

1、创建一个工程

2、cd XXX

3、创建爬虫文件（CrawlSpider）:

# 创建爬虫文件
scrapy genspider -t crawl xxx www.xxx.com

链接提取器：根据指定规则（allow=r’Items/ r’Items/‘是一个正则表达式)进行指定连接的提取，根据指定规则allow，进行连接爬取

规则解析器：将链接解析器提取到的链接进行制定规则（callback）的解析操作

找不到url链接提取去没有用没有再看

demo

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from lxml import etree

#这个就是全站爬取的demo
#5.18这个针对于个人信息，可以利用他的搜索进行查找到每一个人对应的数据，这个将大大降低我们搜索的时间和难度；针对于他的题库类型要使用全站爬取的这种方式进行爬取
class DemoproSpider(CrawlSpider):
    name = 'demoPro'
    #allowed_domains = ['www.xxx.com']
    start_urls = ['http://acm.zzuli.edu.cn/ranklist.php']
    # 实例化了一个规则解析器;
    # 三个参数所表示的意思
    # LinkExtractor链接提取器:根据指定规则(allow="正则表达式")，进行指定连接的提取
    link=LinkExtractor(allow=r'start=\d+')
    rules = (
        #规则解析器 将链接提取器提取到的链接进行制定规则(callback)的解析操作
        #链接提取器提取到的链接，callback就会执行几次
        Rule(link, callback='parse_item', follow=True),
        #follow=True; 可以将连接提取器，继续作用到链接提取器提取到的链接，所对用的页面中
        #即使有重复的url请求，我们的调度器中的过滤器，也会帮我们给过滤掉
    )

    def parse_item(self, response):#大概就是做数据分析的
        item = {}
        #item['domain_id'] = response.xpath('//input[@id="sid"]/@value').get()
        #item['name'] = response.xpath('//div[@id="name"]').get()
        #item['description'] = response.xpath('//div[@id="description"]').get()
        print(response)
        item = {}
        page_txt = response.text
        # /html/body/div[1]/div/table/tbody
        tree = etree.HTML(page_txt)
        tr_list = tree.xpath('/html/body/div[1]/div/table/tbody/tr')
        for item in tr_list:
            userid = item.xpath('./td[2] / div / a/text()')[0]
            username = item.xpath('./td[3]/div/text()')[0]
            adad = item.xpath('./td[4]/div/a/text()')[0]
            qweqwe = item.xpath("./td[5]/div/a/text()")[0]
            bilv = item.xpath("./td[6]/div/text()")[0]
            jibie = item.xpath("./td[7]/div/text()")[0]
            #if userid == "201908064618":
            print(userid + "||" + username + "|" + adad + "||" + qweqwe + "||" + bilv + "||" + jibie)
        print(tr_list.__len__())
        return item