前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >python网络爬虫(14)使用Scrapy搭建爬虫框架

python网络爬虫(14)使用Scrapy搭建爬虫框架

作者头像
嘘、小点声
发布2019-07-31 17:27:43
5960
发布2019-07-31 17:27:43
举报

目的意义

爬虫框架也许能简化工作量,提高效率等。scrapy是一款方便好用,拓展方便的框架。

本文将使用scrapy框架,示例爬取自己博客中的文章内容。

说明

学习和模仿来源:https://book.douban.com/subject/27061630/。

创建scrapy工程

首先当然要确定好,有没有完成安装scrapy。在windows下,使用pip install scrapy,慢慢等所有依赖和scrapy安装完毕即可。然后输入scrapy到cmd中测试。

建立工程使用scrapy startproject myTestProject,会在工程下生成文件。

一些介绍说明

在生成的文件中,

创建爬虫模块-下载

在路径./myTestProject/spiders下,放置用户自定义爬虫模块,并定义好name,start_urls,parse()。

如在spiders目录下建立文件CnblogSpider.py,并填入以下:

import scrapy
class CnblogsSpider(scrapy.Spider):
    name="cnblogs"
    start_urls=["https://www.cnblogs.com/bai2018/default.html?page=1"]
    def parse(self,response):
        pass

在cmd中,切换到./myTestProject/myTestProject下,再执行scrapy crawl cnblogs(name)测试,观察是否报错,响应代码是否为200。其中的parse中参数response用于解析数据,读取数据等。

强化爬虫模块-解析

在CnblogsSpider类中的parse方法下,添加解析功能。通过xpath、css、extract、re等方法,完成解析。

调取元素审查分析以后添加,成为以下代码:

import scrapy
class CnblogsSpider(scrapy.Spider):
    name="cnblogs"
    start_urls=["https://www.cnblogs.com/bai2018/"]
    def parse(self,response):
        papers=response.xpath(".//*[@class='day']")
        for paper in papers:
            url=paper.xpath(".//*[@class='postTitle']/a/@href").extract()
            title=paper.xpath(".//*[@class='postTitle']/a/text()").extract()
            time=paper.xpath(".//*[@class='dayTitle']/a/text()").extract()
            content=paper.xpath(".//*[@class='postCon']/div/text()").extract()
            print(url,title,time,content)
        pass

找到页面中,class为day的部分,然后再找到其中各个部分,提取出来,最后通过print方案输出用于测试。

在正确的目录下,使用cmd运行scrapy crawl cnblogs,完成测试,并观察显示信息中的print内容是否符合要求。

强化爬虫模块-包装数据

包装数据的目的是存储数据。scrapy使用Item类来满足这样的需求。

框架中的items.py用于定义存储数据的Item类。

在items.py中修改MytestprojectItem类,成为以下代码:

import scrapy
class MytestprojectItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    url=scrapy.Field()
    time=scrapy.Field()
    title=scrapy.Field()
    content=scrapy.Field()
    pass

然后修改CnblogsSpider.py,成为以下内容:

import scrapy
from myTestProject.items import MytestprojectItem
class CnblogsSpider(scrapy.Spider):
    name="cnblogs"
    start_urls=["https://www.cnblogs.com/bai2018/"]
    def parse(self,response):
        papers=response.xpath(".//*[@class='day']")
        for paper in papers:
            url=paper.xpath(".//*[@class='postTitle']/a/@href").extract()
            title=paper.xpath(".//*[@class='postTitle']/a/text()").extract()
            time=paper.xpath(".//*[@class='dayTitle']/a/text()").extract()
            content=paper.xpath(".//*[@class='postCon']/div/text()").extract()
            
            item=MytestprojectItem(url=url,title=title,time=time,content=content)
            yield item
        pass

将提取出的内容封装成Item对象,使用关键字yield提交。

强化爬虫模块-翻页

有时候就是需要翻页,以获取更多数据,然后解析。

修改CnblogsSpider.py,成为以下内容:

import scrapy
from scrapy import Selector
from myTestProject.items import MytestprojectItem
class CnblogsSpider(scrapy.Spider):
    name="cnblogs"
    allowd_domains=["cnblogs.com"]
    start_urls=["https://www.cnblogs.com/bai2018/"]
    def parse(self,response):
        papers=response.xpath(".//*[@class='day']")
        for paper in papers:
            url=paper.xpath(".//*[@class='postTitle']/a/@href").extract()
            title=paper.xpath(".//*[@class='postTitle']/a/text()").extract()
            time=paper.xpath(".//*[@class='dayTitle']/a/text()").extract()
            content=paper.xpath(".//*[@class='postCon']/div/text()").extract()
            
            item=MytestprojectItem(url=url,title=title,time=time,content=content)
            yield item
        next_page=Selector(response).re(u'<a href="(\S*)">下一页</a>')
        if next_page:
            yield scrapy.Request(url=next_page[0],callback=self.parse)
        pass

在scrapy的选择器方面,使用xpath和css,可以直接将CnblogsSpider下的parse方法中的response参数使用,如response.xpath或response.css。

而更通用的方式是:使用Selector(response).xxx。针对re则为Selector(response).re。

关于yield的说明:https://blog.csdn.net/mieleizhi0522/article/details/82142856

强化爬虫模块-存储

当Item在Spider中被收集时候,会传递到Item Pipeline。

修改pipelines.py成为以下内容:

import json
from scrapy.exceptions import DropItem
class MytestprojectPipeline(object):
    def __init__(self):
        self.file=open('papers.json','wb')
    def process_item(self, item, spider):
        if item['title']:
            line=json.dumps(dict(item))+"\n"
            self.file.write(line.encode())
            return item
        else:
            raise DropItem("Missing title in %s"%item)

重新实现process_item方法,收集item和该item对应的spider。然后创建papers.json,转化item为字典,存储到json表中。

另外,根据提示打开pipelines.py的开关。在settings.py中,使能ITEM_PIPELINES的开关如下:

然后在cmd中执行scrapy crawl cnblogs即可

另外,还可以使用scrapy crawl cnblogs -o papers.csv进行存储为csv文件。

需要更改编码,将csv文件以记事本方式重新打开,更正编码后重新保存,查看即可。

强化爬虫模块-图像下载保存

设定setting.py

ITEM_PIPELINES = {
    'myTestProject.pipelines.MytestprojectPipeline':300,
    'scrapy.pipelines.images.ImagesPipeline':1
}
IAMGES_STORE='.//cnblogs'
IMAGES_URLS_FIELD = 'cimage_urls'
IMAGES_RESULT_FIELD = 'cimages'
IMAGES_EXPIRES = 30
IMAGES_THUMBS = {
    'small': (50, 50),
    'big': (270, 270)
}

修改items.py为:

import scrapy
class MytestprojectItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    url=scrapy.Field()
    time=scrapy.Field()
    title=scrapy.Field()
    content=scrapy.Field()

    cimage_urls=scrapy.Field()
    cimages=scrapy.Field()
    pass

修改CnblogsSpider.py为:

import scrapy
from scrapy import Selector
from myTestProject.items import MytestprojectItem
class CnblogsSpider(scrapy.Spider):
    name="cnblogs"
    allowd_domains=["cnblogs.com"]
    start_urls=["https://www.cnblogs.com/bai2018/"]
    def parse(self,response):
        papers=response.xpath(".//*[@class='day']")
        for paper in papers:
            url=paper.xpath(".//*[@class='postTitle']/a/@href").extract()[0]
            title=paper.xpath(".//*[@class='postTitle']/a/text()").extract()
            time=paper.xpath(".//*[@class='dayTitle']/a/text()").extract()
            content=paper.xpath(".//*[@class='postCon']/div/text()").extract()
            
            item=MytestprojectItem(url=url,title=title,time=time,content=content)
            request=scrapy.Request(url=url, callback=self.parse_body)
            request.meta['item']=item

            yield request
        next_page=Selector(response).re(u'<a href="(\S*)">下一页</a>')
        if next_page:
            yield scrapy.Request(url=next_page[0],callback=self.parse)
        pass
    
    def parse_body(self, response):
        item = response.meta['item']
        body = response.xpath(".//*[@class='postBody']")
        item['cimage_urls'] = body.xpath('.//img//@src').extract()
        yield item

总之,修改以上三个位置。在有时候配置正确的时候却出现图像等下载失败,则可能是由于setting.py的原因,需要重新修改。

启动爬虫

建立main函数,传递初始化信息,导入指定类。如:

from scrapy.crawler import CrawlerProcess
from scrapy.utils.project import get_project_settings

from myTestProject.spiders.CnblogSpider import CnblogsSpider

if __name__=='__main__':
    process = CrawlerProcess(get_project_settings())
    process.crawl('cnblogs')
    process.start()

修正

import scrapy
from scrapy import Selector
from cnblogSpider.items import CnblogspiderItem
class CnblogsSpider(scrapy.Spider):
    name="cnblogs"
    allowd_domains=["cnblogs.com"]
    start_urls=["https://www.cnblogs.com/bai2018/"]
    def parse(self,response):
        papers=response.xpath(".//*[@class='day']")
        for paper in papers:
            urls=paper.xpath(".//*[@class='postTitle']/a/@href").extract()
            titles=paper.xpath(".//*[@class='postTitle']/a/text()").extract()
            times=paper.xpath(".//*[@class='dayTitle']/a/text()").extract()
            contents=paper.xpath(".//*[@class='postCon']/div/text()").extract()
            for i in range(len(urls)):
                url=urls[i]
                title=titles[i]
                time=times[0]
                content=contents[i]
                item=CnblogspiderItem(url=url,title=title,time=time,content=content)
                request = scrapy.Request(url=url, callback=self.parse_body)
                request.meta['item'] = item
                yield request
        next_page=Selector(response).re(u'<a href="(\S*)">下一页</a>')
        if next_page:
            yield scrapy.Request(url=next_page[0],callback=self.parse)
        pass

    def parse_body(self, response):
        item = response.meta['item']
        body = response.xpath(".//*[@class='postBody']")
        item['cimage_urls'] = body.xpath('.//img//@src').extract()
        yield item
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2019-07-27 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 目的意义
  • 说明
  • 创建scrapy工程
  • 一些介绍说明
  • 创建爬虫模块-下载
  • 强化爬虫模块-解析
  • 强化爬虫模块-包装数据
  • 强化爬虫模块-翻页
  • 强化爬虫模块-存储
  • 强化爬虫模块-图像下载保存
    • 设定setting.py
      • 修改items.py为:
        • 修改CnblogsSpider.py为:
        • 启动爬虫
        • 修正
        相关产品与服务
        命令行工具
        腾讯云命令行工具 TCCLI 是管理腾讯云资源的统一工具。使用腾讯云命令行工具,您可以快速调用腾讯云 API 来管理您的腾讯云资源。此外,您还可以基于腾讯云的命令行工具来做自动化和脚本处理,以更多样的方式进行组合和重用。
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档