前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >scrapy中的强大媒体管道(二)

scrapy中的强大媒体管道(二)

作者头像
润森
发布2019-08-29 10:40:15
1.1K0
发布2019-08-29 10:40:15
举报
文章被收录于专栏:毛利学Python毛利学Python

scrapy 入门(一)

上文用了scrapy爬取了百度的美女图片,今天写写scrapy中的Image Pipeline

scrapy提供了专门下载的PIpeline,包含文件下载和图片下载。

在pipelines.py 导入ImagesPipeline from scrapy.pipelines.images import ImagesPipeline

ctrl 点下看下源码,可以看出媒体管道就是 ImagesPipelineFilesPipeline

那么怎么用呢,今天继续爬美女图片,换个媒体管道来爬

首先先配置settings中的ITEM_PIPELINES 'scrapy.pipelines.images.ImagesPipeline': 1 后面数字1让它马上调用

存储图片的路径 IMAGES_STORE = '/home/pyvip/文档/img/IMGS''

重点来了 内置的ImagePipeline会默认读取Item的image_urls字段

item.py 中只能写image_urls字段

再处理下pipelines.py 让 ImagePipeline 继承ImagesPipeline

meinv.py

逻辑

用正则匹配image_urls 直接给到Imageitem,而ImagePipeline继承于scrapy默认的媒体管道ImagesPipeline,也就是有了image_urls 的 字段,而默认的媒体管道会直接下载image_urls 中的图片 在setting中建立了存储路径,会把图片放在该文件夹下

好像没问题,那直接cd 到目录根目录下 scrapy crawl meinv

看到image_urls 有东西,好像没问题

果然在IMGS中有30张图片

但是我感到奇怪百度图片不是有refer吗,没有不是forbidden吗

那在哪里加上refer,在middleware.py 中的处理请求中加入

没完,我继续在settings.py中添加 IMAGES_THUMBS = {'small': (50, 50), 'big':(270, 270)}

我要把大图和小图分出来

继续scrapy crawl meinv

原来图片都是700以上的,反而变成小图

总结

媒体管道的工作流是这样的:

  1. 在爬虫中,您可以返回一个item,并将所需的url放入file_urls字段。
  2. item从爬虫返回并进入item管道。
  3. 当item到达文件管道时,file_urls字段中的url将使用标准的Scrapy调度器和下载程序(这意味着将重用调度器和下载程序中间件)计划下载, 但是具有更高的优先级,在其他页面被爬取之前处理它们。在文件下载完成(或由于某种原因失败)之前,该项在特定管道阶段保持“锁定”状态。
  4. 下载文件后,将使用另一个字段(files)填充results。这个字段将包含一个包含有关下载文件信息的dicts列表,例如下载的路径、原始的剪贴url(从file_urls字段中获得)和文件校验和。文件字段列表中的文件将保持原来file_urls字段的顺序。如果某些文件下载失败,将记录一个错误,文件将不会出现在files字段中。

媒体管道的设置

在settings中添加就可以了

  1. ITEM_PIPELINES = {'scrapy.pipelines.images.ImagesPipeline': 1} 启用
  2. FILES_STORE = '/path/to/valid/dir' 文件管道存放位置
  3. IMAGES_STORE = '/path/to/valid/dir' 图片管道存放位置
  4. FILES_URLS_FIELD = 'field_name_for_your_files_urls' 自定义文件url字段
  5. FILES_RESULT_FIELD = 'field_name_for_your_processed_files' 自定义结果字段
  6. IMAGES_URLS_FIELD = 'field_name_for_your_images_urls' 自定义图片url字段
  7. IMAGES_RESULT_FIELD = 'field_name_for_your_processed_images' 结果字段
  8. FILES_EXPIRES = 90 文件过期时间 默认90天
  9. IMAGES_EXPIRES = 90 图片过期时间 默认90天
  10. IMAGES_THUMBS = {'small': (50, 50), 'big':(270, 270)} 缩略图尺寸
  11. IMAGES_MIN_HEIGHT = 110 过滤最小高度
  12. IMAGES_MIN_WIDTH = 110 过滤最小宽度
  13. MEDIA_ALLOW_REDIRECTS = True 是否重定向

代码

meinv.py

代码语言:javascript
复制
mport scrapy
import re
from ..items import ImageItem
class MeinvSpider(scrapy.Spider):
    name = 'meinv'
    # allowed_domains = ['www.baidu.com']
    start_urls = ['https://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=result&fr=&sf=1&fmq=1552550885640_R&pv=&ic=&nc=1&z=&hd=&latest=&copyright=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&word=%E7%BE%8E%E5%A5%B3']

    def parse(self, response):
        item = ImageItem()
        html = response.text
        item['image_urls'] = re.findall(r'"thumbURL":"(.*?)"',html)
        yield item

settings.py

代码语言:javascript
复制
ROBOTSTXT_OBEY = False
ITEM_PIPELINES = {
   # 'image.pipelines.ImagePipeline': 300,
   'scrapy.pipelines.images.ImagesPipeline': 1
}
IMAGES_STORE = '/home/pyvip/code/爬虫/爬虫框架/image/IMGS'
IMAGES_THUMBS = {'small': (50, 50), 'big':(270, 270)}

pipelines.py

代码语言:javascript
复制
from scrapy.pipelines.images import ImagesPipeline

class ImagePipeline(ImagesPipeline):
    pass

item.py

代码语言:javascript
复制
import scrapy
class ImageItem(scrapy.Item):
    image_urls = scrapy.Field()
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-03-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 小刘IT教程 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 逻辑
  • 总结
    • 媒体管道的工作流是这样的:
      • 媒体管道的设置
        • 代码
        相关产品与服务
        消息队列 TDMQ
        消息队列 TDMQ (Tencent Distributed Message Queue)是腾讯基于 Apache Pulsar 自研的一个云原生消息中间件系列,其中包含兼容Pulsar、RabbitMQ、RocketMQ 等协议的消息队列子产品,得益于其底层计算与存储分离的架构,TDMQ 具备良好的弹性伸缩以及故障恢复能力。
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档