前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >爬虫课堂(二十一)|使用FilesPipeline和ImagesPipeline下载文件和图片

爬虫课堂(二十一)|使用FilesPipeline和ImagesPipeline下载文件和图片

作者头像
黄小怪
发布2018-05-21 17:38:10
9590
发布2018-05-21 17:38:10
举报
文章被收录于专栏:小怪聊职场小怪聊职场

在上一章节,我们学会了使用Item Pipeline处理数据,而有时候我们可能需要下载爬虫网站中的文件信息,比如图片、视频、WORD文档、PDF文档、压缩包等。 Scrapy提供了两个Item Pipeline来下载文件和图片,它们分别是FilesPipeline和ImagesPipeline。 一、FilesPipeline和ImagesPipeline 这两个管道都实现了:

  • 避免重复下载。
  • 可以指定下载后保存的目录。

图片也是文件,下载图片本质上也是下载文件,Images Pipeline是FilesPipeline的子类,使用上和FilesPipeline差不多,只是Images Pipeline为处理图片提供了额外的功能:

  • 将所有下载的图片格式转换成普通的JPG并使用RGB颜色模式。
  • 为图片生成缩略图。
  • 检查图片的宽度和高度,过滤掉尺寸小的图片。

1、使用Files Pipeline 一般会按照下面的步骤来使用文件管道: 1)在配置文件settings.py中启用FilesPipeline。

代码语言:javascript
复制
ITEM_PIPELINES = {
    'tutorial.pipelines.files.FilesPipeline': 1,  
} 

2)在配置文件settings.py中使用FILES_STORE指定文件存储路径。

代码语言:javascript
复制
# 文件存储路径 
FILES_STORE = '/Users/huangtao/Downloads/files'  

3)实现ExampleItem(可选),在items.py定义file_urls和files两个字段。

代码语言:javascript
复制
class ExampleItem(Item):
    file_urls = Field()
    files = Field()

4)实现ExamplesSpider,设置起始爬取点。 parse方法将提取文件的下载URL并返回,一般情况下是把这些URL赋值给ExampleItem的file_urls。

代码语言:javascript
复制
# 获取360的图片信息
class SoSpider(scrapy.Spider):
    name = "so"
    allowed_domains = ["image.so.com"]

    def __init__(self, *args, **kwargs):
        super(SoSpider, self).__init__(*args, **kwargs)
        self.start_urls = ['http://image.so.com/z?ch=go']

    # 这里的parse方法将提取文件的下载URL并返回,一般情况下是把这些URL赋值给ExampleItem的file_urls。
    def parse(self, response):
        pass

2、使用Images Pipeline ImagesPipeline跟FilesPipeline的使用一样,只是使用的item字段和配置选项上有一些差别。

  • 差别一:在配置文件settings.py中导入路径不一样
代码语言:javascript
复制
ITEM_PIPELINES = {
    'tutorial.pipelines.files.FilesPipeline': 1,   # 文件 
    'tutorial.pipelines.images.ImagesPipeline': 2,   # 图片
} 
  • 差别二:在配置文件settings.py指定文件存储路径不一样
代码语言:javascript
复制
FILES_STORE = '/Users/huangtao/Downloads/files'  # 文件存储路径  
IMAGES_STORE = '/Users/huangtao/Downloads/files' # 图片存储路径
  • 差别三:在items.py定义的Item字段不一样
代码语言:javascript
复制
class ExampleItem(Item):
    # 文件
    file_urls = Field()
    files = Field()
    # 图片
    image_urls = scrapy.Field()  
    images = scrapy.Field()  

3、Images Pipeline在Files Pipeline基础上增加了一些特有的功能

  • 为图片生成缩略图 在配置文件settings.py中设置IMAGES_THUMBS,它是一个字典,每一项的值是缩略图的尺寸。
代码语言:javascript
复制
IMAGES_THUMBS = {  
    'small': (50, 50),  
    'big': (270, 270),  
} 

开启这个功能后,下载一张图片时,本地会出现3张图片,1张原图片,2张缩略图。

  • 检查图片的宽度和高度,过滤掉尺寸小的图片 在配置文件settings.py中设置IMAGES_MIN_HEIGHT和IMAGES_MIN_WIDTH,它们分别指定需要过滤掉的最小尺寸图片的宽和高。
代码语言:javascript
复制
IMAGES_MIN_WIDTH = 110  # 最小宽度
IMAGES_MIN_HEIGHT = 110  # 最小高度

开启这个功能后,如果下载的图片尺寸为109*200,该图片就会被抛弃,因为它的宽度不符合标准。同样的,当高度不符合时也会被抛弃。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2018.03.26 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
文件存储
文件存储(Cloud File Storage,CFS)为您提供安全可靠、可扩展的共享文件存储服务。文件存储可与腾讯云服务器、容器服务、批量计算等服务搭配使用,为多个计算节点提供容量和性能可弹性扩展的高性能共享存储。腾讯云文件存储的管理界面简单、易使用,可实现对现有应用的无缝集成;按实际用量付费,为您节约成本,简化 IT 运维工作。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档