在上一章节,我们学会了使用Item Pipeline处理数据,而有时候我们可能需要下载爬虫网站中的文件信息,比如图片、视频、WORD文档、PDF文档、压缩包等。 Scrapy提供了两个Item Pipeline来下载文件和图片,它们分别是FilesPipeline和ImagesPipeline。 一、FilesPipeline和ImagesPipeline 这两个管道都实现了:
图片也是文件,下载图片本质上也是下载文件,Images Pipeline是FilesPipeline的子类,使用上和FilesPipeline差不多,只是Images Pipeline为处理图片提供了额外的功能:
1、使用Files Pipeline 一般会按照下面的步骤来使用文件管道: 1)在配置文件settings.py中启用FilesPipeline。
ITEM_PIPELINES = {
'tutorial.pipelines.files.FilesPipeline': 1,
}
2)在配置文件settings.py中使用FILES_STORE指定文件存储路径。
# 文件存储路径
FILES_STORE = '/Users/huangtao/Downloads/files'
3)实现ExampleItem(可选),在items.py定义file_urls和files两个字段。
class ExampleItem(Item):
file_urls = Field()
files = Field()
4)实现ExamplesSpider,设置起始爬取点。 parse方法将提取文件的下载URL并返回,一般情况下是把这些URL赋值给ExampleItem的file_urls。
# 获取360的图片信息
class SoSpider(scrapy.Spider):
name = "so"
allowed_domains = ["image.so.com"]
def __init__(self, *args, **kwargs):
super(SoSpider, self).__init__(*args, **kwargs)
self.start_urls = ['http://image.so.com/z?ch=go']
# 这里的parse方法将提取文件的下载URL并返回,一般情况下是把这些URL赋值给ExampleItem的file_urls。
def parse(self, response):
pass
2、使用Images Pipeline ImagesPipeline跟FilesPipeline的使用一样,只是使用的item字段和配置选项上有一些差别。
ITEM_PIPELINES = {
'tutorial.pipelines.files.FilesPipeline': 1, # 文件
'tutorial.pipelines.images.ImagesPipeline': 2, # 图片
}
FILES_STORE = '/Users/huangtao/Downloads/files' # 文件存储路径
IMAGES_STORE = '/Users/huangtao/Downloads/files' # 图片存储路径
class ExampleItem(Item):
# 文件
file_urls = Field()
files = Field()
# 图片
image_urls = scrapy.Field()
images = scrapy.Field()
3、Images Pipeline在Files Pipeline基础上增加了一些特有的功能
IMAGES_THUMBS = {
'small': (50, 50),
'big': (270, 270),
}
开启这个功能后,下载一张图片时,本地会出现3张图片,1张原图片,2张缩略图。
IMAGES_MIN_WIDTH = 110 # 最小宽度
IMAGES_MIN_HEIGHT = 110 # 最小高度
开启这个功能后,如果下载的图片尺寸为109*200,该图片就会被抛弃,因为它的宽度不符合标准。同样的,当高度不符合时也会被抛弃。