上文用了scrapy爬取了百度的美女图片,今天写写scrapy中的Image Pipeline
scrapy提供了专门下载的PIpeline,包含文件下载和图片下载。
在pipelines.py 导入ImagesPipeline
from scrapy.pipelines.images import ImagesPipeline
ctrl 点下看下源码,可以看出媒体管道就是 ImagesPipeline
和FilesPipeline
那么怎么用呢,今天继续爬美女图片,换个媒体管道来爬
首先先配置settings中的ITEM_PIPELINES
'scrapy.pipelines.images.ImagesPipeline': 1
后面数字1让它马上调用
存储图片的路径
IMAGES_STORE = '/home/pyvip/文档/img/IMGS''
重点来了 内置的ImagePipeline会默认读取Item的image_urls字段
item.py 中只能写image_urls字段
再处理下pipelines.py 让 ImagePipeline 继承ImagesPipeline
meinv.py
用正则匹配image_urls 直接给到Imageitem,而ImagePipeline继承于scrapy默认的媒体管道ImagesPipeline,也就是有了image_urls 的 字段,而默认的媒体管道会直接下载image_urls 中的图片 在setting中建立了存储路径,会把图片放在该文件夹下
好像没问题,那直接cd 到目录根目录下 scrapy crawl meinv
看到image_urls
有东西,好像没问题
果然在IMGS中有30张图片
但是我感到奇怪百度图片不是有refer吗,没有不是forbidden吗
那在哪里加上refer,在middleware.py 中的处理请求中加入
没完,我继续在settings.py中添加
IMAGES_THUMBS = {'small': (50, 50), 'big':(270, 270)}
我要把大图和小图分出来
继续scrapy crawl meinv
原来图片都是700以上的,反而变成小图
在settings中添加就可以了
meinv.py
mport scrapy
import re
from ..items import ImageItem
class MeinvSpider(scrapy.Spider):
name = 'meinv'
# allowed_domains = ['www.baidu.com']
start_urls = ['https://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=result&fr=&sf=1&fmq=1552550885640_R&pv=&ic=&nc=1&z=&hd=&latest=©right=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&word=%E7%BE%8E%E5%A5%B3']
def parse(self, response):
item = ImageItem()
html = response.text
item['image_urls'] = re.findall(r'"thumbURL":"(.*?)"',html)
yield item
settings.py
ROBOTSTXT_OBEY = False
ITEM_PIPELINES = {
# 'image.pipelines.ImagePipeline': 300,
'scrapy.pipelines.images.ImagesPipeline': 1
}
IMAGES_STORE = '/home/pyvip/code/爬虫/爬虫框架/image/IMGS'
IMAGES_THUMBS = {'small': (50, 50), 'big':(270, 270)}
pipelines.py
from scrapy.pipelines.images import ImagesPipeline
class ImagePipeline(ImagesPipeline):
pass
item.py
import scrapy
class ImageItem(scrapy.Item):
image_urls = scrapy.Field()