前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >scrapy 入门(一)

scrapy 入门(一)

作者头像
润森
发布2019-08-29 10:37:32
4110
发布2019-08-29 10:37:32
举报
文章被收录于专栏:毛利学Python毛利学Python

笔者近段时间写了几个爬虫练练手,就找百度图片入手了

什么是scrapy

Scrapy,Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。 Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。

目标

爬取 百度图库的美女的图片

image

环境介绍

  • pycharm
  • ubuntu

创建项目

scrapy startproject image

scrapy genspider meinv 'www.baidu.com'

url='https://image.baidu.com/search/indextn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=result&fr=&sf=1&fmq=1552550885640_R&pv=&ic=&nc=1&z=&hd=&latest=&copyright=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&word=%E7%BE%8E%E5%A5%B3'

注意点

要将settings中的robot改为false

分析逻辑

image

image 在源代码中可以看到图片的url是放在js中的,只能用re进行匹配,同时将meimv.py中的allowed_urls 注释。

代码

  • meinv.py
代码语言:javascript
复制
import scrapy
import re
from ..items import ImageItem
class BaiduSpider(scrapy.Spider):
    name = 'meinv'
    # allowed_domains = ['baidu.com']
    start_urls = ['https://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=result&fr=&sf=1&fmq=1552550885640_R&pv=&ic=&nc=1&z=&hd=&latest=&copyright=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&word=%E7%BE%8E%E5%A5%B3']

    def parse(self, response):
        html = response.text
        img_urls = re.findall(r'"thumbURL":"(.*?)"',html)
        for index,img_url in enumerate(img_urls):
            yield scrapy.Request(img_url,callback=self.parse_img_url,meta={'num': index})
    def parse_img_url(self,response):
        item = ImageItem()
        item['index'] = response.meta['num']
        item['content'] = response.body
        yield item
  • item.py
代码语言:javascript
复制
import scrapy
class ImageItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    content = scrapy.Field()
    index = scrapy.Field()
  • pipelines.py
代码语言:javascript
复制
class ImagePipeline(object):
    def process_item(self, item, spider):
        with open('%s.jpg' % item['index'],'wb') as f:
            f.write(item['content'])
        return item

  • settings.py

image 运行 scrapy crawl meinv

成功得到

image

当然这是scrapy的简单使用,强大的scrapy可不止下30张图片,后面继续更新.

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-03-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 小刘IT教程 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 什么是scrapy
  • 目标
  • 环境介绍
  • 创建项目
  • 分析逻辑
  • 代码
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档