专栏首页happyJared爬虫进阶:Scrapy入门

爬虫进阶:Scrapy入门

进阶前言

  学Py和写爬虫都有很长一段时间了,虽然工作方面主要还是做Java开发,但事实上用python写东西真的很爽。之前都是用Requests+BeautifulSoup这样的第三方库爬一些简单的网站,好处简单上手快,坏处也明显,单线程速度慢,偶尔想要跑快点还得自己写多线程或者多进程。其实早已久仰Scrpay大名,无奈一直没有主动去接触,前不久买了一本相关的书籍,看完之后便陆陆续续试手了几个实战项目(后续介绍),现在应该算是半梦半醒迈入半个大门了。其实Java也有好几个不错的爬虫框架,那为什么不选择Java?呵呵,人生苦短,用Python没错,何况它现在这么火。

  大多数学习是没有捷径的,如果你也想学Scrapy,根据个人经验,可以先买一两本相关书籍翻翻,然后写写小项目,接着再继续往深入学习,网上有很多不错的关于Scrapy的电子书,文末会推荐一波自己瞎逛已收藏的,可以根据自己的实际情况进行帅选和甄别。

目录结构

  万事开头难,安装好Scrapy环境后输入命令scrapy startproject start,这样就创建好了第一个scrapy项目,目录结构如下:

- start
    - start 
        - spiders # 爬虫编写及存放的目录
            - __init__.py
        - __init__.py
        - items.py # 定义爬虫数据结构的类
        - middlewares.py # 定义一些中间件的类,包括代理、请求头这些
        - pipelines.py # 数据流出的管道类,将爬取数据保存入库等
        - settings.py # 配置相关类,包括像日志、middlewares和pipelines等
    - scrapy.cfg # 主要用于将爬虫部署到第三方,一般可不理会

  项目框架已经搭起来了,紧接着示例下如何第一个爬虫,可以自己在spiders目录下手动创建爬虫类,也可以用scrapy提供的快捷命令scrapy genspider {spider-name} {target-website}快速生成指定名称的目标站点爬虫(参考如下)。例如spider-name可以定义为example,target-website指定为example.com

# -*- coding: utf-8 -*-
import scrapy


class ExampleSpider(scrapy.Spider):
    name = 'example'  # 爬虫名称,运行的时候需指定
    allowed_domains = ['example.com']  # 允许爬取的域名
    start_urls = ['http://example.com/']  # 第一个爬取的目标网址

    def parse(self, response):
        """scrapy爬取完首个目标网页后会回调到这个方法"""

        pass

  更多优秀和详细的Scrapy入门知识应该从书中或者其它学习资源获取,最后再附上Scrapy学习必备的经典架构图:

Scrapy经典架构图

常见命令

  这里记录和列举一些常用的scrapy命令及其作用:

命令

作用

可选参数

scrapy startproject {project-name}

创建scrapy项目

scrapy genspider {spider-name} {target-domain}

创建目标站点指定名称爬虫

scrapy shell {url}

调试抓取的指定网页

-s USER_AGENT='xxx',加上指定请求头

scrapy crawl {spider-name}

运行指定爬虫

-o output.{json or xml or cvs},将抓取结果输出为指定格式文件保存; -s {CLOSESPIDER_PAGECOUNT or CLOSESPIDER_ITEMCOUNT}=n,抓取指定数量网页或ITEM后自动停止爬虫

scrapy check {spider-name}

检测爬虫是否存在错误

学习资源

参考链接

scrapy命令行工具 Scrapy Documentation Scrapy 中文文档 示例代码 - GitHub

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 4张思维导图告诉你 - Python爬虫知识体系

    happyJared
  • 基于 Spring Data JPA 聊聊悲观锁和乐观锁

    举个场景:多线程、多进程应用在对数据库的同一数据进行非幂等操作时,如果没有添加相应的锁机制进行校验、判断,通常会导致数据的脏写。抛开分布式锁这种解决思路,简单的...

    happyJared
  • Docker 特点

    Docker 的设计思想是:集装箱,标准化和隔离。而 Docker 的设计特点包括如下:

    happyJared
  • 10、web爬虫讲解2—Scrapy框架爬虫—Scrapy安装—Scrapy指令

    1、首先,终端执行命令升级pip: python -m pip install --upgrade pip

    天降攻城狮
  • PKW: flask 接收请求参数 + pandas groupby 实用(第 2 期)

    ”有时候就是要经历一些糟糕的事情才能意识到世间存在的美丽。 Sometimes it takes going through something so awfu...

    周萝卜
  • python 动态获取类或者函数 pkgutil 动态引入模块

    一般情况下,我们会用类似 someDict['keyName'] 的方法,来获取键值内容。但是,如果这个键名不存在的话,就会报错。所以,在不确定的地方,推荐使用...

    FungLeo
  • .NET StockTrader 2.0 新版本

    为了扩大高性能.NET应用程序在多种层次和平台上的应用范围以及促进Windows通讯基础(WCF)的应用,微软2008年10月7日发布了一个样本应用程序、应用指...

    张善友
  • Python 可变参数的坑

    Python 的可变参数有*args的位置可变参数和**kwargs参数可变两种. 今天在DEBUG的时候发现了一个非常棘手的**kwargs的坑.

    用户1416054
  • AlphaGo Zero 初探

    Deepmind 最近发布了 AlphaGo 的最新版本 AlphaGo Zero 的论文,AlphaGo 不再需要学习人类的经验,而是可以自己学习如何下围棋...

    杨熹
  • IBM新软件为深度学习提供支持

    “supercomputingonline.com”发布消息称,IBM公司正在利用其新软件为深度学习提供支持。 IBM发布了基于Power Systems平台的...

    人工智能快报

扫码关注云+社区

领取腾讯云代金券