前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >10、web爬虫讲解2—Scrapy框架爬虫—Scrapy安装—Scrapy指令

10、web爬虫讲解2—Scrapy框架爬虫—Scrapy安装—Scrapy指令

原创
作者头像
天降攻城狮
修改2019-07-08 11:02:08
4610
修改2019-07-08 11:02:08
举报
文章被收录于专栏:分布式爬虫分布式爬虫

Scrapy框架安装

1、首先,终端执行命令升级pip: python -m pip install --upgrade pip

2、安装,wheel(建议网络安装) pip install wheel

3、安装,lxml(建议下载安装)

4、安装,Twisted(建议下载安装)

5、安装,Scrapy(建议网络安装) pip install Scrapy

测试Scrapy是否安装成功

image
image

Scrapy框架指令

scrapy -h  查看帮助信息

Available commands:

  bench       Run quick benchmark test (scrapy bench  硬件测试指令,可以测试当前服务器每分钟最多能爬多少个页面)

  fetch         Fetch a URL using the Scrapy downloader (scrapy fetch http://www.iqiyi.com/  获取一个网页html源码)

  genspider        Generate new spider using pre-defined templates ()

  runspider      Run a self-contained spider (without creating a project) ()

  settings        Get settings values ()

  shell         Interactive scraping console ()

  startproject     Create new project (cd 进入要创建项目的目录,scrapy startproject 项目名称 ,创建scrapy项目) 

  version         Print Scrapy version ()

  view           Open URL in browser, as seen by Scrapy ()

创建项目以及项目说明

scrapy startproject adc  创建项目

项目说明

目录结构如下:

├── firstCrawler

│   ├── init.py

│   ├── items.py

│   ├── middlewares.py

│   ├── pipelines.py

│   ├── settings.py

│   └── spiders

│       └── init.py

└── scrapy.cfg

  • scrapy.cfg: 项目的配置文件
  • tems.py: 项目中的item文件,用来定义解析对象对应的属性或字段。
  • pipelines.py: 负责处理被spider提取出来的item。典型的处理有清理、 验证及持久化(例如存取到数据库)
  • settings.py: 项目的设置文件.
  • spiders:实现自定义爬虫的目录
  • middlewares.py:Spider中间件是在引擎及Spider之间的特定钩子(specific hook),处理spider的输入(response)和输出(items及requests)。 其提供了一个简便的机制,通过插入自定义代码来扩展Scrapy功能。
image
image

项目指令

项目指令是需要cd进入项目目录执行的指令

scrapy -h  项目指令帮助

Available commands:

  bench      Run quick benchmark test

  check      Check spider contracts

  crawl       Run a spider

  edit         Edit spider

  fetch       Fetch a URL using the Scrapy downloader

  genspider    Generate new spider using pre-defined templates

  list        List available spiders

  parse      Parse URL (using its spider) and print the results

  runspider    Run a self-contained spider (without creating a project)

  settings      Get settings values

  shell      Interactive scraping console

  startproject   Create new project

  version       Print Scrapy version (scrapy version  查看scrapy版本信息)

  view      Open URL in browser, as seen by Scrapy (scrapy view http://www.zhimaruanjian.com/  下载一个网页并打开)

创建爬虫文件

创建爬虫文件是根据scrapy的母版来创建爬虫文件的

scrapy genspider -l  查看scrapy创建爬虫文件可用的母版

Available templates:母版说明

  basic        创建基础爬虫文件

  crawl        创建自动爬虫文件

  csvfeed        创建爬取csv数据爬虫文件

  xmlfeed     创建爬取xml数据爬虫文件

创建一个基础母版爬虫,其他同理

scrapy genspider  -t  母版名称  爬虫文件名称  要爬取的域名 创建一个基础母版爬虫,其他同理

如:scrapy genspider  -t  basic  pach  baidu.com

image
image

scrapy check 爬虫文件名称 测试一个爬虫文件是否合规

如:scrapy check pach

 
image
image

scrapy crawl 爬虫名称  执行爬虫文件,显示日志 【重点】

scrapy crawl 爬虫名称 --nolog  执行爬虫文件,不显示日志【重点】

【转载自:http://www.lqkweb.com

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
消息队列 TDMQ
消息队列 TDMQ (Tencent Distributed Message Queue)是腾讯基于 Apache Pulsar 自研的一个云原生消息中间件系列,其中包含兼容Pulsar、RabbitMQ、RocketMQ 等协议的消息队列子产品,得益于其底层计算与存储分离的架构,TDMQ 具备良好的弹性伸缩以及故障恢复能力。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档