专栏首页小麦苗的DB宝专栏scrapy (三)各部分意义及框架示意图详解

scrapy (三)各部分意义及框架示意图详解

今天小婷儿给大家分享的是scrapy (三)各部分意义及框架示意图详解。

scrapy (三)各部分意义及框架示意图详解

一、框架示意图

Scrapy由 Python 编写,是一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。

二、爬虫人员的主要工作

1、创建一个Scrapy项目

2、定义提取的Item

3、编写爬取网站的 spider 并提取 Item

4、编写 Item Pipeline 来存储提取到的Item(即数据)

三、scrapy基本流程

四、scrapy 框架各部分详解

1、 Scrapy Items :定义您想抓取的数据

import scrapy

class TorrentItem(scrapy.Item):

name = scrapy.Field()

2、spiders:编写提取数据的Spider

1):定义初始URL根网址、 针对后续链接的规则以及从页面中提取数据的规则(即写正则或xpath等等)。

2)执行spider,获取数据

注:运行spider来获取网站的数据,并以JSON格式存入到scraped_data.json 文件中:

terminal:scrapy crawl mininova -o scraped_data.json

3、编写 item pipeline 将item存储到数据库中

注:

1)、Item在Spider中被收集之后,它将会被传递到Item Pipeline,一些组件会按照一定的顺序执行对Item的处理;

2)每个item pipeline组件(有时称之为“Item Pipeline”)是实现了简单方法的Python类。他们接收到Item并通过它执行一些行为,同时也决定此Item是否继续通过pipeline,或是被丢弃而不再进行处理。

3)item pipeline的一些典型应用:

a)清理HTML数据

b)验证爬取的数据(检查item包含某些字段)

c)查重(并丢弃)

4)将爬取结果保存到数据库中

4、编写自己的item pipeline

注:每个item pipiline组件是一个独立的Python类,同时必须实现以下方法:

1)process_item(item, spider)

每个item pipeline组件都需要调用该方法,这个方法必须返回一个 Item (或任何继承类)对象, 或是抛出 DropItem 异常,被丢弃的item将不会被之后的pipeline组件所处理。

参数:

item (Item 对象) – 被爬取的item

spider (Spider 对象) – 爬取该item的spider

2)open_spider(spider)

当spider被开启时,这个方法被调用。

参数:spider (Spider 对象) – 被开启的spider

3)close_spider(spider)

当spider被关闭时,这个方法被调用

参数:spider (Spider 对象) – 被关闭的spider

5、查看提取到的数据

执行结束后,查看 scraped_data.json , 将看到提取到的item:

注 :1)由于 selectors 返回list, 所以值都是以list存储的(除了 url 是直接赋值之外)。

2) Item Loaders :可以保存单个数据或者对数据执行额外的处理

本文分享自微信公众号 - DB宝(xiaomaimiaolhr),作者:小婷儿best

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-06-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【DB笔试面试633】在Oracle中,什么是待定的统计信息(Pending Statistic)?

    在数据库系统运维中,DBA常常希望维持SQL执行计划的稳定。很多DBA和开发人员对于Hint的依赖,很大程度上也是源于在CBO情况下,执行计划对于统计量过于依赖...

    小麦苗DBA宝典
  • 【DB笔试面试703】在Oracle中,怎么杀掉特定的数据库会话?

    “ALTER SYSTEM KILL SESSION 'SID,SERIAL#' IMMEDIATE;”或者“ALTER SYSTEM DISCONNECT S...

    小麦苗DBA宝典
  • 【DB笔试面试537】在Oracle中,PFILE和SPFILE的区别是什么?

    参数文件(Parameter File)也叫初始化文件,它主要用来记录数据库的配置文件,在数据库启动时,Oracle读取参数文件,并根据参数文件中的参数设置来配...

    小麦苗DBA宝典
  • 漫画:位运算系列篇(只出现一次的数字 - 进阶版)

    今天是小浩算法“365刷题计划”第63天。今天状态不好,因为昨天感冒了,写了好久才写下这篇长文,本来说写点别的水一水,改天再做这个续集,但是想了想还是算了!昨天...

    程序员小浩
  • 可能是最全的 “文本溢出截断省略” 方案合集

    在我们的日常开发工作中,文本溢出截断省略是很常见的一种需考虑的业务场景细节。看上去 “稀松平常” ,但在实现上却有不同的区分,是单行截断还是多行截断?多行的截断...

    政采云前端团队
  • 前段:可能是最全的 “文本溢出截断省略” 方案合集

    在我们的日常开发工作中,文本溢出截断省略是很常见的一种需考虑的业务场景细节。看上去 “稀松平常” ,但在实现上却有不同的区分,是单行截断还是多行截断?多行的截断...

    用户4962466
  • 前段:可能是最全的 “文本溢出截断省略” 方案合集

    在我们的日常开发工作中,文本溢出截断省略是很常见的一种需考虑的业务场景细节。看上去 “稀松平常” ,但在实现上却有不同的区分,是单行截断还是多行截断?多行的截断...

    用户4962466
  • 可能是最全的 “文本溢出截断省略” 方案合集

    在我们的日常开发工作中,文本溢出截断省略是很常见的一种需考虑的业务场景细节。看上去 “稀松平常” ,但在实现上却有不同的区分,是单行截断还是多行截断?多行的截断...

    Nealyang
  • silverlight 2 Random 随机数解决方案

    using System; using System.Security.Cryptography; public class RNG     { ...

    用户1172164
  • 如何禁止JavaScript对象重写?

    译者按: 使用Object.preventExtensions()、Object.seal()和Object.freeze(),可以禁止重写JavaScript...

    Fundebug

扫码关注云+社区

领取腾讯云代金券