前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >爬虫课程(九)|豆瓣:Scrapy中items设计及如何把item传给Item Pipeline

爬虫课程(九)|豆瓣:Scrapy中items设计及如何把item传给Item Pipeline

作者头像
黄小怪
发布2018-05-21 17:14:01
7170
发布2018-05-21 17:14:01
举报
文章被收录于专栏:小怪聊职场小怪聊职场

一、定义Item

Item是保存爬取到的数据的容器,其使用方法和python字典类似,并且提供了额外保护机制来避免拼写错误导致的未定义字段错误。

类似在ORM中做的一样,我们可以通过创建一个scrapy.Item 类,并且定义类型为scrapy.Field 的类属性来定义一个Item。

首先根据需要从book.douban.com/latest?icn=index-latestbook-all获取到的数据对item进行建模。我们需要从book.douban.com中获取书籍的背景图、书籍详情页地址、书籍名称、书籍介绍、书籍页数、书籍价格以及书籍的发布时间。 对此,在item中定义相应的字段。编辑 tutorial 目录中的 items.py 文件:

豆瓣读书信息的Item

二、把豆瓣读书的信息写进Item中

第一步,我们把豆瓣读书在列表页的信息写入Item,如下图代码:

把列表页面的书籍信息写入Item

我们发现,列表页的数据非常不全,例如我们需要的书籍页数和书籍价格信息就不在列表页,那么我们就必须去书籍详细页去获取这两个数据。如下图代码:

去详细页获取更多信息

在这两个def中,我们需要注意:在第一个def(parse)在yield出来之后有3个参数,第一个是url,这个url即需要进入的详细页的地址,第二个参数meta是需要把值传到下一个def的对象,第三个参数是callback的值,也就是第二个def(parse_detail)的名称。

最后执行,我们查看得出的结果:

执行爬虫打印出的结果

三、把Item的值传到Item Pipeline

当Item在Spider中被收集之后,它将会被传递到Item Pipeline,一些组件会按照一定的顺序执行对Item的处理。 每个item pipeline组件(有时称之为“Item Pipeline”)是实现了简单方法的Python类。他们接收到Item并通过它执行一些行为,同时也决定此Item是否继续通过pipeline,或是被丢弃而不再进行处理。 以下是item pipeline的一些典型应用: 1)清理HTML数据 2)验证爬取的数据(检查item包含某些字段) 3)查重(并丢弃) 4)将爬取结果保存到数据库中

我们获取网站的数据,并且把这些数据保存到Item容器,最后需要通过pipelines把数据存放到数据库中去。那么Item的数据应该怎么传到pipelines里面呢?

第一步:把这个Item yield出去,yield出去之后,这个Item就会进入到pipelines里面去。

yield出Item

第二步:在pipelines编写一个接收Item的class,编写一个process_item(名字是固定的)的方法(带有item参数),同时在settings.py把这个class配置上。如下两张图:

编写一个带process_item def的class

把这个class名称在settings.py中的ITEM_PIPELINES配置上

最后,我们在pipelines的process_item方法上写个断点,查看接收到的item的值,在main.py进行debug,进入到process_item方法时,结果如下,说明这个item值已经进入pipelines管道啦。

item进入pipelines管道

那么,接下来要做的就是利用pipelines,把数据保存到mysql中。这个下篇文章在讲。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2017.11.07 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
容器服务
腾讯云容器服务(Tencent Kubernetes Engine, TKE)基于原生 kubernetes 提供以容器为核心的、高度可扩展的高性能容器管理服务,覆盖 Serverless、边缘计算、分布式云等多种业务部署场景,业内首创单个集群兼容多种计算节点的容器资源管理模式。同时产品作为云原生 Finops 领先布道者,主导开源项目Crane,全面助力客户实现资源优化、成本控制。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档