首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Scrapy 爬虫(3):爬取数据不保存,就是耍流氓

(给Python开发者加星标,提升Python技能)

作者:Zone(本文来自作者投稿)

前言

通过前面两篇文章《

爬虫利器 Scrapy 初体验(1)

》《Scrapy 爬虫(2):听说你的爬虫又被封了?》,我们初体验也过了,爬虫代码健壮性也升级为 PLUS 了。都分析到这个地步了,是不是感觉还少了点什么?对,我们还没保存数据呀?不保存,这不是瞎忙活吗?

Items

item 是我们保存数据的容器,其类似于 python 中的字典。使用 item 的好处在于:Item 提供了额外保护机制来避免拼写错误导致的未定义字段错误。且看栗子:

Pipelines

pipelines.py 一般我们用于保存数据,其方法的一些介绍如下图。下面,我会分多种方式来保存我们的数据,避免你耍流氓。

保存到 Json

保存到 CSV

保存到 MongoDB

保存到 MySQL

在写好相关的 pipeline 之后,需要在 settings.py 中启用相关的 pipeline,后面的数字为调用的优先级,数字是0-1000,你可以自定义。你可以所有格式都保存,也可以注释掉其他,值保留一个。

瞎比比

数据保存就说到这里了,给公号发送「20190103」获取源码。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190103B06MDA00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券