目录
前言
Items
Pipelines
瞎比比
前言
OK,通过签名两篇文章《
爬虫利器初体验(1)
》《听说你的爬虫又被封了?(2)》,我们初体验也过了,爬虫代码健壮性也升级为 PLUS 了。都分析到这个地步了,是不是感觉还少了点什么?对,我们还没保存数据呀?不保存,这不是瞎忙活吗?
Items
item 是我们保存数据的容器,其类似于 python 中的字典。使用 item 的好处在于:Item 提供了额外保护机制来避免拼写错误导致的未定义字段错误。且看栗子:
Pipelines
pipelines.py 一般我们用于保存数据,其方法的一些介绍如下图。下面,我会分多种方式来保存我们的数据,避免你耍流氓。
保存到 Json
保存到 CSV
保存到 MongoDB
保存到 MySQL
在写好相关的 pipeline 之后,需要在 settings.py 中启用相关的 pipeline,后面的数字为调用的优先级,数字是0-1000,你可以自定义。你可以所有格式都保存,也可以注释掉其他,值保留一个。
瞎比比
领取专属 10元无门槛券
私享最新 技术干货