Scrapy框架系列-数据不保存，就是耍流氓（3）

文章来源：企鹅号 - 数据分析1480

前言

Items

Pipelines

瞎比比

前言

OK，通过签名两篇文章《

爬虫利器初体验（1）

》《听说你的爬虫又被封了？（2）》，我们初体验也过了，爬虫代码健壮性也升级为 PLUS 了。都分析到这个地步了，是不是感觉还少了点什么？对，我们还没保存数据呀？不保存，这不是瞎忙活吗？

Items

item 是我们保存数据的容器，其类似于 python 中的字典。使用 item 的好处在于：Item 提供了额外保护机制来避免拼写错误导致的未定义字段错误。且看栗子：

Pipelines

pipelines.py 一般我们用于保存数据，其方法的一些介绍如下图。下面，我会分多种方式来保存我们的数据，避免你耍流氓。

保存到 Json

保存到 CSV

保存到 MongoDB

保存到 MySQL

在写好相关的 pipeline 之后，需要在 settings.py 中启用相关的 pipeline，后面的数字为调用的优先级，数字是0-1000,你可以自定义。你可以所有格式都保存，也可以注释掉其他，值保留一个。

瞎比比

相关快讯