在学习爬虫的过程中, 遇到过不少坑.
今天这个坑可能以后你也会遇到, 随着爬取数据量的增加, 以及爬取的网站数据字段的变化, 以往在爬虫入门时使用的方法局限性可能会骤增.
怎么个骤增法?...查询指令使用JSON形式的标记,可轻易查询文档中内嵌的对象及数组
内建支持Map和Reduce函数, 可对数据进行批量和聚合操作....Why MongoDB
将目光放在MongoDB这样的文档型NoSQL身上, 是因为爬取的数据
对一致性要求不高
读写的速度要求较高
遇到数据字段发生变化时, 可以更方便的添加字段, 无需改变以前的数据结构...(注意函数要写在某个Pipeline类中, 并在 settings.py中启用对应的Pipeline, 如果你已经启用, 直接添加即可):
# 在Python中使用mongoDB的所需的包
import...)
# ADD if NEED account and password
# 当需要使用数据库的用户名和密码, 取消以下的注释, MongoDB支持直接查询, 无需登录