专栏首页小詹同学爬取数据不保存,就是耍流氓 !

爬取数据不保存,就是耍流氓 !

目录

  • 前言
  • Items
  • Pipelines
  • 瞎比比

前言

OK,通过前面两篇文章《爬虫利器初体验(1)》《听说你的爬虫又被封了?(2》,我们初体验也过了,爬虫代码健壮性也升级为 PLUS 了。都分析到这个地步了,是不是感觉还少了点什么?对,我们还没保存数据呀?不保存,这不是瞎忙活吗?

Items

item 是我们保存数据的容器,其类似于 python 中的字典。使用 item 的好处在于: Item 提供了额外保护机制来避免拼写错误导致的未定义字段错误。且看栗子:

import scrapy class Doubantop250Item(scrapy.Item): title = scrapy.Field() # 电影名字 star = scrapy.Field() # 电影评分 quote = scrapy.Field() # 脍炙人口的一句话 movieInfo = scrapy.Field() # 电影的描述信息,包括导演、主演、电影类型

Pipelines

pipelines.py 一般我们用于保存数据,其方法的一些介绍如下图。下面,我会分多种方式来保存我们的数据,避免你耍流氓。

保存到 Json

import json class JsonPipeline(object): file_name = base_dir + '/doubanTop250/data.json' # json 文件路径 def process_item(self, item, spider): file = open(self.file_name, 'r', encoding='utf-8') load_data = json.load(file) load_data.append({"title": item["title"].strip()}) # 追加数据 file = open(self.file_name, 'w', encoding='utf-8') json.dump(load_data, file, ensure_ascii=False) # 保存数据 file.close() return item

保存到 CSV

def appendDta2Csv(self, file_name, new_headers, new_data): with open(file_name,'r') as f: f_csv = csv.reader(f) try:# 如何有源文件没有 headers ,将调用传进来的 headers headers = next(f_csv) except: headers = new_headers old_data = list(f_csv) old_data.append(new_data) # 追加新的数据 with open(file_name, 'w') as f2:# 保存数据 f_csv = csv.writer(f2) f_csv.writerow(headers) f_csv.writerows(old_data) f2.close() f.close() def process_item(self, item, spider): self.appendDta2Csv(self.file_name, ["title"], [item["title"].strip()]) return item

保存到 MongoDB

from pymongo import MongoClient import os base_dir = os.getcwd() class MongoPipeline(object): # 实现保存到mongo数据库的类, collection = 'douban' # mongo 数据库的 collection 名字 def __init__(self, mongo_uri, db_name, db_user, db_pass): self.mongo_uri = mongo_uri self.db_name = db_name self.db_user = db_user self.db_pass = db_pass @classmethod def from_crawler(cls, crawler): # scrapy 为我们访问settings提供了这样的一个方法,这里, # 我们需要从 settings.py 文件中,取得数据库的URI和数据库名称 return cls( mongo_uri=crawler.settings.get('MONGO_URI'), db_name=crawler.settings.get('DB_NAME'), db_user=crawler.settings.get('DB_USER'), db_pass=crawler.settings.get('DB_PASS')) def open_spider(self, spider): # 爬虫启动时调用,连接到数据库 self.client = MongoClient(self.mongo_uri) self.zfdb = self.client[self.db_name] self.zfdb.authenticate(self.db_user, self.db_pass) def close_spider(self, spider): # 爬虫关闭时调用,关闭数据库连接 self.client.close() def process_item(self, item, spider): self.zfdb[self.collection].insert({"title": item["title"].strip()}) return item

保存到 MySQL

from sqlalchemy import create_engine, Column, Integer, String, BIGINT, ForeignKey, UniqueConstraint, Index, and_, \ or_, inspect from sqlalchemy.orm import sessionmaker, relationship, contains_eager class MysqlPipeline(object): MYSQL_URI = 'mysql+pymysql://username:password@localhost:3306/db_name' # echo 为 True 将会输出 SQL 原生语句 engine = create_engine(MYSQL_URI, echo=True) from sqlalchemy.ext.declarative import declarative_base Base = declarative_base() # 创建单表 class Movie(Base): __tablename__ = 'movies' id = Column(BIGINT, primary_key=True, autoincrement=True) title = Column(String(200)) # 初始化数据库 def init_db(self): self.Base.metadata.create_all(self.engine) # 删除数据库 def drop_db(self): self.Base.metadata.drop_all(self.engine) def open_spider(self, spider): # 爬虫启动时调用,连接到数据库 self.init_db() Session = sessionmaker(bind=self.engine) self.session = Session() def process_item(self, item, spider): new_movie = self.Movie(title=item["title"].strip()) self.session.add(new_movie) self.session.commit() return item

在写好相关的 pipeline 之后,需要在 settings.py 中启用相关的 pipeline,后面的数字为调用的优先级,数字是0-1000,你可以自定义。你可以所有格式都保存,也可以注释掉其他,值保留一个。

ITEM_PIPELINES = { 'doubanTop250.pipelines.MongoPipeline': 300, 'doubanTop250.pipelines.MysqlPipeline': 301, 'doubanTop250.pipelines.CsvPipeline': 302, 'doubanTop250.pipelines.JsonPipeline': 303, }

本文分享自微信公众号 - 小詹学Python(xiaoxiaozhantongxue)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-12-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 用Python做一个翻译软件

    前两天吃了平哥的一波狗粮,他给女朋友写了一个翻译软件,自己真真切切的感受到了程序员的浪漫。在学习requests请求的时候做过类似的Demo,给百度翻译发送一个...

    小小詹同学
  • 如何用 Python 打飞机 ?

    前言:python 除了生孩子 ,啥都会 。包括打飞机 !今天小詹的一位读者就来教你如何用 python 打飞机 !

    小小詹同学
  • 520这天,我突然意识到,她根本配不上我这么聪明的男人!

    在这个重大节日---520情人节来临之际,我却是显得更加寂寞无聊。看着那张长图有点不爽(关键是朋友圈狗粮吃得有点多),于是.........就有了下面这张动态图...

    小小詹同学
  • Scrapy框架系列--数据不保存,就是耍流氓(3)

    OK,通过签名两篇文章《爬虫利器初体验(1)》《听说你的爬虫又被封了?(2)》,我们初体验也过了,爬虫代码健壮性也升级为 PLUS 了。都分析到这个地步了,是不...

    1480
  • Python实现最大堆(大顶堆)

    Python自带的heapq模块实现的是最小堆,没有提供最大堆的实现。虽然有些文章通过把元素取反再放入堆,出堆时再取反,把问题转换为最小堆问题也能间接实现最大堆...

    py3study
  • iOS开发实战-基于SpriteKit的FlappyBird小游戏写在前面SpriteKit简介效果分析代码关于游戏上架TipsDemo地址还没结束

    蛋疼广电粽菊要求国内游戏必须备案... 我们只是想上个小游戏而已~难道还要再等个大半个月去备案么? Apple也妥协了 在备注那里要求中国区上架游戏必须填写...

    gwk_iOS
  • Python Day7

    是一种新建类的方式,新建的类称为子类,子类会遗传父亲的属性,可以减少代码冗余 在python当中,子类(派生类)可以继承一个或多个父类(基类,超类)

    py3study
  • DBSCAN算法的Python实现

    当我傻傻的用python写DBSCAN,我才突然想起来在scikit-learn中有DBSCAN,可以直接调用啊,我本来想要放弃快完成的代码,但是我想我可以发博...

    张凝可
  • PaddlePaddle版Flappy-Bird—使用DQN算法实现游戏智能

    刚刚举行的 WAVE SUMMIT 2019 深度学习开发者峰会上,PaddlePaddle 发布了 PARL 1.1 版本,这一版新增了 IMPALA、A3C...

    用户1386409
  • 从PEP-8学习Python编码风格

    Python3中应当总是使用UTF-8。(Python2使用ASCII。)在使用了规定编码后不需要再声明文件编码。

    py3study

扫码关注云+社区

领取腾讯云代金券