首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >爬虫入门到精通-mongodb的基本使用

爬虫入门到精通-mongodb的基本使用

作者头像
爬虫
发布2018-04-08 11:56:34
7060
发布2018-04-08 11:56:34
举报
文章被收录于专栏:Python与爬虫Python与爬虫

在之前我们讲解了如何爬取网页(不管是异步加载的还是普通的),但是爬取下来的数据该如何保存呢?

保存到文本文件?

可能有人会说那我保存在文本文件里面,这样也是可以的,但是到你需要用这个数据的时候,可能就会很麻烦了…

我今天爬取了10000部日本电影

假如说你要找苍老师出演的,那么你可能会说,我直接ctrl+f查找”苍老师”不就行了

但是假如你想要找”苍老师+无码”怎么办呢???

这个时候就是体现数据库的作用了。

Mongodb的介绍

为什么用mongodb呢?

  1. 文档结构的存储方式
    1. 简单讲就是可以直接存json,list
  2. 不要事先定义”表”,随时可以创建
  3. “表”中的数据长度可以不一样
    1. 也就是第一条记录有10个值,第二条记录不要规定也要10个值
    2. 对爬虫这种很乱的数据来说,很适用 。

Mongodb的安装

直接到 https://www.mongodb.com/download-center#community选择合适的版本下载安装就可以了。

安装完成后

windows用户在 bin目录下新建一个data的文件夹

然后在新建一个start.bat文件,内容写上 mongod --dbpath ./data 后面每次只要直接打开这个.bat 文件mongodb就运行了

你可以直接选中start.bat,发送到桌面快捷方式,这样你以后可以直接在桌面打开了

mongodb的基本使用

首先 pip install pymongo

总结

爬虫经常用到的三条插入语句

下面的test2为表名,

  • test2.insert_one(xx) 插入一条数据
  • test2.insert_many(xx) 插入list
  • 最常用>>>test2.update_one({'x':1},{'$set':{'x':3}},upsert=True)
    • 第三条一般会在防止重复的数据被存到数据库内 要用到

代码都在 https://github.com/kimg1234/pachong/blob/master/mongodb%E7%9A%84%E5%9F%BA%E6%9C%AC%E4%BD%BF%E7%94%A8.ipynb

参考文档

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-04-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python爬虫分享 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 保存到文本文件?
  • Mongodb的介绍
    • 为什么用mongodb呢?
    • Mongodb的安装
    • mongodb的基本使用
    • 总结
      • 爬虫经常用到的三条插入语句
      相关产品与服务
      对象存储
      对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档