前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >MongoDB数据库介绍与Python的交互(爬虫必备的数据库)

MongoDB数据库介绍与Python的交互(爬虫必备的数据库)

作者头像
Python知识大全
发布2020-02-13 14:54:52
9970
发布2020-02-13 14:54:52
举报
文章被收录于专栏:Python 知识大全

22/10

周二 小雨转阴

  • MongoDB 是一个基于分布式文件存储的数据库。由C++语言编写。旨在为 WEB 应用提供可扩展的高性能数据存储解决方案。
  • MongoDB 是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。
  • 参考地址:
    • MongoDB 官网地址:https://www.mongodb.com/
    • MongoDB 官方英文文档:https://docs.mongodb.com/manual/
    • MongoDB 各平台下载地址:https://www.mongodb.com/download-center#community

1 RDBMS与NoSQL区别:

  • 关系数据库管理系统(RDBMS)
    • 高度组织化结构化数据
    • 结构化查询语言(SQL)
    • 数据和关系都存储在单独的表中。
    • 数据操纵语言,数据定义语言
    • 严格的一致性
    • 基础事务
  • 非关系型数据库(NoSQL)
    • 代表着不仅仅是SQL
    • 没有声明性查询语言
    • 没有预定义的模式
    • 键 - 值对存储,列存储,文档存储,图形数据库
    • 最终一致性,而非ACID属性
    • 非结构化和不可预知的数据
    • CAP定理
    • 高性能,高可用性和可伸缩性
  • RDBMS 与 MongoDB 对应的术语区别:

RDBMS

MongoDB

数据库

数据库

表格

集合

文档

字段

表联合

嵌入文档

主键

主键 (MongoDB 提供了 key 为 _id )

2 Windows下安装MongoDB:

  • 下载地址:https://www.mongodb.org/dl/win32/x86_64-2008plus-ssl
  • 最新版的在安装过程中出现卡死现象,建议选择版本3.4版本(测试过)。
  • 安装图形界面,一步一步的安装即可:
  • 创建数据库目录:
代码语言:javascript
复制
c:\>cd c:\

c:\>mkdir data

c:\>cd data

c:\data>mkdir db

c:\data>cd db

c:\data\db>
  • 启动MongoDB服务:
代码语言:javascript
复制
C:\Program Files\MongoDB\Server\3.4\bin>mongod --dbpath c:\data\db
  • 连接MongoDB
代码语言:javascript
复制
C:\Program Files\MongoDB\Server\3.4\bin>mongo

3 数据库的操作

① MongoDB的数据库操作
  • 查看当前数据库名称
代码语言:javascript
复制
db
  • 查看所有数据库名称
  • 列出所有在物理上存在的数据库
代码语言:javascript
复制
show dbs

·

  • 切换数据库
  • 如果数据库不存在,则指向数据库,但不创建,直到插入数据或创建集合时数据库才被创建
代码语言:javascript
复制
use 数据库名称

默认的数据库为测试,如果你没有创建新的数据库,集合将存放在测试数据库中

  • 数据库删除
    • 删除当前指向的数据库
    • 如果数据库不存在,则什么也不做
代码语言:javascript
复制
db.dropDatabase()
② MongoDB的集合操作:
  • 创建集合:
代码语言:javascript
复制
db.createCollection(name, options)
  • name是要创建的集合的名称
  • options是一个文档,用于指定集合的配置
  • 选项参数是可选的,所以只需要到指定的集合名称。以下是可以使用的选项列表:
  • 例1:不限制集合大小
    • db.createCollection("stu")
  • 例2:限制集合大小,后面学会插入语句后可以查看效果
    • 参数capped:默认值为false表示不设置上限,值为true表示设置上限
    • 参数size:当capped值为true时,需要指定此参数,表示上限大小,当文档达到上限时,会将之前的数据覆盖,单位为字节
    • db.createCollection("sub", { capped : true, size : 10 } )
  • 查看当前数据库的集合
代码语言:javascript
复制
show collections

删除集合:

代码语言:javascript
复制
db.集合名称.drop()
③ 数据类型:
  • 下表为MongoDB中常用的几种数据类型:
    • Object ID:文档ID
    • String:字符串,最常用,必须是有效的UTF-8
    • Boolean:存储一个布尔值,true或false
    • Integer:整数可以是32位或64位,这取决于服务器
    • Double:存储浮点值
    • Arrays:数组或列表,多个值存储到一个键
    • Object:用于嵌入式的文档,即一个值为一个文档
    • Null:存储Null值
    • Timestamp:时间戳
    • Date:存储当前日期或时间的UNIX时间格式
  • object id
    • 前4个字节为当前时间戳
    • 接下来3个字节的机器ID
    • 接下来的2个字节中MongoDB的服务进程id
    • 最后3个字节是简单的增量值
    • 每个文档都有一个属性,为_id,保证每个文档的唯一性
    • 可以自己去设置_id插入文档
    • 如果没有提供,那么MongoDB为每个文档提供了一个独特的_id,类型为objectID
    • objectID是一个12字节的十六进制数
④ 数据的操作
  • 插入语法
代码语言:javascript
复制
db.集合名称.insert(document)
  • 插入文档时,如果不指定_id参数,MongoDB的会为文档分配一个唯一的的ObjectId
  • 例1: db.stu.insert({name:'gj',gender:1})
  • 例2: s1={_id:'20160101',name:'hr'} s1.gender=0 db.stu.insert(s1)
  • 简单查询
代码语言:javascript
复制
db.集合名称.find()
  • 数据的更新
代码语言:javascript
复制
db.集合名称.update(
   <query>,
   <update>,
   {multi: <boolean>}
)
  • 参数查询:查询条件,类似SQL语句更新中,其中部分
  • 参数更新:更新操作符,类似SQL语句更新中集部分
  • 参数多:可选,默认是假的,表示只更新找到的第一条记录,值为真表示把满足条件的文档全部更新
代码语言:javascript
复制
例3:全文档更新
db.stu.update({name:'hr'},{name:'mnc'})
例4:指定属性更新,通过操作符$集
db.stu.insert({name:'hr',gender:0})
db.stu.update({name:'hr'},{$set:{name:'hys'}})
例5:修改多条匹配到的数据
db.stu.update({},{$set:{gender:0}},{multi:true})
  • 数据的保存语法
代码语言:javascript
复制
db.集合名称.save(document)
  • 如果文档的_id已经存在则修改,如果文档的_id不存在则添加
代码语言:javascript
复制
db.stu.save({_id:'20160102','name':'yk',gender:1})

db.stu.save({_id:'20160102','name':'wyk'})
  • 删除 语法
代码语言:javascript
复制
db.集合名称.remove(
   <query>,
   {
     justOne: <boolean>
   }
)
  • 参数查询:可选,删除的文档的条件
  • 参数来说只是个:可选,如果设为真或1,则只删除一条,默认为false,表示删除多条
代码语言:javascript
复制
例:只删除匹配到的第一条
db.stu.remove({gender:0},{justOne:true})
例:全部删除
db.stu.remove({})
  • 关于大小的示例
代码语言:javascript
复制
创建集合
db.createCollection('sub',{capped:true,size:10})

插入第一条数据库查询
db.sub.insert({title:'linux',count:10})
db.sub.find()

插入第二条数据库查询
db.sub.insert({title:'web',count:15})
db.sub.find()

插入第三条数据库查询
db.sub.insert({title:'sql',count:8})
db.sub.find()

插入第四条数据库查询
db.sub.insert({title:'django',count:12})
db.sub.find()

插入第五条数据库查询
db.sub.insert({title:'python',count:14})
db.sub.find()
  • limit限制
代码语言:javascript
复制
方法限制():用于读取指定数量的文档
    db.集合名称.find().limit(NUMBER)
参数号表示要获取文档的条数
如果没有指定参数则显示集合中的所有文档

例1:查询2条学生信息
    db.stu.find().limit(2)
  • 投影
代码语言:javascript
复制
在查询到的返回结果中,只选择必要的字段,而不是选择一个文档的整个字段
如:一个文档有5个字段,需要显示只有3个,投影其中3个字段即可
参数为字段与值,值为1表示显示,值为0不显示

    db.集合名称.find({},{字段名称:1,...})

特殊:对于_id列默认是显示的,如果不显示需要明确设置为0

例1
    db.stu.find({},{name:1,gender:1})
例2
    db.stu.find({},{_id:0,name:1,gender:1})
  • 排序
代码语言:javascript
复制
方法sort(),用于对结果集进行排序
    db.集合名称.find().sort({字段:1,...})
参数1为升序排列
参数-1为降序排列

例1:根据性别降序,再根据年龄升序
    db.stu.find().sort({gender:-1,age:1})
  • 统计个数
代码语言:javascript
复制
方法count()用于统计结果集中文档条数
    db.集合名称.find({条件}).count()
也可以与为
    db.集合名称.count({条件})

例1:统计男生人数
    db.stu.find({gender:1}).count()

例2:统计年龄大于20的男生人数
    b.stu.count({age:{$gt:20},gender:1})
  • 消除重复
代码语言:javascript
复制
方法distinct()对数据进行去重
    db.集合名称.distinct('去重字段',{条件})

例1:查找年龄大于18的性别(去重)
    db.stu.distinct('gender',{age:{$gt:18}})

4 备份与恢复

代码语言:javascript
复制
语法
mongodump -h dbhost -d dbname -o dbdirectory
-h:服务器地址,也可以指定端口号
-d:需要备份的数据库名称
-o:备份的数据存放位置,此目录中存放着备份出来的数据
例1
sudo mkdir test1bak
sudo mongodump -h 192.168.196.128:27017 -d test1 -o ~/Desktop/test1bak
恢复
语法
mongorestore -h dbhost -d dbname --dir dbdirectory
-h:服务器地址
-d:需要恢复的数据库实例
--dir:备份数据所在位置
例2
mongorestore -h 192.168.196.128:27017 -d test2 --dir ~/Desktop/test1bak/test1

11.5 与python交互

  • 安装python包 pip install pymongo
  • 使用:
  • 引入包pymongo import pymongo
  • 连接,创建客户端 client=pymongo.MongoClient("localhost", 27017)
  • 获得数据库test1 db=client.test1
  • 获得集合stu stu = db.stu
  • 添加文档 s1={name:'gj',age:18} s1_id = stu.insert_one(s1).inserted_id
  • 查找一个文档 s2=stu.find_one()
  • 查找多个文档1 for cur in stu.find(): print cur
  • 查找多个文档2 cur=stu.find() cur.next() cur.next() cur.next()
  • 获取文档个数 print stu.count()

END

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-10-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python 知识大全 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 RDBMS与NoSQL区别:
  • 2 Windows下安装MongoDB:
  • 3 数据库的操作
    • ① MongoDB的数据库操作
      • ② MongoDB的集合操作:
        • ③ 数据类型:
          • ④ 数据的操作
          • 4 备份与恢复
          • 11.5 与python交互
          相关产品与服务
          云数据库 MongoDB
          腾讯云数据库 MongoDB(TencentDB for MongoDB)是腾讯云基于全球广受欢迎的 MongoDB 打造的高性能 NoSQL 数据库,100%完全兼容 MongoDB 协议,支持跨文档事务,提供稳定丰富的监控管理,弹性可扩展、自动容灾,适用于文档型数据库场景,您无需自建灾备体系及控制管理系统。
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档