Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >4种方法解决MongoDB游标超时的问题

4种方法解决MongoDB游标超时的问题

作者头像
青南
发布于 2019-08-20 07:45:39
发布于 2019-08-20 07:45:39
4.1K00
代码可运行
举报
文章被收录于专栏:未闻Code未闻Code
运行总次数:0
代码可运行
摄影:产品经理

厨师:kingname

当我们使用PythonMongoDB里面读取数据时,可能会这样写代码:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import pymongo

handler = pymongo.MongoClient().db.col

for row in handler.find():
    parse_data(row)

短短4行代码,读取MongoDB里面的每一行数据,然后传入 parse_data做处理。处理完成以后再读取下一行。逻辑清晰而简单,能有什么问题?只要parse_data(row)不报错,这一段代码就完美无缺。

但事实并非这样。

你的代码可能会在 forrowinhandler.find()这一行报错。它的原因,说来话长。

要解释这个问题,我们首先就需要知道, handler.find()返回的并不是数据库里面的数据,而是一个 游标(cursor)对象。如下图所示:

只有当你使用for循环开始迭代它的时候,游标才会真正去数据库里面读取数据。

但是,如果每一次循环都连接数据库,那么网络连接会浪费大量时间。

所以pymongo会一次性获取100行, forrowinhandler.find()循环第一次的时候,它会连上MongoDB,读取一百条数据,缓存到内存中。于是第2-100次循环,数据都是直接从内存里面获取,不会再连接数据库。

当循环进行到底101次的时候,再一次连接数据库,再读取第101-200行内容……

这个逻辑非常有效地降低了网络I/O耗时。

但是,MongoDB默认游标的超时时间是10分钟。10分钟之内,必需再次连接MongoDB读取内容刷新游标时间,否则,就会导致游标超时报错:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
pymongo.errors.CursorNotFound: cursor id 211526444773 not found

如下图所示:

所以,回到最开始的代码中来,如果 parse_data每次执行的时间超过6秒钟,那么它执行100次的时间就会超过10分钟。此时,当程序想读取第101行数据的时候,程序就会报错。

为了解决这个问题,我们有4种办法:

  1. 修改MongoDB的配置,延长游标超时时间,并重启MongoDB。由于生产环境的MongoDB不能随便重启,所以这个方案虽然有用,但是排除。
  2. 一次性把数据全部读取下来,再做处理:
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
all_data = [row for row in handler.find()]

for row in all_data:
    parse(row)

这种方案的弊端也很明显,如果数据量非常大,你不一定能全部放到内存里面。即使能够全部放到内存中,但是列表推导式遍历了所有数据,紧接着for循环又遍历一次,浪费时间。

  1. 让游标每次返回的数据小于100条,这样消费完这一批数据的时间就会小于10分钟:
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 每次连接数据库,只返回50行数据
for row in handler.find().batch_size(50):
    parse_data(row)

但这种方案会增加数据库的连接次数,从而增加I/O耗时。

  1. 让游标永不超时。通过设定参数 no_cursor_timeout=True,让游标永不超时:
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
cursor = handler.find(no_cursor_timeout=True)
for row in cursor:
    parse_data(row)
cursor.close()  # 一定要手动关闭游标

然而这个操作非常危险,因为如果你的Python程序因为某种原因意外停止了,这个游标就再也无法关闭了!除非重启MongoDB,否则这些游标会一直留在MongoDB上,占用资源。

当然可能有人会说,使用 try...except把读取数据的地方包住,只要抛出了异常,在处理异常的时候关闭游标即可:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
cursor = handler.find(no_cursor_timeout=True)
try:
    for row in cursor:
        parse_data(row)
except Exception:
    parse_exception()
finally:
    cursor.close()  # 一定要手动关闭游标

其中 finally里面的代码,无论有没有异常,都会执行。

但这样写会让代码非常难看。为了解决这个问题,我们可以使用游标的上下文管理器:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
with handler.find(no_cursor_timeout=True) as cursor:
    for row in cursor:
        parse_data(row)

只要程序退出了with的缩进,游标自动就会关闭。如果程序中途报错,游标也会关闭。

它的原理可以用下面两段代码来解释:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
class Test:
    def __init__(self):
        self.x = 1

    def echo(self):
        print(self.x)

    def __enter__(self):
        print('进入上下文')
        return self

    def __exit__(self, *args):
        print('退出上下文')

with Test() as t:
    t.echo()
print('退出缩进')

运行效果如下图所示:

接下来在 with的缩进里面人为制造异常:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
class Test:
    def __init__(self):
        self.x = 1

    def echo(self):
        print(self.x)

    def __enter__(self):
        print('进入上下文')
        return self

    def __exit__(self, *args):
        print('退出上下文')

with Test() as t:
    t.echo()
    1 + 'a'  # 这里一定会报错
print('退出缩进')

运行效果如下图所示:

无论在 with的缩进里面发生了什么, Test这个类中的 __exit__里面的代码始终都会运行。

我们来看看pymongo的游标对象里面, __exit__是怎么写的,如下图所示:

可以看到,这里正是关闭游标的操作。

因此,如果我们使用上下文管理器,就可以放心大胆地使用 no_cursor_timeout=True参数了。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-08-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 未闻Code 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Py测开《操作mysql的上下文管理器代码详解、多态和私有属性含义的总结》
一个类里面只要实现了__enter__和__exit__方法,这个类所创建出来的对象就是个上下文管理器对象了。
清菡
2022/04/27
3690
Py测开《操作mysql的上下文管理器代码详解、多态和私有属性含义的总结》
【python实操】年轻人,别用记事本保存数据了,试试数据库吧
为什么用数据库? 数据库比记事本强在哪? 答案很明显,你的文件很多时候都只能被一个人打开,不能被重复打开。当有几百万数据的时候,你如何去查询操作数据,速度上要快,看起来要清晰直接 数据库比我之前学的XML好在哪? XML表写索引的时候,很容易被中间断电就打断了,两个表对不上号了咋办? 安全和备份处理上数据库都有自己的考虑。
20岁爱吃必胜客
2023/03/25
1K0
【python实操】年轻人,别用记事本保存数据了,试试数据库吧
【python学习】python连接数据
一,python 操作 MySQL:详情见: 【apt-get install python-mysqldb】
py3study
2020/01/10
5800
一日一技:如何正确获取 MongoDB 集合里面的最后一条数据
在我们使用 Python 查询 MongoDB 的时候,一般会使用MongoDB 的集合(collection)对象的 find()方法或者find_one()方法:
青南
2019/10/23
8.3K0
Python爬虫之mongodb和python交互
pymongo 提供了mongdb和python交互的所有方法 安装方式: pip install pymongo
海仔
2020/09/23
7790
有坑勿踩(二): 关于游标
聊一聊一个最基本的问题,游标的使用。可能你从来没有注意过它,但其实它在MongoDB的使用中是普遍存在的,也存在一些常见的坑需要引起我们的注意。
MongoDB中文社区
2019/01/08
8380
专栏:010:SQL VS No SQL
用理工科思维看待这个世界 系列爬虫专栏 崇尚的学习思维是:输入,输出平衡,且平衡点不断攀升。 曾经有大神告诫说:没事别瞎写文章;所以,很认真的写的是能力范围内的,看客要是看不懂,不是你的问题,问题在我,得持续输入,再输出。 今天的主题是:pymongo的简单实用及其实战 0:框架 序号 内容 说明 01 概念及对比说明 -- 02 对比 -- 03 实战 -- 04 参考及总结 -- ---- 1:概念 数据库 数据库(Database)是按照数据结构来组织、存储和管理数据的仓库,
谢伟
2018/06/06
1K0
python操作数据库
在stored Routines调用中开的一个缓冲区,用于存放SQL调用的结果集。(结果集是只读的)
py3study
2020/01/07
5590
Python 如何优雅的操作 PyMySQL
在使用Python操作MySQL数据过的过程中,基本的增删改查操作如何更加高效优雅的执行。这里将以PyMySQL为例,介绍一下如何使用Python操作数据库。 Python对MySQL数据库进行操作,基本思路是先连接数据库 Connection 对象,建立游标 Cursor 对象,然后执行SQL语句对数据库进行操作,获取执行结果,最终断开连接。大致过程是这样,在对其进行介绍之前,先介绍一些基本的概念。
luckpunk
2023/09/29
7250
Python 如何优雅的操作 PyMySQL
MongoDB 游标
MongoDB中的游标与关系型数据库中的游标在功能上大同小异。游标相当于C语言的指针,可以定位到某条记录,在MongoDB中,则是文档。因此在mongoDB中游标也有定义,声明, 打开,读取,关闭这么个过程。客户端通过游标,能够实现对最终结果进行有效的控制,诸如限制结果数量,跳过部分结果或根据任意键按任意顺序的组合对结果进行各种排序等。下文是针对MongoDB游标的具体介绍。 一、mongoDB游标介绍 db.collection.find()方法返回一个游标,对于文档的访问,我们需要进行游标
Leshami
2018/08/13
8420
Python系列(十一):Python 文件与数据库操作:数据交互的关键
今天推荐的文章【金仓数据库数据迁移实战:从MySQL到KES的顺利迁移】,作者【努力的小雨】,二话不说上链接:https://cloud.tencent.com/developer/article/2470895 ,这篇文章深入介绍了数据库MySOL的迁移,详细浅显易懂。
我是黑桃A
2024/12/04
1060
Python系列(十一):Python 文件与数据库操作:数据交互的关键
爬虫——实战完整版
mongodb操作 1 import pymongo 2 3 #连接数据库实例(连接数据库)---》获取相应数据库---》获取相应collection集合(表) 4 client = pymongo.MongoClient(host='localhost',port=27017) 5 6 db = client.test #也可用字典形式操作,如下 7 # db = client["test"] 8 9 collection = db.students #也可用字典
py3study
2020/01/19
1.2K0
爬虫篇|学会如何入库(六)
数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据进行新增、查询、更新、删除等操作。
润森
2019/08/29
1K0
爬虫篇|学会如何入库(六)
使用Python操作MongoDB
使用Python操作MongoDB需要使用一个第三方库——PyMongo。安装这个库与安装Python其他的第三方库一样,使用pip安装即可:
没有故事的陈师傅
2020/04/10
2.4K0
使用Python操作MongoDB
records包源码解析
核心类有三个 Record, RecordCollection, Database。在做源码分析时,先从入口类Database开始:
哒呵呵
2018/12/19
7550
python脚本操作数据库
操作关键字 创建连接 connect [kə ˈ nekt] 连接 实例化游标 cursor [ˈ kɜ ː sə(r)] 游标 执行 sql 语句 execute [ˈ eksɪkju ː t] 实行;执行; 提交修改 commit [kə ˈ mɪt] 做出 事务回滚 rollback [ˈ rəʊlbæk] 回落; 关闭游标和链接 close
cuijianzhe
2022/06/14
5490
MongoDB 介绍和操作
MongoDB 和 Redis 一样均为 key-value 存储系统,它具有以下特点:
IT茂茂
2020/03/05
4.4K0
MongoDB 介绍和操作
Python接口自动化之pymysql数据库操作
在上一篇Python接口自动化测试系列文章:Python接口自动化之yaml配置文件,主要介绍主要介绍yaml语法、yaml存储数据,封装类读写yaml配置文件。
可可的测试小栈
2020/05/07
1.7K0
一日一技:在 Python 中实现延迟调用
熟悉 Golang 的同学都知道,Golang 里面有一个关键词叫做defer,它可以实现延迟调用。
青南
2020/02/19
1.1K0
一日一技:在 Python 中实现延迟调用
Hi,这里是我的爬虫笔记
平时有个习惯,会把自己的笔记写在有道云里面,现在做个整理。会长期更新,因为我是BUG制造机。 解析 xpath提取所有节点文本 <div id="test3">我左青龙,<span id="tiger">右白虎,<ul>上朱雀,<li>下玄武。</li></ul>老牛在当中,</span>龙头在胸口。<div> 使用xpath的string(.) #!/usr/bin/env python # -*- coding: utf-8 -*- from scrapy.selector import Selec
小歪
2018/04/04
9710
Hi,这里是我的爬虫笔记
相关推荐
Py测开《操作mysql的上下文管理器代码详解、多态和私有属性含义的总结》
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验