专栏首页授客的专栏Python 基于Python从mysql表读取千万数据实践

Python 基于Python从mysql表读取千万数据实践

场景:

有以下两个表,两者都有一个表字段,名为waybill_no,我们需要从tl_waybill_bar_record表读取1000w条唯一的waybill_no,然后作为INSERT SQL语句的一部分,填充到ts_order_waybill的waybill_no字段中

tl_waybill_bar_record

ts_order_waybill

另外tl_waybill_bar_record表waybill_no有部分重复

实现思路

思路1、利用MySql的LIMIT offset, length分页功能+ORDER BY primary_key按主键排序,循环读取数据,然后解析读取的数据,直到满足条件停止

例子:按5000条记录进行分页,循环2000000,从第0条记录开始,按seq_id主键升序排序,每次从不同的分页读取5000条记录

for i in range(0, 2000000):

query = "SELECT waybill_no, seq_id FROM ts_order_waybill ORDER BY seq_id LIMIT '%s', 5000" % str(i*5000)

result = test_platform_db.select_many_record(query)

……(后续处理)

说明:这种方式,有一定的局限性,分页数量似乎会受限制,似乎只能8000多页,另外当offset达一定值(55w)的样子,似乎会变得很卡,数据量较少的情况下,可以考虑这么做

注意:这里如果不适用ORDER BY语句,可能在不同分页取数据时,会取到重复的数据

思路2、先SELECT MIN(primary_key) 查询最小主键值key_min_value,然后每次查询时加WHERE primary_key>=key_min_value,并且加ORDER BY primary_key按主键升序排序,同时使用LIMIT length限制每次返回数据量大小

min_seq_id = '18e23705987643f9b84cd8c4c3efc47868944d88cb71480ea4b7659d2c9c6cba'

for i in range(0, 2000000):

query = SELECT waybill_no, seq_id FROM ts_order_waybill WHERE seq_id>='%s' ORDER BY seq_id LIMIT 5000" % min_seq_id

result = test_platform_db.select_many_record(query)

……(后续处理)

问题

跑程序的时候,经常会突然“卡死”,可能是Python 类库自身原因,也可能是数据库请求过于频繁,这样会导致获取的结果丢失,需要重头开始跑

解决方法:

一边跑,一边写入本地文件,同时输出上次读取的记录的位置(思路2来说,就是那个最小主键值),然后重新跑程序时,替换下初始值即可。

关键代码

test_db = MyDB('MYDB')

file_handler = open('./result/waybill_no.txt', 'r+', encoding='utf-8')

waybill_no_set = set() # 用于存储获取的waybill_no

# 读取上次获取的数据

line = file_handler.readline()

line = line.strip() # 去掉换行符

while line:

waybill_no_set.add(line)

line = file_handler.readline()

line = line.strip()

# 初始最小主键值

min_seq_id = '18e23705987643f9b84cd8c4c3efc47868944d88cb71480ea4b7659d2c9c6cba'

count = len(waybill_no_set) # 初始化以读取的waybill_no总数

for i in range(0, 2000000):

query = "SELECT waybill_no,seq_id FROM ts_order_waybill WHERE seq_id>='%s' ORDER BY seq_id LIMIT 5000" % min_seq_id

result = test_db.select_many_record(query)

if result[0] and result[1]:

for item in result[1]:

waybill_no = item[0]

if waybill_no not in waybill_no_set:

waybill_no_set.add(waybill_no)

min_seq_id = item[1]

count += 1

print(count)

print(min_seq_id) # 记录上次读取的“最后位置”

file_handler.write(waybill_no)

file_handler.write('\n')

file_handler.flush()

print('已获取waybill_no总数:', count)

if count > 10000000:

break

# 插入数据

for waybill_no in waybill_no_set:

time.sleep(0.1)

insert_sql = "insert into `tl_waybill_bar_record` (`waybill_no`, `op_code`, `bar_Scan_Tm`, `ows_remark`, `stay_why_code`, `extend_attach1`, `extend_attach2`, `extend_attach3`, `extend_attach4`, `extend_attach5`, `op_name`, `dist_name`, `outside_name`, `old_waybill_no`, `courier_code`, `stay_why_name`, `create_time`) " \

"values('%s','31','2018-05-09 20:02:33','广州市',NULL,NULL,NULL,NULL,NULL,NULL,NULL,NULL,NULL,NULL,NULL,NULL,'2018-05-05 15:56:09');" % waybill_no

test_db.execute_insert(insert_sql, '')

count = count + 1

print(waybill_no)

print(count)

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Python 'xxx' codec can't decode byte xxx常见编码错

    利用python文件io方法 open打开文件,读取文件时报错,提示类似如下错误:

    授客
  • 网络基础 http 会话(session)详解

    会话(session)是一种持久网络协议,在用户(或用户代理)端和服务器端之间创建关联,从而起到交换数据包的作用机制

    授客
  • Vue 使用Use、prototype自定义全局插件

    console.log("send request by sendRequet Plugin")

    授客
  • ceph 运维常用命令总结

        cluster be1756f2-54f7-4d8f-8790-820c82721f17

    DevinGeng
  • 简单上手nodejs调用c++(c++和js的混合编程)

    因为项目的原因,最近经常使用node.js搭RESTful接口。 性能还是很不错啦,感觉比Spring Boot之类的要快。而且在不错的性能之外,只要程序...

    俺踏月色而来
  • 被V神点赞, 我是如何用五子棋打败以太坊排名最高的应用的? |人物志

    董沫,Celer Network创始人兼CEO,湾区创业者,圈内人往往亲切地称他为「老董」。

    区块链大本营
  • Hello NLP(1)——词向量Why&How

    相比于计算机视觉,NLP可能看起来没有那么有趣,这里没有酷炫的图像识别、AI作画、自动驾驶,我们要面对的,几乎都是枯燥的文本、语言、文字。但是,对于人工智能的征...

    beyondGuo
  • Java并发编程(一)知识地图

    Java极客
  • Oracle SQL性能优化

    (1)      选择最有效率的表名顺序(只在基于规则的优化器中有效): ORACLE的解析器按照从右到左的顺序处理FROM子句中的表名,FROM子句中写在最...

    猿人谷
  • Java SQL语句优化经验

    . (1) 选择最有效率的表名顺序(只在基于规则的seo/' target='_blank'>优化器中有效): ORACLE 的解析器按照从右到左的顺序处理FR...

    企鹅号小编

扫码关注云+社区

领取腾讯云代金券