如何提高python 中for循环的效率

砸漏

发布于 2020-11-04 09:48:55

8.4K0

发布于 2020-11-04 09:48:55

文章被收录于专栏：恩蓝脚本恩蓝脚本

对于某个城市的出租车数据，一天就有33210000条记录，如何将每辆车的数据单独拎出来放到一个专属的文件中呢？

思路很简单：

就是循环33210000条记录，将每辆车的数据搬运到它该去的文件中。

但是对于3000多万条数据，一个一个循环太消耗时间，我花了2个小时才搬运了60万数据，算算3000万我需要花费100个小时，也就需要4-5天。并且还需要保证这五天全天开机，不能出现卡机的事故。

因此，需要使用并行进行for循环的技巧：

由于3000万数据放到csv中导致csv打不开，因此我就把一个csv通过split软件将其切分成每份60万，共53个csv。

我原来的思路是读取文件夹，获取由每一个60万的csv文件组成的列表，再分别对每一个60万的csv进行处理。实质上还是循环33210000次，并行for循环就是同时处理几个60万的csv文件，就能成倍的减少时间消耗。

并行进行for循环是受下面的方法启发：

我之前的做法类似这样：

并行for循环类似这样：

其中,process是进行处理的函数

实例代码如下：

补充知识：Python3用多线程替代for循环提升程序运行速度

优化前后新老代码如下：

老方法里外层for循环和内层for循环里均存在耗时操作：

1）git.get_project_members()

2）git.get_user_info(member_name, debug=False)

分两步来优化，先里后外或先外后里都行。用多线程替换for循环，并发共享外部资源，加锁避免写冲突。

测试结果通过，函数运行时间装饰器显示（单位秒）：

get_projects_lang_code_lines execution took up time:1.85294 get_projects_lang_code_lines_old execution took up time:108.604177

速度提升了约58倍

以上这篇如何提高python 中for循环的效率就是小编分享给大家的全部内容了，希望能给大家一个参考。

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2020-09-11 ，如有侵权请联系 cloudcommunity@tencent.com 删除

文件存储

编程算法

linux

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

文件存储

编程算法

linux

登录后参与评论

0 条评论

热度

如何提高python 中for循环的效率

如何提高python 中for循环的效率

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐