前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >从5亿行数据中,筛选出重复次数在1000行的数据行,也爆内存了

从5亿行数据中,筛选出重复次数在1000行的数据行,也爆内存了

作者头像
Python进阶者
发布2023-11-14 11:16:21
1400
发布2023-11-14 11:16:21
举报

独在异乡为异客,每逢佳节倍思亲。

大家好,我是皮皮。

一、前言

前几天在Python最强王者交流群【巭孬🕷】问了一个问题,一起来看看吧。从5亿行数据中,筛选出重复次数在1000行的数据行,以前用这个,也爆内存了。

二、实现过程

这里【隔壁😼山楂】给了一个思路:如下所示:

后来【郑煜哲·Xiaopang】给了个思路,全tuple后,set。后来粉丝用merge逐一并集 解决了这个问题。

原来是用concat全部连接起来,再drop_duplicates,直接爆了。

刚才的是去重,算是解决了。现在又有个新问题,下一篇文章我们一起来看看吧。

三、总结

大家好,我是皮皮。这篇文章主要盘点了一个大数据去重的问题,文中针对该问题,给出了具体的解析和代码实现,帮助粉丝顺利解决了问题。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2023-11-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python爬虫与数据挖掘 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、前言
  • 二、实现过程
  • 三、总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档