首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >性能问题pandas 6mil行

性能问题pandas 6mil行
EN

Stack Overflow用户
提问于 2020-06-11 19:34:39
回答 1查看 29关注 0票数 1

我需要一个帮助。

我正在尝试连接两个数据帧。第一行有58k行,其他100行。我想以这样一种方式进行连接,即58k行中的每一行都有来自其他df的100行。所以总共有580万行。性能非常差,需要1小时才能完成10%。有什么改进的建议吗?下面是代码片段。

代码语言:javascript
运行
AI代码解释
复制
def myfunc(vendors3,cust_loc):
cust_loc_vend = pd.DataFrame()
cust_loc_vend.empty
for i,row in cust_loc.iterrows():
    clear_output(wait=True)
    a= row.to_frame().T
    df= pd.concat([vendors3, a],axis=1, ignore_index=False)
    #cust_loc_vend = pd.concat([cust_loc_vend, df],axis=1, ignore_index=False)
    cust_loc_vend= cust_loc_vend.append(df)
    print('Current progress:',np.round(i/len(cust_loc)*100,2),'%')
return cust_loc_vend

例如,如果第一DF具有5行,而第二DF具有100行

DF1 (示例2列)

我想要一个合并的DF,这样df2中的每一行都有来自df1的所有行-

EN

回答 1

Stack Overflow用户

发布于 2020-06-15 19:39:11

因为没有列,所以你要找的就是一个join.But,你能做的就是创建一个在两个数据帧中相似的列,然后最终删除它。

代码语言:javascript
运行
AI代码解释
复制
df['common'] = 1
df1['common'] = 1

df2 = pd.merge(df, df1, on=['common'],how='outer')

df = df.drop('tmp', axis=1)

其中df和df1是数据帧。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/62332169

复制
相关文章
pandas行转列
需求 原始文件 Year Country medal no of medals 1896 Afghanistan Gold 5 1896 Afghanistan Silver 4 1896 Afghanistan Bronze 3 1896 Algeria Gold 1 1896 Algeria Silver 2 1896 Algeria Bronze 3 目标 Year Country Gold Silver Bronze
jiewuyou
2022/09/29
6290
python pandas fillna_pandas删除行
DataFrame.fillna(self, value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs)
全栈程序员站长
2022/09/22
1.6K0
不改一行代码定位线上性能问题
最近时运不佳,几乎天天被线上问题骚扰。前几天刚解决了一个 HashSet 的并发问题,周六又来了一个性能问题。
java架构师
2019/03/06
4050
不改一行代码定位线上性能问题
最近时运不佳,几乎天天被线上问题骚扰。前几天刚解决了一个 HashSet 的并发问题,周六又来了一个性能问题。
crossoverJie
2022/10/27
1920
不改一行代码定位线上性能问题
在pandas中遍历DataFrame行
inp = [{'c1':10, 'c2':100}, {'c1':11,'c2':110}, {'c1':12,'c2':120}]
用户7886150
2020/12/26
3.4K0
pandas读取txt---按行输入按行输出
 1.pandas读取txt---按行输入按行输出 import pandas as pd # 我们的需求是 取出所有的姓名 # test1的内容 ''' id name score 1 张三 100 2 李四 99 3 王五 98 ''' test1 = pd.read_table("test1.txt") # 这个是带有标题的文件 names = test1["name"] # 根据标题来取值 print(names) ''' 张三 李四 王五 ''' # test2的内容 ''' 4 All
汀丶人工智能
2022/12/21
1.3K0
如何遍历pandas当中dataframe的行
现在需要遍历上面DataFrame的行。对于每一行,都希望能够通过列名访问对应的元素(单元格中的值)。也就是说,需要类似如下的功能:
马哥Python
2019/06/27
4.1K0
Pandas高端操作:10行代码解决用户游览日志合并排序问题
下面有一份用户游览日志的数据(复制下面显示的表格后,运行下面的代码才会出现相同的结果,详见《在剪贴板上读取/写入数据,太方便了吧!》):
朱小五
2021/01/20
2660
pandas列合并为一行
将dataframe利用pandas列合并为一行,类似于sql的GROUP_CONCAT函数。例如如下dataframe
机器学习和大数据挖掘
2019/07/01
2.1K0
pandas包 问题汇总
在数据文件中可能会出现小部分脏数据,在脏数据对数据整体没有较大影响我们又不知道脏数据位置的情况下,可以选择跳过那部分脏数据,不进行处理。
K同学啊
2019/01/22
5420
Pandas 高性能优化小技巧
Pandas 对于Pythoner的搞数据分析的来说是常用的数据操作库,对于很多刚接触Pandas的人来说会发现它是一个很方便而且好用的库,它提供了各种数据变化、查询和操作,它的dataframe数据结构和R语言、Spark的dataframe的API基本一样,因此上手起来也非常简单。但是很多新手在使用过程中会发现pandas的dataframe的性能并不是很高,而且有时候占用大量内存,并且总喜欢将罪名归于Python身上(lll¬ω¬),今天我这里给大家总结了在使用Pandas的一些技巧和代码优化方法。
机械视角
2019/10/23
3.1K0
Pandas 高性能优化小技巧
Pandas常见的性能优化方法
Pandas是数据科学和数据竞赛中常见的库,我们使用Pandas可以进行快速读取数据、分析数据、构造特征。但Pandas在使用上有一些技巧和需要注意的地方,如果你没有合适的使用,那么Pandas可能运行速度非常慢。本文将整理一些Pandas使用技巧,主要是用来节约内存和提高代码速度。
石晓文
2019/09/17
1.7K0
Pandas常见的性能优化方法
pandas dropna删除有空值的行_pandas中导出缺失值
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
全栈程序员站长
2022/09/28
2.3K0
Pandas常见的性能优化方法
Pandas是数据科学和数据竞赛中常见的库,我们使用Pandas可以进行快速读取数据、分析数据、构造特征。但Pandas在使用上有一些技巧和需要注意的地方,如果你没有合适的使用,那么Pandas可能运行速度非常慢。本文将整理一些Pandas使用技巧,主要是用来节约内存和提高代码速度。
Datawhale
2019/09/17
1.3K0
Pandas常见的性能优化方法
用 Swifter 大幅提高 Pandas 性能
假如在此刻,您已经将数据全部加载到panda的数据框架中,准备好进行一些探索性分析,但首先,您需要创建一些附加功能。自然地,您将转向apply函数。Apply很好,因为它使在数据的所有行上使用函数变得很容易,你设置好一切,运行你的代码,然后…
AiTechYun
2019/11/18
4.2K0
Pandas、Numpy性能优化秘籍(全)
pandas、numpy是Python数据科学中非常常用的库,numpy是Python的数值计算扩展,专门用来处理矩阵,它的运算效率比列表更高效。pandas是基于numpy的数据处理工具,能更方便的操作大型表格类型的数据集。但是,随着数据量的剧增,有时numpy和pandas的速度就成瓶颈。
算法进阶
2022/06/02
2.8K0
Pandas、Numpy性能优化秘籍(全)
一个Pandas问题
如果看了今天的第一篇文章会知道其中我对店铺评论标签进行了总结,不过在数据处理的时候有一个小问题。因为我是一个店铺一个店铺采集的数据,每一个店铺都有一堆标签和数量? 所以采集完几百个店铺之后这些标签一定
刘早起
2020/04/17
5810
一个Pandas问题
90%的人会遇到性能问题,如何用1行代码快速定位?
今天,齐光将会基于之前列举的众多指标,给出一些常见的调优分析思路,即:如何在众多异常性能指标中,找出最核心的那一个,进而定位性能瓶颈点,最后进行性能调优。整篇文章会按照代码、CPU、内存、网络、磁盘等方向进行组织,针对对某一各优化点,会有系统的「套路」总结,便于思路的迁移实践。
Datawhale
2019/12/09
8660
90%的人会遇到性能问题,如何用1行代码快速定位?
Pandas DataFrame显示行和列的数据不全
pd.set_option('display.max_columns', None)
用户7886150
2020/12/26
7K0
【说站】Python Pandas数据框如何选择行
下面将展示每个示例,以及何时使用某些技术的建议。假设我们的标准是 column 'A'=='foo'
很酷的站长
2022/11/24
1.6K0
【说站】Python Pandas数据框如何选择行

相似问题

pandas iterrow的性能问题

14

Pandas性能分析安装问题

111

提高Pandas DataFrames的行附加性能

72

从BigQuery读入Pandas DataFrame和性能问题

11

python ftp检索行--性能问题

24
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档