腾讯云

文章/答案/技术大牛

发布

社区首页 >问答首页 >性能问题pandas 6mil行

问性能问题pandas 6mil行
EN

Stack Overflow用户

提问于 2020-06-11 19:34:39

回答 1查看 29关注 0票数 1

我需要一个帮助。

我正在尝试连接两个数据帧。第一行有58k行，其他100行。我想以这样一种方式进行连接，即58k行中的每一行都有来自其他df的100行。所以总共有580万行。性能非常差，需要1小时才能完成10%。有什么改进的建议吗？下面是代码片段。

def myfunc(vendors3,cust_loc):
cust_loc_vend = pd.DataFrame()
cust_loc_vend.empty
for i,row in cust_loc.iterrows():
    clear_output(wait=True)
    a= row.to_frame().T
    df= pd.concat([vendors3, a],axis=1, ignore_index=False)
    #cust_loc_vend = pd.concat([cust_loc_vend, df],axis=1, ignore_index=False)
    cust_loc_vend= cust_loc_vend.append(df)
    print('Current progress:',np.round(i/len(cust_loc)*100,2),'%')
return cust_loc_vend

例如，如果第一DF具有5行，而第二DF具有100行

DF1 (示例2列)

我想要一个合并的DF，这样df2中的每一行都有来自df1的所有行-

pandas

performance

jupyter-notebook

回答 1

Stack Overflow用户

发布于 2020-06-15 19:39:11

因为没有列，所以你要找的就是一个join.But，你能做的就是创建一个在两个数据帧中相似的列，然后最终删除它。

df['common'] = 1
df1['common'] = 1

df2 = pd.merge(df, df1, on=['common'],how='outer')

df = df.drop('tmp', axis=1)

其中df和df1是数据帧。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/62332169

复制

pandas行转列

http

需求原始文件 Year Country medal no of medals 1896 Afghanistan Gold 5 1896 Afghanistan Silver 4 1896 Afghanistan Bronze 3 1896 Algeria Gold 1 1896 Algeria Silver 2 1896 Algeria Bronze 3 目标 Year Country Gold Silver Bronze

jiewuyou

2022/09/29

6150

python pandas fillna_pandas删除行

python java https 网络安全

DataFrame.fillna(self, value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs)

全栈程序员站长

2022/09/22

1.5K0

不改一行代码定位线上性能问题

nginx 分布式 java mybatis 微服务

最近时运不佳，几乎天天被线上问题骚扰。前几天刚解决了一个 HashSet 的并发问题，周六又来了一个性能问题。

java架构师

2019/03/06

4040

不改一行代码定位线上性能问题

api jar nginx bug web

最近时运不佳，几乎天天被线上问题骚扰。前几天刚解决了一个 HashSet 的并发问题，周六又来了一个性能问题。

crossoverJie

2022/10/27

1890

在pandas中遍历DataFrame行

python 编程算法

inp = [{'c1':10, 'c2':100}, {'c1':11,'c2':110}, {'c1':12,'c2':120}]

用户7886150

2020/12/26

3.3K0

pandas读取txt---按行输入按行输出

pandas txt

1.pandas读取txt---按行输入按行输出 import pandas as pd # 我们的需求是　取出所有的姓名 # test1的内容 ''' id name score 1 张三　100 2 李四 99 3 王五 98 ''' test1 = pd.read_table("test1.txt") # 这个是带有标题的文件 names = test1["name"] # 根据标题来取值 print(names) ''' 张三李四王五 ''' # test2的内容 ''' 4 All

汀丶人工智能

2022/12/21

1.2K0

如何遍历pandas当中dataframe的行

编程算法 python java

现在需要遍历上面DataFrame的行。对于每一行，都希望能够通过列名访问对应的元素(单元格中的值)。也就是说，需要类似如下的功能：

马哥Python

2019/06/27

4K0

Pandas高端操作：10行代码解决用户游览日志合并排序问题

数据处理

下面有一份用户游览日志的数据（复制下面显示的表格后，运行下面的代码才会出现相同的结果，详见《在剪贴板上读取/写入数据，太方便了吧！》）：

朱小五

2021/01/20

2630

pandas列合并为一行

python sql spark

将dataframe利用pandas列合并为一行，类似于sql的GROUP_CONCAT函数。例如如下dataframe

机器学习和大数据挖掘

2019/07/01

2K0

pandas包问题汇总

python

在数据文件中可能会出现小部分脏数据，在脏数据对数据整体没有较大影响我们又不知道脏数据位置的情况下，可以选择跳过那部分脏数据，不进行处理。

K同学啊

2019/01/22

5310

Pandas 高性能优化小技巧

python api numpy

Pandas 对于Pythoner的搞数据分析的来说是常用的数据操作库，对于很多刚接触Pandas的人来说会发现它是一个很方便而且好用的库，它提供了各种数据变化、查询和操作，它的dataframe数据结构和R语言、Spark的dataframe的API基本一样，因此上手起来也非常简单。但是很多新手在使用过程中会发现pandas的dataframe的性能并不是很高，而且有时候占用大量内存，并且总喜欢将罪名归于Python身上(lll￢ω￢)，今天我这里给大家总结了在使用Pandas的一些技巧和代码优化方法。

机械视角

2019/10/23

3.1K0

Pandas常见的性能优化方法

css 文件存储 https html

Pandas是数据科学和数据竞赛中常见的库，我们使用Pandas可以进行快速读取数据、分析数据、构造特征。但Pandas在使用上有一些技巧和需要注意的地方，如果你没有合适的使用，那么Pandas可能运行速度非常慢。本文将整理一些Pandas使用技巧，主要是用来节约内存和提高代码速度。

石晓文

2019/09/17

1.7K0

pandas dropna删除有空值的行_pandas中导出缺失值

java https 网络安全

全栈程序员站长

2022/09/28

2.2K0

Pandas常见的性能优化方法

css 文件存储 https html

Datawhale

2019/09/17

1.3K0

用 Swifter 大幅提高 Pandas 性能

编程算法 https 网络安全 swift numpy

假如在此刻，您已经将数据全部加载到panda的数据框架中，准备好进行一些探索性分析，但首先，您需要创建一些附加功能。自然地，您将转向apply函数。Apply很好，因为它使在数据的所有行上使用函数变得很容易，你设置好一切，运行你的代码，然后…

AiTechYun

2019/11/18

4.2K0

Pandas、Numpy性能优化秘籍（全）

python numpy swift

pandas、numpy是Python数据科学中非常常用的库，numpy是Python的数值计算扩展，专门用来处理矩阵，它的运算效率比列表更高效。pandas是基于numpy的数据处理工具，能更方便的操作大型表格类型的数据集。但是，随着数据量的剧增，有时numpy和pandas的速度就成瓶颈。

算法进阶

2022/06/02

2.8K0

一个Pandas问题

python

如果看了今天的第一篇文章会知道其中我对店铺评论标签进行了总结，不过在数据处理的时候有一个小问题。因为我是一个店铺一个店铺采集的数据，每一个店铺都有一堆标签和数量? 所以采集完几百个店铺之后这些标签一定

刘早起

2020/04/17

5740

90%的人会遇到性能问题，如何用1行代码快速定位？

java 缓存

今天，齐光将会基于之前列举的众多指标，给出一些常见的调优分析思路，即：如何在众多异常性能指标中，找出最核心的那一个，进而定位性能瓶颈点，最后进行性能调优。整篇文章会按照代码、CPU、内存、网络、磁盘等方向进行组织，针对对某一各优化点，会有系统的「套路」总结，便于思路的迁移实践。

Datawhale

2019/12/09

8620

Pandas DataFrame显示行和列的数据不全

display max pandas rows set

pd.set_option('display.max_columns', None)

用户7886150

2020/12/26

6.8K0

【说站】Python Pandas数据框如何选择行

python api

下面将展示每个示例，以及何时使用某些技术的建议。假设我们的标准是 column 'A'=='foo'

很酷的站长

2022/11/24

1.5K0

相似问题

pandas iterrow的性能问题

Pandas性能分析安装问题

111

提高Pandas DataFrames的行附加性能

从BigQuery读入Pandas DataFrame和性能问题

提高“更新”性能(行锁定问题)

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

问性能问题pandas 6mil行
EN