Pandas查询数据帧的性能差异

、、

假设我有一个数据框 purchase_1 = pd.Series({'Name': 'Chris', 'Item Purchased': 'Dog Fooddf = pd.DataFrame([purchase_1, purchase_2, purchase_3], index=['Store 1', 'Store 1', 'Store 2']) 我的问题是，这两个代码块之间是否存在

浏览 21提问于2020-04-10得票数 0

回答已采纳

2回答

对熊猫数据帧进行子集的最佳方法

、、、

当您可以使用括号表示法直接过滤数据帧时，为什么人们会使用df.query()？官方的熊猫教程似乎也更倾向于后一种方法。使用方括号表示法：With pandas查询方法：除了已经提到的一些风格或灵活性差异之外，是否有一个规范首选-即在大型数据帧上的操作性能

浏览 0提问于2018-01-22得票数 11

回答已采纳

2回答

在Pandas中迭代数据帧中的行:使用df.index和df.iterrows()作为迭代器有什么区别吗？

、、

在Pandas中迭代数据帧中的行时，使用以下方法是否存在性能上的差异： ....哪一种是最好的？

浏览 9提问于2021-12-04得票数 1

回答已采纳

1回答

在Python3中使用'multiprocessing‘库进行PostgreSQL查询

、、、、

我正在尝试编写一个Python脚本，将查询数据从我的数据库读取到pandas数据帧中。我已经大大简化了代码，以测试使用多处理库的有效性，以便并行运行查询，因为运行包含我要收集的所有信息的查询需要几分钟时间。但是，从多进程中使用Pool并不是最有效的。(实际上，在运行脚本时没有出现性能上的差异)。有没有一种更有

浏览 0提问于2018-06-12得票数 1

1回答

Spark dataframe CSV vs Parquet

、、

我是Spark的初学者，正在尝试理解spark数据帧的机制。当从csv加载数据时，我正在比较spark sql dataframe上sql查询的性能。我的理解是，一旦数据被加载到spark数据帧中，那么数据来自哪里(csv或parquet)就不再重要了。然而，我看到了两者之间的显着性能差异。我正在使用以下命令加

浏览 2提问于2018-02-11得票数 1

1回答

当追加多个列时，如何解释DataFrame.assign(**kwargs)和dd[x]=y在Dask中的性能差异？

、、、

在将一些代码从Pandas迁移到Dask时，我发现通过使用多列调用DataFrame.assign()来修改Dask数据帧与使用多个DataFrame.__setitem__() (也称为dataframe[x]=y)调用来修改它之间存在巨大的性能差异。使用导入对于定义如下的Dask数据帧： dd = dask.dataframe.from_pan

浏览 3提问于2020-04-16得票数 0

1回答

pandas_udf和to_pandas的区别是什么？

、

当我用熊猫清理大数据的时候，我有两种方法:一种是从pyspark 2.3+清洁数据中使用sdf，另一种是通过toPandas()将sdf转换成pdf，然后使用熊猫进行清洁。

浏览 1提问于2019-01-21得票数 1

回答已采纳

1回答

合并两个大型数据帧

、、、

我有两个大数据帧:一个包含3M行，另一个包含2M行第一个数据帧： sacc_id$ id$ creation_date0 001A000000hAUn8IAG/_libs/join.pyx in

浏览 16提问于2019-01-31得票数 0

2回答

使用Pandas导入Excel文件时出现问题

、、

我是python的新手，希望有人能帮我。import pandas as pd dataat0789/.spyder-py3/temp.p

浏览 3提问于2020-03-12得票数 0

1回答

Pandas :计算整个数据帧的平均值或标准差

、、

这就是我的问题，我有一个这样的数据框架：S3 0 5 9S1 6 11 12S4 4 8 8df.mean()df.mean().mean()df.get_values().mean() df.get_va

浏览 0提问于2014-08-05得票数 46

回答已采纳

1回答

为什么大熊猫成群的速度不同？

、、

为什么在pandas中，从32m行数据帧中获取组的这三种方法的性能存在差异。编辑:添加漏掉的方括号。

浏览 0提问于2016-07-18得票数 0

1回答

Keras序列:创建Tensorflow numeric_columns的优势？

、、

relu'), Dense(units=1, activation='linear']) 在另一个教程中，初始输入层是直接从使用.values转换为numpy数组的pandas数据帧中获取的。张量的字典永远不会创建，并且第一层没有DenseFeatures位。(在本例中，df是数据帧，features是功能列的列表，lbl是目标列) x = df[features]

浏览 24提问于2021-09-04得票数 1

回答已采纳

1回答

pandas数据帧: loc与查询性能

、、、、

我在python中有两个数据帧，我想查询数据。 DF1: 4M记录x 3列。查询函数看起来比loc函数更有效。 DF2: 2K条记录x 6列。loc函数看起来比query函数更有效。两个查询都返回一条记录。模拟是通过在循环中运行相同的操作10K次来完成的。运行python 2.7和pandas 0.16.0 有什么建议可以提高查询速度吗？

浏览 72提问于2018-04-20得票数 17

回答已采纳

1回答

Delta Lake:性能挑战

、

方法1:我的输入数据是一堆json文件。经过预处理后，输出为pandas数据帧格式，该格式将写入Azure SQL数据库表。方法2:我已经实现了delta lake，其中输出pandas数据帧被转换为Spark数据帧，然后将数据插入到分区的Delta Table中。这个过程很简单，而且将pandas数据帧转换为

浏览 8提问于2020-10-28得票数 1

1回答

熊猫切片列和基于条件之间的选择子集

、、

我有如下数据：timestamp 2020-11-0112:00:00，并且需要发生这些事件的索引/时间戳。每个列可能有多个这样的事件。所以，100，可以是从12:00到12:03之间的0.5到1，然后再从12:20到12:30。当它达到0时，它需要重置。列名是可变的。我还想要列值在0.5到1之间的时间差，所以从上面看是3分钟和10分钟。对于索引出现在<

浏览 3提问于2020-11-27得票数 0

回答已采纳

1回答

Pandas MultiIndex的简单用例

、

我正在尝试在Pandas数据帧上编写一个简单的查询0 1 2.10 3 4.0我希望选择所有行作为WHERE A=0 and B>1，因此我希望作为输出A B C0 3 4.0df = pd.DataFrame([{'A': 0, 'B': 1, 'C': 2.1}, {'A': 0, '

浏览 20提问于2018-03-04得票数 1

3回答

将列名称从int转换为pandas中的字符串

、

我有一个混合列名的pandas数据帧：当我将这个数据帧保存到h5file时，它说性能会因为混合类型而受到影响。如何在pandas中将整数转换为字符串？

浏览 12提问于2016-07-26得票数 37

回答已采纳

1回答

SQLLite或SQLAlchemy可以直接在熊猫数据帧上工作吗

、

我正在尝试对pandas dataframe使用sql查询。但是使用where子句有时会让人感到困惑。由于我也已经在SQL中构建了查询，所以我尝试使用SQL ALchemy，但它首先需要创建一个与RDBMS.Unfortunately的连接我的数据在CSV中。请告诉我是否可以直接在数据帧上使用它，以及如何使用它。

浏览 8提问于2020-03-05得票数 0

0回答

在将数据帧转换为CSV然后再转换回数据帧后，pd.equals()返回false

、、、

我有一个原始的熊猫数据帧，让我们叫它df。我将数据帧转换为csv文件，然后将其转换回pandas数据帧。当我调用df.equals(新数据帧)时，它返回false。我认为一个错误可能是索引可能关闭，所以我将新数据帧的索引设置为csv文件的第一列(这是原始数据帧的索引)，但仍然得到相同的

浏览 4提问于2017-11-28得票数 4

1回答

python pandas数据帧差异

、

将解析后的JSON与数据库中的表数据进行比对。我能够成功地比较数据，但以下是澄清/帮助： eventtime _merge1 2019-09-01 02:02:17 both 因此，"_merge“列告诉我数据是否与所有行都匹配。1)如果输出(_merge列)给出<em

浏览 8提问于2020-05-19得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

对熊猫数据帧进行子集的最佳方法

在Pandas中迭代数据帧中的行:使用df.index和df.iterrows()作为迭代器有什么区别吗？

在Python3中使用'multiprocessing‘库进行PostgreSQL查询

Spark dataframe CSV vs Parquet

当追加多个列时，如何解释DataFrame.assign(**kwargs)和dd[x]=y在Dask中的性能差异？

pandas_udf和to_pandas的区别是什么？

合并两个大型数据帧

使用Pandas导入Excel文件时出现问题

Pandas :计算整个数据帧的平均值或标准差

为什么大熊猫成群的速度不同？

Keras序列:创建Tensorflow numeric_columns的优势？

pandas数据帧: loc与查询性能

Delta Lake:性能挑战

熊猫切片列和基于条件之间的选择子集

Pandas MultiIndex的简单用例

将列名称从int转换为pandas中的字符串

SQLLite或SQLAlchemy可以直接在熊猫数据帧上工作吗

在将数据帧转换为CSV然后再转换回数据帧后，pd.equals()返回false

python pandas数据帧差异

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐