如何并行化逐行Pandas dataframe的apply()方法_ScikitLearn:返回Pandas DataFrame的FeatureUnion，但也已并行化_如何强制Pandas apply返回parent dataframe的所有列？ - 腾讯云开发者社区

python、pandas、multiprocessing

我有以下代码： import pandas as pd val2passed_row['enriched2'] = val2 df = pd.DataFramecolumns=['numbers', 'col

浏览 144提问于2021-05-09得票数 3

回答已采纳

8回答

熊猫群后并行化应用

python、pandas、parallel-processing、bodo

我使用rosetta.parallel.pandas_easy在apply之后并行化groupby，例如： from rosetta.parallel.pandas_easy import groupby_to_series_to_framedf = pd.DataFrame({'a': [6, 2, 2], 'b': [4, 5, 6]},index= ['g1', 'g1', 'g2'

浏览 7提问于2014-10-03得票数 84

回答已采纳

1回答

使用PySpark并行化自定义函数

python、pyspark

我熟悉使用UDF将自定义函数逐行应用于DataFrame。但是，我想知道如何将自定义函数并行应用于我的DataFrame的不同子集。下面是一个简化的例子：import pandas as pd dummy_data = pd.DataFrame({'id':np.random.choice(对于每个唯一的' id '，

浏览 1提问于2018-07-20得票数 2

2回答

python dask DataFrame，支持(微不足道的并行)行应用？

python、pandas、parallel-processing、dask

我最近发现了一个旨在成为易于使用的并行处理模块的python模块。对我来说，最大的卖点是它可以和熊猫一起工作。在阅读了它的手册页面后，我找不到一种方法来完成这个微不足道的并行化任务：df.apply(func, axis = 1) # for) # dask DataFrame ，这是丑陋<e

浏览 1提问于2015-07-12得票数 48

回答已采纳

1回答

在python中并行运行带有位置和可选参数的函数

python、pandas、function、dataframe、parallel-processing

我试图使用DataFrame方法在Pandas DataFrame上计算各种度量。由于我使用的DataFrame很大(100万行x20列)，所以我决定将计算过程并行化。以下是几个步骤： import pandas.apply(

浏览 4提问于2020-02-16得票数 0

1回答

如何使用Numba + Dask正确并行化泛型代码

pandas、numpy、dask、numba

我刚开始使用Dask和Numba来加速代码，我希望这可能是一个有价值的问题，让用户获得如何并行化代码的最佳实践的答案。我已经用3列对pandas数据进行了一个通用的测试。以下是我遇到的问题： Dask，，无论我做什么大小的向量，都是慢的。我可能不完全理解如何和何时计算数据文件的某些部分，或者如何正确地将其并行化

浏览 0提问于2020-02-11得票数 2

回答已采纳

1回答

如何实现天体运动的并行计算？

python、parallel-processing、dask、skyfield、sgp4

我有一段代码，可以使用Skyfield计算一些卫星和行星的位置。为了清晰起见，我使用Pandas DataFrame作为位置和相应时刻的容器。我想并行计算，但总是得到相同的错误：TypeError: can't pickle Satrec objects。测试了不同的并行器，如Dask、pandarallel、swifter和Pool.map()。需要并行化的代码示例： d

浏览 30提问于2020-04-01得票数 0

1回答

如何分发函数的应用程序，该函数在一个分组数据框架上返回一个标量，它使用pandas和Azure在星火上运行？

pandas、pyspark、parallel-processing、databricks、pyspark-pandas

(我通常理解并行处理，并编写了低级并发代码。) # pandas dataframe to try groupby.

浏览 12提问于2022-08-04得票数 1

2回答

使用另一个数组应用函数pandas.Series中的参数

python、python-3.x、pandas、dataframe、series

有什么方法可以使用另一个pandas.Series的不同值在pandas.Series中应用函数吗？我知道有pandas.Series.apply()，但我需要这样的东西： array1 = pandas.Series([1, 2, 3, 4]) 2 9 3 4 换句话说，我需要在一个pandas.DataFrame列中应用

浏览 23提问于2021-04-07得票数 0

3回答

Pandas应用不能在Spark并行化代码中工作

python、apache-spark、pyspark、apply、pandas-apply

我试图在并行化代码中使用Pandas "apply“，但"apply”根本不起作用。在使用Spark (RDD上的parallelize)时，我们可以在分发给执行器的代码中使用"apply“吗？代码： return pd.DataFrame({'col1':k,'col2':[k*2]*5}) def testExec(

浏览 0提问于2019-10-25得票数 0

2回答

Python如何将方法从一个库应用到另一个库的对象？

python、pandas、pandarallel

当使用pandarallel在我的数据文件上运行.apply方法时使用所有核心时，我遇到了一种以前从未见过的语法。相反，这是一种我不理解的使用点语法的方法。import pandas as pdpandara

浏览 12提问于2020-08-25得票数 3

回答已采纳

5回答

高效地比较两列中的列表

python、pandas、numpy、dataframe

当拥有这样的熊猫DataFrame时：import numpy as np2 ['b'] ['a'] 但是，有了大约10万条条目，我希望能在两列中<em

浏览 10提问于2020-01-08得票数 17

回答已采纳

2回答

将np.dot应用于两个DataFrames的每一行

python、pandas

假设我有两个相同形状的Pandas DataFrames，我想制作一个系列，这是两个DataFrames的逐行(考虑使用pandas.DataFrame.apply)点积。因此，例如：df2 = pd.DataFrame(np.random.rand(1000,10)) df1.apply是否有一种紧凑的、矢量

浏览 4提问于2015-09-29得票数 3

回答已采纳

1回答

逐行高效地构建pandas数据帧

python、pandas、dataframe

我最近一直在通过迭代多个文件、行等来构建pandas数据帧。我一直在通过在字典中附加项目，然后转换为数据帧来构建它们：for r in df.index: new_data_dict[r] = new_data new_df = pd.DataFrame.from_dict我还没有把它和<

浏览 0提问于2017-02-23得票数 5

2回答

逐行操作中的`pandas.DataFrame.apply`

python、pandas

我想返回一个每一行都排序(假设是降序)的dataFrame。所以如果我有一个名为data的pandas.DataFrameOut[38]: 但是，我的目标是能够在DataFrame.apply()方法中使用逐行函数(这样我就可以将所需的</em

浏览 2提问于2012-11-07得票数 1

回答已采纳

2回答

对于向DataFrames添加列的函数，应该采用哪种约定？

python、pandas、performance、numpy、dataframe

我至少能想到三种方法。每种方法的优缺点是什么？方法1：def method1(row): 避免apply为第一行运行两次该函数的行为(只需

浏览 1提问于2018-01-28得票数 0

回答已采纳

1回答

Modin加速带应用功能吗？

python、pandas、dataframe、modin

我试过在很多地方找到答案，但还没有得到直接的答案。modin加速比是否适用于数据传输？跨Dataframe对应用功能进行并行化是否具有智能性，而不是逐行执行典型的应用功能？很抱歉，如果有简单的答案可用，我总是得到答案，在阅读或一些功能，很少在应用的速度。

浏览 3提问于2020-10-13得票数 1

回答已采纳

1回答

intersphinx与熊猫autodoc的链接

python、pandas、python-sphinx、autodoc

我尝试了到apply()方法的以下链接变体：:ref:`apply <pandas:pandas-dataframe-apply>` :ref:`apply <pandas:dataframe</em

浏览 2提问于2014-07-14得票数 8

回答已采纳

1回答

AttributeError:在Dask中，“Series”对象没有属性“columns”

python、pandas、parallel-processing、dask

由于dataframe非常大，为了加快计算速度，我决定选择Dask进行并行pandas处理我有以下代码：https://pastebin.com/Zh672Wei 主要的问题是以下几行： crosses_data.apply相同的代码，但与dask并行化失败，错误'Series‘对象没有属性’column‘： dd.from_pandas(crosses_data,npartitions=4)

浏览 19提问于2019-05-14得票数 1

回答已采纳

1回答

使用列名字典来决定如何在python中乘以公式

python、pandas、function

我正在尝试定义一个函数，该函数循环遍历一个字典，字典中的键是数据帧列名，如果观察值符合折扣条件，则值是与该列相关联的折扣。我想将折扣相乘，并将乘积用作GLM中的偏移量。11 offset = offset * 1 discounts = {&#x

浏览 10提问于2019-05-09得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云