如何加速pandas在numba引擎中应用lambda函数_如何在Pandas DataFrame中应用复杂的lambda函数_如何应用lambda函数来清除pandas中的列名？ - 腾讯云开发者社区

、、、、

在pandas加速的情况下，我了解了numba引擎，可以显着提高速度。在最新的例子中，我喜欢使用argsort和lambda来获得任意的索引，但它似乎相当慢。为什么lambda会使代码变慢？我怎么才能写出合适的应用函数而不影响速度呢?我甚至在nb.njit中包装了lambda函数，但仍然看不到更多的加速。因此

浏览 82提问于2021-08-14得票数 0

回答已采纳

1回答

如何使用Numba + Dask正确并行化泛型代码

、、、

我刚开始使用Dask和Numba来加速代码，我希望这可能是一个有价值的问题，让用户获得如何并行化代码的最佳实践的答案。我已经用3列对pandas数据进行了一个通用的测试。将在框架中的3个向量上实现一个泛型函数，用于表示数据分析中可能进行的转换:前两列被平方、加法，然后取平方根，然后计算一个布尔值，将结果与第三列进行比较。我实现了4个测试用例：(a) pandas应用，(b) Dask，(c) Numba，(d) Da

浏览 0提问于2020-02-11得票数 2

回答已采纳

2回答

熊猫滚动应用功能表现缓慢

、、、

所讨论的源代码是dd=lambda x: np.nanmax(1.0 - x / np.fmax.accumulate(x)) df.rolling(window

浏览 22提问于2022-04-08得票数 3

2回答

我们能用Numba在酒瓶里吗？

、、

我正在构建一个分析数据的Flask应用程序。我想用Numba来加速算法。我已经尝试了Numba算法，它在木星笔记本上工作得很好。但是，当我在Flask应用程序中尝试代码时，它失败了。它似乎无法访问与@numba.jit绑定的函数。这是否意味着我们不能在酒瓶应用程序中使用Numba？

浏览 0提问于2020-02-10得票数 2

1回答

如何在python中使用numba.jit将计算值传递给列表排序？

、、

我试图使用Python中的numba函数中的自定义键对列表进行排序。= [-4, 6, 2, 0, -1] return mylist # [0, -1, 2, -4, 6] l.sort(key=lambda x: dist_from_mean(x, mu=avg_val)) return

浏览 1提问于2020-09-08得票数 4

回答已采纳

1回答

如何提高pandas GroupBy filter操作的性能？

、、、

我正在将摘录加载到运行在Jupyter Notebook中的Pandas dataframes中，以基于数据集推导出一个算法。我根据MAC地址对数据进行分组，这导致了1+百万组。此操作似乎是受CPU限制的，并且仅使用我的机器上可用的几个内核中的一个。我花了几个小时在网上研究潜在的解决方案。我尝试过同时使用numba和dask来加速这个操作，两次尝试都导致了异常。Numba提供了一条消息，大意是“这不应该发生，感谢您帮助改进产品”。Dask似乎不能实现DataFrameG

浏览 22提问于2019-02-10得票数 6

回答已采纳

1回答

Python:如何编写在GPU上运行的代码？

、、、

图G有N个节点，在每个节点x上有一个分布mx，我想计算所有边的每一对节点的分布之间的距离。对于给定的对，(x，y)，我使用python包中的代码ot.sinkhorn(mx, my, dNxNy)来计算距离。但是，这还不够好，因为在每次迭代时都需要将I、my和dNxNy上传到GPU，这是一个巨大的开销。所以，我们的想法是并行处理GPU上的所有边。代码的本质如下所示。

浏览 0提问于2019-05-25得票数 7

1回答

Dask和Numba -如何有效地使用地图分区？

、、、

我试图加快我的代码，提高我对Dask和Numba的理解，我尝试在我创建的示例中使用这两种方法，但是没有改进，我也不明白为什么。更准确地说，是在Windows 10笔记本电脑上，使用Python3.7，在conda环境中拥有Numba和Dask。这是我的代码：import pandas as pdimport dask.dataframe as dd data(&#x

浏览 1提问于2019-01-10得票数 2

1回答

如何在Python中加速类似卷积的函数？

、、、、

我使用的是中的卷积代码，但我希望能够更改应用于(roi * K)的操作，而不是使卷积的结果为k = (roi * K).sum()。例如：np.std(roi * K)或min(roi * K)。

浏览 2提问于2019-08-04得票数 0

1回答

如何有效地填写np.array？

、、

我尝试将数据填充到numpy数组中。然而，对于更高的索引，它需要越来越多的时间。为什么？我怎样才能防止这种情况发生呢？我已经在最终维度中创建了数组... import random iterations

浏览 33提问于2020-10-05得票数 1

回答已采纳

2回答

Python numpy:无法将datetime64[ns]转换为datetime64[D] (与Numba一起使用)

、、、

我想要传递一个datetime数组给一个Numba函数(它不能被矢量化，否则会非常慢)。我知道Numba支持numpy.datetime64。如果你运行testdf(dates_input)，它是datetime64ns，注意这个例子只是把日期传递给Numba函数，这个函数(还没有)对它们做任何事情。在我的原始代码中，我从一个SQL表中读取数据到一个pandas数据帧中，并且需要一个将每个日期的日期

浏览 11提问于2015-08-10得票数 33

回答已采纳

1回答

熊猫将功能应用于多列滑动窗口

、、

我需要用滑动窗口来计算一些度量。如果度量只需要1列，我就使用rolling。但在某些方面，它并不适用于2+列。下面是使用规则循环计算度量的方法。 return np.sum((aa - bb) ** 2) / len(aa) result = [] if i < (df_.shape[0] - wi

浏览 8提问于2022-05-09得票数 2

回答已采纳

2回答

Python中的Librosa和Numba

、、、

我正在体验numba来加速我的代码，我在这个代码中遇到一个错误def fee(x):如何<

浏览 40提问于2021-03-10得票数 0

3回答

如何在构造函数中初始化C++对象成员变量？

、、、

我不希望这些成员的构造函数在声明时被调用，所以我试图显式地挂起指向对象的指针。我不知道我在做什么。我想也许我可以这样做，在初始化对象成员变量时立即调用构造函数： public: private:}; this->ThingOne = ThingOne(100);

浏览 51提问于2012-10-17得票数 95

回答已采纳

1回答

如何将共享值传递给具有读取和修改共享值的jit / njit函数的进程？

、、

我遇到了multiprocessing.Manager().value，它将向每个进程传递一个共享值，但是numba.jit不接受这种类型。import multiprocessing def jj (o, ii): o.value = ii

浏览 7提问于2022-07-12得票数 0

1回答

加快熊猫滚动窗口的速度

、、、、

我想要加速我的代码，我使用pandas.rolling().apply()的自定义函数。下面的代码运行得很好，但速度非常慢。有没有什么方法可以在应用百万行的时候加速。[12, 9, 6, 3]: df[f'want_col_{i}'] = df.groupby(['account'])['types'].rolling(window = i).apply(lambda例如，从上面的代码中</em

浏览 20提问于2020-12-20得票数 2

回答已采纳

2回答

努巴jit伴枕

、、、、

所以我想在numba jit的帮助下加速我写的程序。然而，jit似乎不兼容许多枕函数，因为它们使用try . except .jit无法处理的结构(这一点我说得对吗？)我想出的一个相对简单的解决方案是复制我需要的枕源代码并删除try except部件(我已经知道它不会遇到错误，所以try部件无论如何都会正常工作)。x, y, p0=(0,0,0), maxfev=500) integrated = integrate.quad(la

浏览 1提问于2019-03-23得票数 11

回答已采纳

3回答

是否有可能用numba来加速基于xarray的代码？

、、

计算(点态算法、点积和内建的numpy函数)已经被大量地矢量化了。我在调查numba为了进一步加速这段代码。原因之一是代码显然没有运行并行化(只使用了一个核心)，所以我认为numba的@jit(parallel=True)装饰器会有所帮助。(据我所知，事实并非如此。)每当我尝试使用@jit(nopython=True)时，都会引发异常，因此我猜这意味着numba无法处理底层的xarray函数。所以：有人成功地使用numba加速了

浏览 0提问于2019-07-23得票数 4

回答已采纳

1回答

基于interp1d的数据帧逐行插补

、、、

我有以下python中的dataframe (df)：10 20 0.6 1 17 ???我试图在该数据中添加一个新列(YInt)，它计算给定X的线性插值Y值和给定行中的给定坐标X1、Y2、X2、Y2。

浏览 6提问于2017-12-01得票数 2

回答已采纳

1回答

潘达斯如何计算罩下的指数移动平均线？

、、、、

一般来说，如果熊猫已经与熊猫一起构建，我就不会编写函数，因为熊猫总是比我缓慢的手工编码的蟒蛇函数更快；例如、等。但是在这里，对于计算EMA，我发现使用numba远远超过了熊猫。代码如下import pandas as pddef ewm(arr, alpha): """numba也可能会表现出比其他熊猫更好的方法，这取决于人们如何编码它

浏览 1提问于2018-10-12得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云