NumPy中如何实现NaN的快速检查?

内容来源于 Stack Overflow,并遵循CC BY-SA 3.0许可协议进行翻译与使用

  • 回答 (2)
  • 关注 (0)
  • 查看 (15)

我正在寻找最快的方法来检查NaN的发生(np.nan)在NumPy数组中X...np.isnan(X)是不可能的,因为它构建了一个形状的布尔数组。X.shape,这可能是巨大的。

我试过np.nan in X,但这似乎行不通,因为np.nan != np.nan。有没有一种快速、高效的方法来做到这一点呢?

提问于
用户回答回答于

在我的机器上,它的使用速度大约快了2.5倍。numpy.sum代替numpy.min:

In [13]: %timeit np.isnan(np.min(x))
1000 loops, best of 3: 244 us per loop

In [14]: %timeit np.isnan(np.sum(x))
10000 loops, best of 3: 97.3 us per loop

不像minsum不需要分支。这可能就是为什么sum更快。

上面的测试是在数组中间的单个NaN上执行的。另一方面,sum无论是否存在NAN以及它们位于何处,其吞吐量似乎都是不变的:

In [40]: x = np.random.rand(100000)

In [41]: %timeit np.isnan(np.min(x))
10000 loops, best of 3: 153 us per loop

In [42]: %timeit np.isnan(np.sum(x))
10000 loops, best of 3: 95.9 us per loop

In [43]: x[50000] = np.nan

In [44]: %timeit np.isnan(np.min(x))
1000 loops, best of 3: 239 us per loop

In [45]: %timeit np.isnan(np.sum(x))
10000 loops, best of 3: 95.8 us per loop

In [46]: x[0] = np.nan

In [47]: %timeit np.isnan(np.min(x))
1000 loops, best of 3: 326 us per loop

In [48]: %timeit np.isnan(np.sum(x))
10000 loops, best of 3: 95.9 us per loop
用户回答回答于

我认为np.isnan(np.min(X))应该做你想做的事。

扫码关注云+社区