首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >在NaN数组中向前填充numpy值的最有效方法

在NaN数组中向前填充numpy值的最有效方法
EN

Stack Overflow用户
提问于 2016-12-17 03:02:19
回答 10查看 41K关注 0票数 65

示例问题

作为一个简单的示例,考虑如下定义的numpy数组arr

代码语言:javascript
复制
import numpy as np
arr = np.array([[5, np.nan, np.nan, 7, 2],
                [3, np.nan, 1, 8, np.nan],
                [4, 9, 6, np.nan, np.nan]])

其中arr在控制台输出中如下所示:

代码语言:javascript
复制
array([[  5.,  nan,  nan,   7.,   2.],
       [  3.,  nan,   1.,   8.,  nan],
       [  4.,   9.,   6.,  nan,  nan]])

现在我想在数组arr中逐行“向前填充”nan值。我的意思是用左边最接近的有效值替换每个nan值。所需的结果如下所示:

代码语言:javascript
复制
array([[  5.,   5.,   5.,  7.,  2.],
       [  3.,   3.,   1.,  8.,  8.],
       [  4.,   9.,   6.,  6.,  6.]])

到目前为止已尝试过

我尝试过使用for循环:

代码语言:javascript
复制
for row_idx in range(arr.shape[0]):
    for col_idx in range(arr.shape[1]):
        if np.isnan(arr[row_idx][col_idx]):
            arr[row_idx][col_idx] = arr[row_idx][col_idx - 1]

我还尝试使用pandas dataframe作为中间步骤(因为pandas dataframe有一个非常整洁的内置方法来进行前向填充):

代码语言:javascript
复制
import pandas as pd
df = pd.DataFrame(arr)
df.fillna(method='ffill', axis=1, inplace=True)
arr = df.as_matrix()

以上两种策略都能产生预期的结果,但我一直在想:只使用数值向量化操作的策略不是最有效的吗?

摘要

有没有另一种更有效的方法来“向前填充”nan数组中的numpy值?(例如,通过使用numpy向量化操作)

更新:解决方案比较

到目前为止,我已经尝试了对所有解决方案进行计时。这是我的设置脚本:

代码语言:javascript
复制
import numba as nb
import numpy as np
import pandas as pd

def random_array():
    choices = [1, 2, 3, 4, 5, 6, 7, 8, 9, np.nan]
    out = np.random.choice(choices, size=(1000, 10))
    return out

def loops_fill(arr):
    out = arr.copy()
    for row_idx in range(out.shape[0]):
        for col_idx in range(1, out.shape[1]):
            if np.isnan(out[row_idx, col_idx]):
                out[row_idx, col_idx] = out[row_idx, col_idx - 1]
    return out

@nb.jit
def numba_loops_fill(arr):
    '''Numba decorator solution provided by shx2.'''
    out = arr.copy()
    for row_idx in range(out.shape[0]):
        for col_idx in range(1, out.shape[1]):
            if np.isnan(out[row_idx, col_idx]):
                out[row_idx, col_idx] = out[row_idx, col_idx - 1]
    return out

def pandas_fill(arr):
    df = pd.DataFrame(arr)
    df.fillna(method='ffill', axis=1, inplace=True)
    out = df.as_matrix()
    return out

def numpy_fill(arr):
    '''Solution provided by Divakar.'''
    mask = np.isnan(arr)
    idx = np.where(~mask,np.arange(mask.shape[1]),0)
    np.maximum.accumulate(idx,axis=1, out=idx)
    out = arr[np.arange(idx.shape[0])[:,None], idx]
    return out

然后是以下控制台输入:

代码语言:javascript
复制
%timeit -n 1000 loops_fill(random_array())
%timeit -n 1000 numba_loops_fill(random_array())
%timeit -n 1000 pandas_fill(random_array())
%timeit -n 1000 numpy_fill(random_array())

导致此控制台输出:

代码语言:javascript
复制
1000 loops, best of 3: 9.64 ms per loop
1000 loops, best of 3: 377 µs per loop
1000 loops, best of 3: 455 µs per loop
1000 loops, best of 3: 351 µs per loop
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/41190852

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档