我有一个像这样的数据集1908 February 7.3 1.91908 April我查阅了sklearn的Imputer类,但它只支持均值、中值和模式计算。有一个特性请求,但我认为到目前为止还没有实现它。对于如何使用KNN替换最后两列中的NaN,有什么想法吗?我唯一可以使用的是Sklearn、熊猫、numpy和其他标准的软件包。
我在Pandas中加载了一个200,000 x 500的dataframe。有没有函数可以自动告诉我哪些列缺少数据?或者我必须遍历每一列并逐个检查元素?一旦我发现一个缺失的元素,我如何定义一个自定义函数(基于列名和同一行中的一些其他数据)来进行自动替换。我看到了fillna()方法,但我不认为它接受(lambda)函数作为输入。
谢谢!
我正在接收来自具有大量列(~20000)的上游组件的Pandas DataFrame,所有这些组件都具有dtype float64,并且大多数条目是NaN (这是一袋文字编码文档)。NaN NaN NaN NaN NaN NaN NaN NaN NaN NaNdf.fillna(0).astype(np.int8)
问题是,一旦代码开始填