用fancyimpute和pandas进行数据填充_用KNN，SoftImpute进行数据填充_用循环数据填充pandas数据帧上采样 - 腾讯云开发者社区

、、、、

中位数、均值或最频繁的值也不是一个选项(因此，不幸的是，用pandas和/或scikit来估算并不能解决这个问题)。下面是我要做的： #the neccesary importsimport numpy as np #df_numeric)) 然而，df_filled在某种程度上是一个单一的向量，而不是填充的数据帧。如何获得带有估算的数据帧？

浏览 68提问于2017-07-21得票数 16

回答已采纳

1回答

数据质量改进作为预处理的一部分:估算

、、、

我有一条蟒蛇熊猫的数据代表一个超集。这些数据包含了大量的空值，我想用实值覆盖这些空值。超集有：大多数属性的一些空值它不依赖于时间用机器学习填写空白处会很整洁，有什么建议我可以这样做吗？(我想如果需要的话，我可以把分类数据转换成数字)

浏览 0提问于2019-09-04得票数 1

1回答

从fancyimpute导入KNN -如何安装软件包

、

import pandas as pdfrom fancyimpute import KNNfrom然后我试着用pip install安装花哨的推测，但是错误:对于scipy.stats和随机流

浏览 1提问于2020-04-12得票数 0

1回答

python包fancyimpute提供了几种数据填充方法。我尝试使用软归因法；但是，软归因法不提供用于测试数据集的转换方法。更准确地说，Sklearn SimpleImputer (例如下面的示例)提供了fit、transform和fit_transform方法。另一方面，SoftImpute提供了唯一的fit_transform，它允许我对训练数据进行拟合，但不会将其转换为测试集。我理解在训练集和测试集上拟合推定会导致数据从测试集

浏览 18提问于2020-04-14得票数 0

2回答

在机器学习中，有没有一种方法可以归因于缺失值？

、、

有人告诉我，也可以通过聚类方法进行归罪，我在互联网上搜索了一个包，发现了一些研究论文。我在Iris数据集上运行这些估算方法，方法是在其中创建缺失值(因为Iris没有缺失值)。有没有其他方法来标准化数据？

浏览 0提问于2018-04-16得票数 6

1回答

如何利用python实现期望最大化计算方法？

、、、

从各种资源中可以看出，利用期望最大化方法进行缺失数据的估算比平均估算要好。但是没有源代码解释如何在python中实现它。我研究了scikit--学习，fancyimpute包，但是他们没有提到任何关于期望最大化方法的内容。如果您可以提供指向文档的链接，这些文档可以用示例解释实现，或者提供代码来实现丢失数据的期望最大化方法，这将是非常有用的。

浏览 6提问于2019-10-13得票数 0

2回答

是否有方法通过聚类、回归和随机回归来估算缺失值？

、、、、

我想知道是否有允许通过聚类、回归和随机回归进行估算的库。到目前为止，我已经做了平均，中位数和KNN的估算。我试图评估小型数据集的最佳估算方法(在本例中是Iris)。我的KNN估算代码： import numpy as np from fancyimpute import KNN data

浏览 0提问于2018-04-14得票数 1

1回答

Python代码，用于在分析常规日历中的每日时间序列时填补财务数据中周末和节假日的空白

、、

我有两个每日时间序列，一个是波动率指数市场数据，另一个是每日情绪。我需要通过用非交易日的空值填充VIX数据或从情绪数据中删除非交易日来对齐这两个序列。下面是一个数据系列文件，其中包含每个工作日的数据：https://www.dropbox.com/s/tf656b9t0uctbqs/vixcurrent.csv?dl=0 下面是第二个数据系列文件，其中每行是常规日历上的一天，每列是积极情绪词的频率，从2

浏览 17提问于2019-05-25得票数 2

回答已采纳

2回答

python中类别变量的knn推算

、、、

我正在尝试从数据集上的fancyimpute模块实现kNN。我能够使用下面的代码实现数据集的连续变量的代码：它产生如下所需的答案：我试图为分类数据集实现相同的代码，但我得到了错误：下面是我使用的代码(我正在尝试使用Imputer)： from总而

浏览 0提问于2017-04-20得票数 3

2回答

如何用数值数组的列的方式填充n值？

、、

我将pandas数据帧的一部分转换为numpy数组，并希望用列的平均值填充它的值，类似于我在pandas中执行以下操作： df.fillna(df.mean(), inplace = True) 到目前为止，我唯一能做到的方法就是对列进行迭代。

浏览 11提问于2021-09-18得票数 2

回答已采纳

1回答

设置pandas对象列的格式

、、

我有一个pandas DataFrame，其中一列用 AudioSegment对象填充。HTML音频播放器：AudioSegment.from_wav("never_gonna_give_you_up.wav") 但是，当我显示pandasDataFrame时，我只得到一个填充了对象引用的列：(((<pydub.audio_segment.AudioSegment object at...我想要的是用</em

浏览 13提问于2020-05-20得票数 1

4回答

用KNN计算python中的缺失值

、、

我有一个像这样的数据集1908 February 7.3 1.91908 April我查阅了sklearn的Imputer类，但它只支持均值、中值和模式计算。有一个特性请求，但我认为到目前为止还没有实现它。对于如何使用KNN替换最后两列中的NaN，有什么想法吗？我唯一可以使用的是Sklearn、熊猫、numpy和其他标准的软件包。

浏览 10提问于2017-07-26得票数 21

1回答

在Pandas中处理丢失的数据

我在Pandas中加载了一个200,000 x 500的dataframe。有没有函数可以自动告诉我哪些列缺少数据？或者我必须遍历每一列并逐个检查元素？一旦我发现一个缺失的元素，我如何定义一个自定义函数(基于列名和同一行中的一些其他数据)来进行自动替换。我看到了fillna()方法，但我不认为它接受(lambda)函数作为输入。谢谢!

浏览 0提问于2012-07-24得票数 6

回答已采纳

5回答

Python中的矩阵完成

、、、、

0.39969956, 0.46490674],我用np.NaN例如，在使用时，在分类/回归中或在中缺少功能(例如，参见和上的Netflix问题)

浏览 5提问于2013-07-31得票数 9

回答已采纳

1回答

用数据填充pandas面板对象

、、

我试图在pandas中构建一个3D面板对象，然后用我从几个csv文件中读取的数据填充它。下面是我想要做的一个例子：import pandas as pd obs = np.arange(1,5data = pd.Panel(items = obs, major_axis = year, minor_axis = variables) 因此，data[i]为我提供了属于面板中一个观测单位的所有数据0.26151

浏览 1提问于2014-05-02得票数 2

1回答

大型稀疏矩阵及其元数据的理想结构(或可能性)

、、、

我正在使用一个大约26万行，3M列和26M非零值的稀疏矩阵(以matrix Market格式存储)。我还有描述每行和每列的元数据的JSON文件。我一直在使用我的矩阵和字典(来自JSON)，每个字典都将行/列索引链接到它的元数据值。它不是理想的，尽管它是有效的。我想知道，有没有更好的选择？我知道Pandas/Dato数据帧，但在我看来，矩阵部分(及其操作)似乎被降级了。我一直在关注blaze项目(Dask、xray，主要是这些核心外的技术)。

浏览 0提问于2015-08-30得票数 1

2回答

使用openpyxl在每列写入固定数量的数据时更改列

、、

我正在写一个程序，它将处理一堆数据，并在excel中填充一列。我使用的是openpyxl，并且严格使用write_only模式。每列将具有固定的75个单元格大小，行中的每个单元格都将应用相同的公式。但是，我一次只能处理一列数据，不能处理整行，然后遍历所有行。我如何写到一列，然后在填充完前一列后移到下一列？

浏览 17提问于2017-03-02得票数 0

4回答

使用实时Python数据更新Excel电子表格

、、、

我是Python的新手，我的主要目标是学习这门语言，使一些过程自动化，并用实时数据更新/填充excel电子表格。有没有办法(例如通过openpyxl)用python包(如pandas或通过BeautifulSoup进行web抓取)提取的数据来更新特定的单元？我已经有了必要的代码来提取我的Python项目所需的数据系列，但是我完全被困在如何将这些数据链接到excel中。import pandas as pd import <e

浏览 11提问于2019-08-09得票数 1

1回答

长号ID被Pandas* + Gspread转换为科学号*

、、、

在使用GSpread从Google检索数据时，我遇到了数字格式的问题，并将其与使用Tweepy从Twitter上填充的Pandas进行了比较。基本上，当我从Twitter接收数据时，我有一些长长的数字，即tweets，例如：当我第一次填充Google (使用set_with_dataframe)时，id的写得很好，但是当我将这些数据从工作表返回到df (

浏览 6提问于2020-12-16得票数 0

回答已采纳

2回答

将大型Pandas* Dataframe从“稀疏”浮点数转换为int*

、、、、

我正在接收来自具有大量列(~20000)的上游组件的Pandas DataFrame，所有这些组件都具有dtype float64，并且大多数条目是NaN (这是一袋文字编码文档)。NaN NaN NaN NaN NaN NaN NaN NaN NaN NaNdf.fillna(0).astype(np.int8) 问题是，一旦代码开始填

浏览 3提问于2020-10-02得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云