用KNN，SoftImpute进行数据填充

、、

我想使用鼠标、KNN和Soft Impute对fancyimpute包中的预测值进行比较，然而，当我运行我的代码时，KNN和SoftImpute对我的值只给出了0，而不是由鼠标给出的更有意义的值。Age']].select_dtypes(include='number']).as_matrix() Age_KNN=KNN(k=3).complete(imputed_nu

浏览 50提问于2018-07-31得票数 1

1回答

如何找到missing_mask？

、、

missing_mask] - X[missing_mask]) ** 2).mean()print("SoftImpute MSE: %f" % softImpute_mse) knn_m

浏览 25提问于2019-03-14得票数 0

4回答

用KNN计算python中的缺失值

、、

我有一个像这样的数据集1908 February 7.3 1.91908 April14.7 4.81909 July 17.3 10.8我想用KNN对于如何使用KNN替换最后两列中的NaN，有什么想法吗？编辑：由于我需要在另一个环境中运行代码，所以我没有机会安装软件包。我唯一

浏览 10提问于2017-07-26得票数 21

1回答

如何将数值列转换为R中的因子

、、

我正在尝试使用softImpute命令(来自softImpute包)来填充缺少的值，并且在使用softImpute之前，我正在尝试将大型数据框中的分类变量转换为因子类型。这里的a是一个类似于：c(1:92)的向量我也尝试过as.character，但softImpute命令不会将变量识别为字符，而会将它们视为数字，从而导致分类/指示符变量的十进制值。

浏览 0提问于2013-12-02得票数 4

2回答

如何在python中为机器学习处理丢失的NaNs

、、、

如何在应用机器学习算法之前处理数据集中的缺失值？？这里有一个非常重要的问题。数据集中丢失值的最佳处理方法是什么？例如，如果您看到此数据集，只有30%的数据具有原始数据。

浏览 4提问于2015-01-07得票数 8

回答已采纳

1回答

python包fancyimpute提供了几种数据填充方法。我尝试使用软归因法；但是，软归因法不提供用于测试数据集的转换方法。另一方面，SoftImpute提供了唯一的fit_transform，它允许我对训练数据进行拟合，但不会将其转换为测试集。我理解在训练集和测试集上拟合推定会导致数据从测试集泄漏到训练集。为此，我们需要适应训练，并在测试中进行转换。有没有办法将我从训练集中拟合的测试集以软推算的方式进行推算？我很感谢你的想法。]

浏览 18提问于2020-04-14得票数 0

1回答

同时处理几个特性中丢失的数据

、

日安，一次处理几个功能(分类和连续)中丢失的数据的方法是什么？我浏览了每一个特征，并绘制了它们分布的几个直方图，我认为简单地用一些常量值(均值、模式或其他东西)替代值并不是最好的选择。我想构建几个模型(连续值的分类和回归模型)，以便对数据进行归并，但我不知道正确的方法。如果我只使用非空行来训练我的模型，那么我就无法预测带有空值的值。我有615739行* 49列数据集(经过一个热编码过程)。如果我删除至少包含一个空值的所有行，那么我将得到451063行。谢谢你提前给我建议。

浏览 0提问于2020-11-08得票数 1

回答已采纳

4回答

用fancyimpute和pandas进行数据填充

、、、、

我有一个大熊猫的数据成名df。它有相当多的遗漏。删除row/或col不是一种选择。中位数、均值或最频繁的值也不是一个选项(因此，不幸的是，用pandas和/或scikit来估算并不能解决这个问题)。df_numeric)) 然而，df_filled在某种程度上是一个单一的向量，而不是填充的数据帧。如何获得带有估算的数据帧？更新我意识到，fancyimpute需要一个numpay array。因此，我使用as_matrix()将df_numeric转换为一个数组。(df_numeri

浏览 68提问于2017-07-21得票数 16

回答已采纳

1回答

fancyimpute的SoftImpute是否需要标准化数据？

、、、、

nuclear norm objective directly, insteadX_filled_softimpute= SoftImpute().complete(X_incomplete_normalized) 这就意味着我需要对输入数据进行标准化。我必须事先对我的数据进行标准化吗?具体是什么？

浏览 18提问于2017-02-08得票数 3

2回答

如何处理数据集中的缺失值

、、

有一个数值数据集，大小为26000 *17。但问题是，数据集中有很多缺失值(空值)。数据是非常敏感的，所以我既不能忽略所有包含空值的行，也不能用average、mean或任何标准数字替换数据中的空值。还存在不使用KNN补偿来替换丢失的条目的限制。处理这样的数据集的最佳方式是什么？

浏览 0提问于2018-12-27得票数 4

2回答

Sklearn中的fit方法。使用KNeighborsClassifier时

、、、

from sklearn.neighbors import KNeighborsClassifier knn_clf.fit(x_train[:92000],y_train[:92000]) #1st method call knn_clf.fit(x_train[92000:123000],y_train[92000:123000]) #2nd我试图实现的是批量训练，因为如果我一次使用完整的数据集，笔记本电脑就不能处理数据！提前感谢:-

浏览 1提问于2018-09-03得票数 0

回答已采纳

1回答

在缺少功能的数据集上执行EDA

、、

我想在这样的数据集上执行EDA，这些数据集是我的火车和测试集缺少的特性统计数据：我的火车上总共有3616条数据线我如何决定哪些功能需要“丢弃”，哪些是“人工填充”(以及如何填充--我读了一些关于

浏览 0提问于2022-05-14得票数 0

3回答

如何在python中用KNN填充缺失值

、、、、

我试图用python中的KNN来填充缺失的值，所以我写了这段代码，但它不起作用。我得到这个错误"ValueError:无法将字符串转换为浮点数：'normal'“.what我应该怎么做？

浏览 8提问于2021-05-14得票数 0

2回答

在dataframe中将数字标志设置为字符串

、

我对熊猫很陌生，我想知道处理字符串数据的最好方法是什么？我正在考虑用旗子对字符串编号，但我确信有更好的方法来做到这一点？字符串值将作为特性合并到KNN中。假设以下数据并对我的类型进行编号：举个例子:这显然会给我一个could not convert string to floatknn.fit(df['Type'], df['Quantity

浏览 1提问于2016-12-19得票数 1

回答已采纳

1回答

是否应该规范或标准化knn的数据集？

、、、、

我尝试使用knn进行分类任务，我的数据集包含分类特征，这些特征是一个热门的编码、数字特征(如价格等).以及文本列的向量。我知道knn受缩放的影响。所以我搞不懂这里用什么？

浏览 0提问于2019-03-09得票数 4

回答已采纳

2回答

对于K的偶数值和领带的情况，KNN的预测类是什么？

、、、

在KNN (K nearest neighbour)分类器中，如果选择K的偶数值，那么多数投票规则或欧氏距离规则中的预测值是多少。

浏览 19提问于2017-10-06得票数 0

回答已采纳

1回答

当我们将.fit()方法应用于Scikit中的kNN模型时会发生什么-了解kNN是否没有训练阶段？

、、、

由于kNN在内存级别处理训练和预测，并且不需要显式的训练过程，因此当拟合knn模型时到底会发生什么？我认为这一步与训练模型有关。谢谢。如果我跳过拟合步骤，这是我将得到的错误。city_development_index"]].valuesknn</e

浏览 104提问于2020-12-28得票数 2

回答已采纳

1回答

KNeighborRegressor fit函数卡在一个大DB上

、、

我只是尝试用sklearn构建一个KNN Regressor，但是执行要花费很长时间，而在调试时，fit函数的执行似乎要花费很长时间。我应该指出，数据集很大(大约有25,000条记录，有10个特性)，但是--我现在还在等一个小时，没有结果。是什么导致的？

浏览 0提问于2018-09-20得票数 0

回答已采纳

1回答

多类分类准确率50%

、

我试图对大量输出标签(1000)进行多类分类。我用KNN建立了一个模型。accuracy = knn.score(X_test, y_test)给出的精度为0.5。这是否意味着给定一个输入，该模型能够预测数据所属标签的50%的时间？如果是的话，我会直觉地说这是好的，因为随机选择标签的概率是0.1%。

浏览 0提问于2020-02-26得票数 1

1回答

如何使用不同的技术在填充熊猫或蟒蛇的缺失值后添加“填充数据”的列？

、、、、

如何在填充熊猫或蟒蛇的缺失值后，使用不同或几种技术，如各种统计技术或机器学习技术，添加“填充数据”列。我想做的是，在用平均值、中位数或标准差值或其他机器学习算法(如KNN或XGBoost或其他一些技术)填充数据之后，我想在csv或excel文件的末尾添加或追加这些或那个列，但不低于实际数据，我指的是文件的右侧例如，我已经使用统计技术和其他ML技术填充了某一列中丢失的数据，然后我希望将这些“填充值”与原始值一起添加到一

浏览 2提问于2019-09-26得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何找到missing_mask？

用KNN计算python中的缺失值

如何将数值列转换为R中的因子

如何在python中为机器学习处理丢失的NaNs

用fancyimpute对测试集进行软分配

同时处理几个特性中丢失的数据

用fancyimpute和pandas进行数据填充

fancyimpute的SoftImpute是否需要标准化数据？

如何处理数据集中的缺失值

Sklearn中的fit方法。使用KNeighborsClassifier时

在缺少功能的数据集上执行EDA

如何在python中用KNN填充缺失值

在dataframe中将数字标志设置为字符串

是否应该规范或标准化knn的数据集？

对于K的偶数值和领带的情况，KNN的预测类是什么？

当我们将.fit()方法应用于Scikit中的kNN模型时会发生什么-了解kNN是否没有训练阶段？

KNeighborRegressor fit函数卡在一个大DB上

多类分类准确率50%

如何使用不同的技术在填充熊猫或蟒蛇的缺失值后添加“填充数据”的列？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐