如何不随机性地推算缺失值？

推算缺失值是数据处理中常见的任务之一，可以通过以下方法来实现不随机性地推算缺失值：

均值填充（Mean Imputation）：对于数值型数据，可以使用该特征的均值来填充缺失值。这种方法简单且快速，但可能会引入偏差。
中位数填充（Median Imputation）：对于数值型数据，可以使用该特征的中位数来填充缺失值。与均值填充相比，中位数填充对异常值更具鲁棒性。
众数填充（Mode Imputation）：对于分类或离散型数据，可以使用该特征的众数来填充缺失值。众数填充适用于频繁出现的值。
回归填充（Regression Imputation）：对于数值型数据，可以使用其他特征的信息来建立回归模型，并利用该模型预测缺失值。回归填充可以更准确地推算缺失值，但需要考虑特征间的相关性。
K近邻填充（K-Nearest Neighbor Imputation）：对于数值型或分类型数据，可以使用K近邻算法来找到与缺失样本最相似的K个样本，并利用这些样本的值来填充缺失值。K近邻填充可以更好地保留数据的分布特征。
插值填充（Interpolation Imputation）：对于时间序列数据或具有连续性的数据，可以使用插值方法（如线性插值、样条插值等）来推算缺失值。插值填充可以更好地保留数据的趋势和变化。
高级模型填充（Advanced Model Imputation）：对于复杂的数据集，可以使用机器学习模型（如决策树、随机森林、神经网络等）来预测缺失值。这种方法可以更准确地推算缺失值，但需要更多的计算资源和时间。

以上方法都有各自的优势和适用场景，选择合适的方法取决于数据的特点和需求。在腾讯云的产品中，可以使用腾讯云机器学习平台（https://cloud.tencent.com/product/tiia）来构建高级模型填充缺失值。此外，腾讯云还提供了数据处理和分析的产品，如腾讯云数据湖分析（https://cloud.tencent.com/product/dla）和腾讯云数据仓库（https://cloud.tencent.com/product/dw），可用于处理和管理数据。

如何不随机性地推算缺失值？

r、missing-data、imputation

我想要对缺失值进行impute，同时考虑到存在缺失值的模式，这样，如果pA部分的变量(例如pAx1 )缺少一个值，那么与pA部分相关的其他值- pAx2、pAx3、pAx4 -也必然会丢失。

浏览 22提问于2019-08-17得票数 0

回答已采纳

2回答

条件缺失值补偿

r、zoo

如何在R中使用na.locf时，仅当连续的缺失值为2或更少时才推算缺失值，并将其他缺失值保留为NAs？例如， x<-c(2,1,NA,4,4,NA,NA,NA) 输出应如下所示 2,1,1,4,4,NA,NA,NA 第一个NA由先前可用的"1“推算，最后3个NA不应推算。

浏览 54提问于2019-05-24得票数 1

2回答

缺少数据和单一的推算

spss、missing-data

我有一个完整的臭氧数据集，其中包含一些缺失值。我想用SPSS来做单个推算来推算我的数据。有没有人可以教我如何用SPSS做随机缺失的数据模式？此外，谁能告诉我如何获得性能指标，如:平均绝对误差，决定系数和均方根误差，以检查估计缺失值的最佳方法。

浏览 1提问于2013-03-21得票数 0

4回答

R中的前-后均值推算

r、missing-data、imputation

我的问题是如何使用缺失数据点之前和之后的平均值来估算缺失值？使用每个NA的上下限的平均值作为推算值。

浏览 0提问于2013-03-09得票数 3

1回答

何时使用scikit学习的train_test_split

python、numpy、pandas、machine-learning、scikit-learn

现在我需要做缺失值补充，然后使用scikit的OneHOtEncoder对分类变量进行编码，然后运行机器学习算法。我的问题是，我应该在使用split的train_test_split方法做上述所有事情之前拆分这个数据集，还是应该首先拆分成训练和测试，然后对每组数据进行缺失值和编码。我担心的是，如果我首先拆分，然后对得到的两个集合进行缺失值和其他编码，当对测试集中的变量进行编码时，测试集不应该有一些变量的缺失值，可能会导致更少的no。假人。首先拆分，然后

浏览 0提问于2015-05-05得票数 6

1回答

带有缺失值的错误中的未定义变量

r、winbugs、r2winbugs

我正在通过R运行一个BUGS模型，我遇到了一个问题，BUGS说我的一个数据集是一个“未定义的变量”。它遇到问题的数据集中有相当多的NA，但为什么这会造成问题？当NA替换为0时，它工作得很好，所以我知道使用NAs的BUGS有问题。使用0而不是NA不是一个可接受的解决方案，因为我需要对数转换得到的量。有没有人遇到过类似的问题并找到了解决方案？rm(list=ls(all=T)) working_dir=getwd()

浏览 5提问于2014-08-06得票数 1

2回答

无法将类""amelia"“强制为R中的data.frame

r、dataframe、random-forest

我在R中使用Amelia包来处理缺少的值。当我试图用估算的数据训练随机森林时，我得到了下面的错误。我不确定如何将amelia类转换为数据帧，它将是R中randomForest函数的正确输入。impute$imputations[[i]])谁能给我提个建议，我该如何解决这个问题

浏览 0提问于2014-09-27得票数 1

1回答

SPSS语法-如何通过SPSS语法处理缺失值

syntax、spss、missing-data、montecarlo、markov-models

我必须做一个关于SPSS如何处理缺失值的演示。具体地说，我们的教授给我们的任务是：感谢您的帮助。

浏览 10提问于2013-10-21得票数 1

1回答

使用方法'pmm‘，同时从推算中排除变量

r、prediction、r-mice

它们应该被用作预测值，但它们没有缺失值，这就是为什么对它们没有必要进行推算。我找到了一种指定方法的方法，以便将指定的变量排除在推算之外：meth <- init$method meth[c("Age那么，我如何使用pmm方法，为什么仍然将一些变量排除在推算之外，而只将它们用作预测值呢？

浏览 0提问于2018-09-17得票数 1

2回答

如何用KNN推算缺失值

python、python-3.x、imputation

我正在尝试从我的数据帧中推算缺失值，为此我使用了fancyimpute库。

浏览 46提问于2019-01-15得票数 2

2回答

如何用中位数推算缺失值

hive、apache-pig、bigdata、median、missing-data

我需要使用Apache Pig将缺少的值归结为中间值。有没有有效的方法来做到这一点呢？

浏览 1提问于2014-05-07得票数 2

2回答

使用Python填充时间序列中缺失数据的最佳方法是什么？

python、pandas、dataframe、time-series、missing-data

我第一次尝试使用python进行连续数据帧的案例研究，这是2006-2016年期间的属性时间序列数据我已经尝试了鼠标和插值，但不确定它是否正确。在python中应用哪种方法以及如何应用它？我已经浏览了以下链接：我应该使用预测方法而不是估算来填充数据吗？

浏览 1提问于2020-01-31得票数 0

2回答

如何返回R中的返回值

r、missing-data

在R中是否有任何函数可以帮助返回估算的值，例如：23)na.approx(x)[1] 23 23 25 43 34 22 78 35 98 23 30 24 21 78 22 7622 77 33 98 22 14 52 87 59我如何才能在不逐个查看完成的数据集的情况下从程序中获得推测

浏览 0提问于2013-05-01得票数 0

1回答

在因子和chr的情况下，用逻辑值替换Na (KNN补偿)

r、imputation

如果有人能解释这个KNN推算是如何工作的，以及它是如何用基于类似records.Like的值填充Na's和空因子/字符，我将非常感谢，例如：189103 churner 43 mees EST J 可以看出，我们在数据集中有很多缺失值，我们如何为字符和因子推算

浏览 0提问于2016-02-22得票数 1

1回答

MICE多重推算数据集的数量。

r、missing-data、r-mice

我有多个关于多重推算数据集"m“的效用的问题。我所理解的是，老鼠会重复m次数据集中缺失值的计算过程。最好的宝宝

浏览 0提问于2018-05-15得票数 1

1回答

循环遍历R中的聚合数据

r、dataframe、aggregate、na

我正在尝试在数据框特定列中推算缺失值。我的意图是通过其他专栏的组来取代它。不知道如何在R中实现这一点，有人能帮助一下吗？

浏览 0提问于2017-02-28得票数 0

回答已采纳

1回答

如何在支持向量机和神经网络中使用多个输入数据进行进一步分析？

missing-data、imputation、r-mice

我的原始数据包含一些缺失值，我使用了多个补偿来填充它们。我的下一个目标是在SVM和ANN中使用这些数据。所以我的问题是: 1)有没有任何方法，像任何方程一样，我可以用来将推算的数据集聚合成一个数据集，并将其用于进一步分析；2)如果没有，应该如何使用多个数据集进行研究。谢谢!

浏览 1提问于2018-07-18得票数 0

2回答

如何用mean by分组推算缺失值并替换现有值

我想用组的平均值替换缺少的值，并用平均值替换现有的值。group, 此代码用平均高度替换缺少的值，

浏览 0提问于2019-08-13得票数 0

1回答

对New/Predictor数据的多重推算

r、missing-data

有没有人能帮我理解一下如何处理新的/看不见的数据中的缺失值？我已经研究了R中的几个多个补偿软件包，所有这些软件包似乎都只是(同时)对训练和测试集进行了估算。那么，您如何处理新的未标记数据，以便以与训练/测试相同的方式进行估计？基本上，我希望对训练/测试集中的缺失值使用多个补偿，并对预测数据使用相同的模型/方法。根据我对多重推算的研究(不是专家)，使用MI来做这件事似乎不可行？但是，例如，使用插入符号，您可以轻松地使用用于训练&#x

浏览 3提问于2014-10-06得票数 3

1回答

以其他列值为条件的估算-泰坦尼克号数据集年龄估算以类别和性别为条件

python、pandas、scikit-learn、sklearn-pandas

我正在处理泰坦尼克号的数据集，并希望对丢失的年龄值进行估算。我想根据Pclass和性别进行推算-例如，以头等舱中所有女性的平均年龄为例(显然对每个班级以及男性和女性都是这样做的)。我没有包含代码，因为到目前为止，我所做的一切都是删除了Cabin列，并使用df.isna().sum()计算了有多少缺失值。任何关于如何根据其他列中包含的值来计算条件的建议都将不胜感激。

浏览 17提问于2020-06-18得票数 0

点击加载更多