对于这个数据集，如何用R中的回归方程中的模拟值来估算变量的缺失值？_R:通过该变量的分布来估算数据框列中的值 - 腾讯云开发者社区

、、、

我有以下大型数据集的示例。通过heckman选择模型，我通过以下代码估计了此数据的回归模型现在，我想用估计方程来估算可变工资的缺失值。我创建了以下代码来模拟回归方程式中的值。但现在我的想法是，如何用薪水中缺失的值

浏览 11提问于2020-10-16得票数 0

回答已采纳

1回答

如何在线性模型中利用它自己的估计模型来估计丢失的DV？

、

这个问题更多的是关于统计，而不是R编程，不过，由于我是R的初学者，我特别想知道关于R的任何想法；谢谢您的考虑：我们的线性模型(lm)中的结果变量是腰围，大约20%的数据集中缺少腰围。去年发表了一个模型，可靠地从BMI、年龄和性别(所有这些我们都有)来估算腰围。我想用这个模型来</em

浏览 2提问于2013-10-03得票数 0

回答已采纳

3回答

用什么预测模型来推断性别？

、、

我的数据如下：birth_date缺少634,990个值由于我有900 k项，这两项都是相当大的数量，所以我不能丢弃空行。对于birth_date，有人建议使用链式方程(小鼠)的多变量计算。我不知道我应该为gender使用什么预测模型。在未缺少的数据中，男性比女性多5倍。谁能告诉我这里最好的做法是什么？填充gender缺失</

浏览 0提问于2019-05-07得票数 5

回答已采纳

1回答

如何在R中使用missForest包来处理测试数据？

我们基本上可以使用missForest包来输入R中的缺失值(对于分类和数字).But，这种方法需要一个完整的响应变量来训练森林。那么，如何使用这个missForest包估算测试数据集中的缺失值，因为我们在测试数据集中没有任何response变量？

浏览 0提问于2015-11-18得票数 1

2回答

预测缺失数据的方法

、、

我有以下问题:我正在寻找方法来预测给定数据集中随机丢失的数据。我读过关于PCA-方法的文章，但我想了解一下方法的优缺点，以及最近的研究概况(给定数据</

浏览 0提问于2016-10-23得票数 2

2回答

什么时候在数据分析问题中使用缺失数据归属法？

、、、

根据研究问题，对数据集进行统计分析，利用R建立logistic回归模型和多项式线性模型。但是，我想知道应该使用缺失值估算来完成数据集的步骤。我已经完成了对原始数据集中每个变量的单变量分析，发现有三个连续变量和两个类别变量，有大量的缺失数据。在对每一个变量进行

浏览 0提问于2019-08-11得票数 6

3回答

部分未知向量的最近邻

、、、、

特征向量有3项[weight, height, age]，在我们的列表中有3人。注意，，我们不知道人的身高C，。, 50y]我猜现在的问题是，我们把C和猜测的~170cm放在一起，而把B放在已知的169cm上。感觉有点不对劲。我们人类比机器聪明，并且知道C完全是170cm的可能性很小。，但是我们如何计算这个</e

浏览 4提问于2017-09-23得票数 1

1回答

如何使用在训练数据集上创建的自定义输入程序来计算测试集中缺少的值

、、、、

我正在做一个玩具项目来预测索赔。其中一个输入特性具有空值，我已经在其上应用了自定义估算技术。在此技术下，我将丢失的值替换为目标特性的两个类别的平均值。fillna(dataframe.groupby('Target Feature')['Feature'].transform('mean')) 利用这种策略，设计了基于Logistic回归和支持向量分类器的分类模型现在，我不得不在测试集上运行我

浏览 0提问于2021-01-18得票数 1

2回答

将PCA应用于R中具有NA值的数据

我想将主成分分析(pcomp())应用于具有NA值的数据帧。我知道应用PCA is na值是不可能的，(我仍然尝试了)我得到了错误：Error in na.fail.default(X) : missing values in object。我不想删除任何行，因为它是一个相对较小的样本大小。那么我该怎么做呢？

浏览 1提问于2020-05-11得票数 0

1回答

距离矩阵中缺失数据的估计

、

我想问一下，是否有人熟悉距离矩阵中缺失值的估算。对于普通数据(具有连续变量和标称变量的表)，有大量的计算技术，如热甲板和冷面、预测模型等。然而，几乎没有关于如何处理距离矩阵的信息。示例：distance[c(10, 20, 30, 40, 50, 60)] <- NA 在这种情况下，如何计算<e

浏览 3提问于2015-12-01得票数 3

回答已采纳

1回答

除了其他自变量外，还使用因变量计算其中一个自变量的缺失值？

、、、

我想把一个自变量的缺失值假设为变量X1，其他自变量与X1的相关性很弱。然而，因变量与X1有很强的相关性。我希望使用的缺失值估算器，如KNN回归或ExtraTreesRegressor (类似于R中的错误林)。除了自变量外，我还可以使用因变量来</

浏览 0提问于2019-08-19得票数 0

回答已采纳

2回答

如何寻找分类数据与连续数据之间的相关性

、、、

我正在计算泰坦尼克号数据集中的空值。'Embarked'列有一些。我不想仅仅将它们全部设置为最常见的值，'S'。我想根据'Embarked'与其他列的相关性来推断它。我尝试将这个公式应用于'Embarked'列： if e == 'S': return 1 if e == 'Q&#x

浏览 0提问于2020-07-14得票数 1

回答已采纳

1回答

对New/Predictor数据的多重推算

、

有没有人能帮我理解一下如何处理新的/看不见的数据中的缺失值？我已经研究了R中的几个多个补偿软件包，所有这些软件包似乎都只是(同时)对训练和测试集进行了估算。那么，您如何处理新的未标记数据，以便以与训练/测试相同的方式进行估计？基本上，我希望对训练/测试集中的缺失<

浏览 3提问于2014-10-06得票数 3

2回答

如何处理lmer列中的缺失值(NA)

、、、

在某些列中对数据集的一些观察中存在NA值。我只想控制这个包含NA的变量。在控制固定效果之后，数据集的大小是相同的。我认为我必须在lmer()中使用na.action。arg 1) 我的数据:如下所示，在所有的控制变量中都有相当多的NA。因此，“扔掉”所有这些观察是没有选择的

浏览 8提问于2022-10-21得票数 1

回答已采纳

3回答

当数据丢失60%时，您如何处理丢失的数据？

、

我的数据有很多缺失值，我必须预测这些值。一种方法是取这些值的平均值。但我想听到一个不同的观点。经验丰富的数据科学家如何解决这类问题？

浏览 39提问于2019-07-23得票数 0

2回答

如何在序Logistic回归中保持缺失值

、、、、

我在python中使用mord包进行序数logit回归(预测对电影等级1-5星的响应)。我的预测变量之一也是序数，但有一些值缺失，观众跳过一个问题，因为它不适用，因为跳过逻辑从先前的问题，或因为他们错过了它。说明值“缺失”和/或“不适用”的最佳方法是什么，同时也保留这个预测变量的序号性质？我不认为我应该删除这个查看器，或者试图推断这个<

浏览 0提问于2019-10-27得票数 0

回答已采纳

2回答

缺少预期值的机器学习

、、

我有一个有关完成评审的人的数据集，目标变量是评审决定是否正确/不正确，我的特性之一是对审阅者进行跟踪4周的准确性评分。然而，这些精确的分数并不总是可用的。我的问题是如何建模这些数据-事实上，没有可用的准确性评分可能是一个信号。从我对此的研究来看，我所看到的一切都告诉我，缺失的价值必须被推断或移除。我想知道是否有技术将

浏览 0提问于2021-01-20得票数 4

2回答

大数据中的推算

、

我需要对缺少的值进行估算。我的数据集大约有800,000行和92个变量。我在r中尝试了估算包中的kNNImpute，但看起来数据集太大了。在R中还有其他的包/方法吗？我不希望使用mean来替换缺少的值。谢谢

浏览 3提问于2013-06-20得票数 1

1回答

小鼠R模拟与回归()

、、、、

我正在使用R中的鼠标包进行多重计算，并试图理解其背后的算法。从它的文档来看，老鼠算法被认为是被使用的。据我理解，它使用吉布斯采样器来执行MCMC，其中模拟参数β，它定义了给定Y-(所有其他变量都没有Y)的Y(带有缺失值的变量)的条件分布。利用模拟β定义了相应的条件分布。然后从条件分布中提取值

浏览 1提问于2015-01-28得票数 1

1回答

分配随机的缺失值

我有一个包含缺失值的数据集，我可以使用不同的方法来估算缺失值。现在我想评估一下估算方法的精确度。但由于我不知道什么是真的值，所以我想在原始数据中掩蔽一些值“带有缺失值的数据”，然后使用我的常规补偿方法。在完成估算<

浏览 0提问于2014-01-27得票数 3

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云