R:通过该变量的分布来估算数据框列中的值_使用R中的二项式分布来估算缺失值_对于这个数据集，如何用R中的回归方程中的模拟值来估算变量的缺失值？ - 腾讯云开发者社区

r、dataframe、imputation

我已经搜索了stackoverflow和谷歌关于这一点，但还没有找到合适的答案。我有一个包含个人年龄的数据框列。在大约10000次观测中，有150次是NAs。我不想将整个列的平均年龄归因于这些人，而是根据我的数据集中的年龄分布来分配随机年龄。我该怎么做？我试着摆弄一下MICE包，但是没有太大的进展。你对我有什么解决方案吗？

浏览 6提问于2020-12-29得票数 0

回答已采纳

2回答

如何在python中为机器学习处理丢失的NaNs

python、pandas、machine-learning、missing-data

如何在应用机器学习算法之前处理数据集中的缺失值？？这里有一个非常重要的问题。数据集中丢失值的最佳处理方法是什么？例如，如果您看到此数据集，只有30%的

浏览 4提问于2015-01-07得票数 8

回答已采纳

1回答

删除或计算丢失的值？

pandas、data-cleaning

我正在处理一个有45k行的数据集，我有点困惑是要删除缺失的值还是将缺失的值归责。按列排列的缺失值分布：根据这个答案：https://stackoverflow.com/a/28199556/12298398)，我计算了包含缺失值的行数 >>> np.count_nonzero(df.isnull().valu

浏览 0提问于2021-11-26得票数 1

回答已采纳

2回答

什么时候在数据分析问题中使用缺失数据归属法？

dataset、data-cleaning、missing-data、data-imputation

根据研究问题，对数据集进行统计分析，利用R建立logistic回归模型和多项式线性模型。但是，我想知道应该使用缺失值估算来完成数据集的步骤。我已经完成了对原始数据集中每个变量的单变量分析，发现有三个连续变量和两个类别变量，有大量的缺失数据。在对每一个变量进行二元分析和图解处理后，我想使用缺失数据的</e

浏览 0提问于2019-08-11得票数 6

1回答

小鼠R模拟与回归()

r、simulation、regression、missing-data、r-mice

我正在使用R中的鼠标包进行多重计算，并试图理解其背后的算法。从它的文档来看，老鼠算法被认为是被使用的。据我理解，它使用吉布斯采样器来执行MCMC，其中模拟参数β，它定义了给定Y-(所有其他变量都没有Y)的Y(带有缺失值的变量)的条件分布。利用模拟β定义了相应的条件分布。然后从条件分布中提取值

浏览 1提问于2015-01-28得票数 1

1回答

如何在SPSS中对一个范畴变量进行单次估算？

spss、missing-data

我的主管确信，可以在SPSS中对某一类别变量的缺失值进行单次估算:该变量的缺失观测被随机分配给变量类别(级别)，其分布与它们在非缺失观测中的分布相同。所以，一个愚蠢的例子:我在8个观测中有一个二元变量(比如性别)；这个变量在6个观测中没有缺失，在3个观测中是

浏览 3提问于2015-11-03得票数 2

回答已采纳

1回答

您应该如何处理NaN值？

machine-learning、preprocessing、data-imputation

我有一个数据集，其中包含许多NaN值。我相信大约50万行中有13,000行受到影响，因此大约有2.6%的数据集受到影响。我知道我可以删除这些行或为它们计算值。一般来说，什么时候一种方法比另一种更可取，哪种方法在我的特定场景中是最好的？

浏览 0提问于2022-11-30得票数 0

回答已采纳

2回答

大数据中的推算

r、imputation

我需要对缺少的值进行估算。我的数据集大约有800,000行和92个变量。我在r中尝试了估算包中的kNNImpute，但看起来数据集太大了。在R中还有其他的包/方法吗？我不希望使用mean来替换缺少的值。谢谢

浏览 3提问于2013-06-20得票数 1

1回答

缺少特征的机器学习模型的评价

classification

该培训集具有以下变量/特性：Month1支付、Month2支付、Month3支付、Month1支付延迟、Month2支付延迟等行为数据。然而，这些看不见的数据只是包含了“人口统计数据”，并没有支付行为数据。如何部署/测试仅基于DemoGraphics数据集的模型？

浏览 0提问于2017-12-22得票数 1

回答已采纳

2回答

对缺失值的估算

r、missing-data、imputation

我想根据变量的其他值的分布来估算数据集中的缺失值。假设30%的值= 1，20%=2，50%= 3，实际上我想做以下操作：impute(var,2) #

浏览 0提问于2013-07-10得票数 0

1回答

迭代计算器，为给定列的所有NaNs提供相同的输出值

python、pandas、scikit-learn

我目前有一个大约350列的数据框。我想使用迭代式计算器和ExtraTreesRegressor，使用其他几个列来估算其中一个列中的NaNs。我已经创建了一个包含感兴趣的特征的较小的数据框。我的数据帧看起来像这样： ? 我想估算first_seen_days中<

浏览 7提问于2021-07-02得票数 0

回答已采纳

2回答

如何在SPSS中对IQR进行汇总？

r、aggregate、spss、iqr

我必须聚合(当然是用一个分类中断变量)一个相当大的数据表，其中包含一些连续变量，得到所需变量的平均值、中值、标准差和四分位数范围(IQR)。前三个是一个简单的使用SPSS聚合命令，但我不知道如何通过聚合数据表来计算IQR。我知道我可以使用描述符(按四分位数)来计算IQR，但是由于我需要聚合中的计算--这不是一个选项。不幸的是，由于一些奇怪<em

浏览 3提问于2011-04-07得票数 1

回答已采纳

3回答

为什么用异常值替换空值？

machine-learning、regression、linear-regression、outlier、machine-learning-model

我一直在看多变量线性回归的股票价格预测教程，导师用异常值-99999替换丢失的值数据NaN。为什么和如何这样的替代不偏斜的数据和提供有偏见或错误的分类器？

浏览 0提问于2018-07-01得票数 2

1回答

严重缺失特征的数据计算

data、data-cleaning、bigdata、missing-data、data-imputation

我目前工作的数据集IEEE-CIS欺诈检测，提供通过Kaggle，约350个功能，约600 k实例。但是，有些特性缺少大量的值，以至于大多数功能都不可用。dataset将其300个特征转换为保护隐私的主要组件，因此无法理解该功能的含义。我想知道有什么好办法来解决这种问题。我曾经考虑过数据的归责，但是为大多数功能编造和填充假数据似乎并不代表现实生活数据。我也曾想

浏览 0提问于2023-04-09得票数 0

1回答

如何将俄罗斯联邦储蓄银行俄罗斯住房市场数据集中缺失的"build_year“列归因于Kaggle？

r、linear-regression、missing-data、data-cleaning、imputation

我正在做一个学术项目，涉及到基于数据集预测房价。但是，我被困在一个特定列的data cleaning进程中，该列指示属性的构建日期。我不能仅仅通过用均值或中位数来替换缺失的值来impute它。我正在寻找所有可能的方法来估算这样的数据，这些数据是有意义的，而不仅仅是随机数字。此

浏览 0提问于2020-10-10得票数 1

1回答

NMAR生成缺失值的过程

r、simulation、missing-data

NMAR生成缺失值的过程：NMAR直接在每个变量上产生缺失。对于给定的变量Aj和指定的缺失率α，如果Aj是数值，我们首先计算Aj的中位数，然后随机地让低于(或高于)的值以2α的概率丢失。例如%5 ,%10 , ....的α缺失率我的问题是如何在r中通过</e

浏览 1提问于2016-05-04得票数 0

2回答

如何处理分类输入变压器中的数值变量？

pandas、scikit-learn、feature-extraction、categorical-data、imputation

我有一个包含grade列的数据文件，其中包含分类值。我的问题导致了这样一个事实:值的类型是float，而不是object。np.nan, 3.0],) key grade1 K1 2.03 K3 NaN我在列grade中缺少值。我想通过使用基于sklearn的fe

浏览 4提问于2021-06-04得票数 0

回答已采纳

1回答

检查估算效率-如何比较数据帧？

data-imputation

我尝试用监督的方法来评价几种NA估算方法:我克隆我的原始数据帧而没有NAs，人工地将NAs插入到结果的数据框架中，并将估算应用于后者。现在，我想通过比较估算的新DFs和原始DFs来评估估算值。我想知道什么是最好的metod；是否有任何距离方法，例如，我可以应用于原始/推测的DF对？

浏览 0提问于2016-09-12得票数 3

2回答

一个具有“年龄”特征的二进制分类数据集，其中一些值丢失了

machine-learning、svm、libsvm、missing-data、feature-extraction

该分类问题有300000个元组和20个特征。我想用SVM算法来解决这个问题。“年龄”特征介于1到100之间，但有些元组的这一特性缺失且空白。我该怎么解决。

浏览 2提问于2016-07-13得票数 2

回答已采纳

3回答

R使用预处理函数输入数据时出现Caret包错误

r、classification、r-caret

我有一个缺少数据的数据集(训练-测试)，我想在分类之前估算数据。我尝试使用插入符包和函数preProcess，我想使用训练集的predictor变量来估算数据，只使用训练集的知识来估算测试集上的数据，而不使用测试集的predictor (我不应该知道)。.) : cannot impute when al

浏览 2提问于2015-03-31得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云