腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
R
:
通过
该
变量
的
分布
来
估算
数据
框
列
中
的
值
r
、
dataframe
、
imputation
我已经搜索了stackoverflow和谷歌关于这一点,但还没有找到合适
的
答案。 我有一个包含个人年龄
的
数据
框
列
。在大约10000次观测
中
,有150次是NAs。我不想将整个
列
的
平均年龄归因于这些人,而是根据我
的
数据
集中
的
年龄
分布
来
分配随机年龄。 我
该
怎么做?我试着摆弄一下MICE包,但是没有太大
的
进展。 你对我有什么解决方案吗?
浏览 6
提问于2020-12-29
得票数 0
回答已采纳
2
回答
如何在python
中
为机器学习处理丢失
的
NaNs
python
、
pandas
、
machine-learning
、
missing-data
如何在应用机器学习算法之前处理
数据
集中
的
缺失
值
??这里有一个非常重要
的
问题。
数据
集中丢失
值
的
最佳处理方法是什么?例如,如果您看到此
数据
集,只有30%
的
浏览 4
提问于2015-01-07
得票数 8
回答已采纳
1
回答
删除或计算丢失
的
值
?
pandas
、
data-cleaning
我正在处理一个有45k行
的
数据
集,我有点困惑是要删除缺失
的
值
还是将缺失
的
值
归责。按
列
排列
的
缺失
值
分布
:根据这个答案:https://stackoverflow.com/a/28199556/12298398),我计算了包含缺失
值
的
行数 >>> np.count_nonzero(df.isnull().valu
浏览 0
提问于2021-11-26
得票数 1
回答已采纳
2
回答
什么时候在
数据
分析问题中使用缺失
数据
归属法?
dataset
、
data-cleaning
、
missing-data
、
data-imputation
根据研究问题,对
数据
集进行统计分析,利用
R
建立logistic回归模型和多项式线性模型。但是,我想知道应该使用缺失
值
估算
来完成
数据
集
的
步骤。我已经完成了对原始
数据
集中每个
变量
的
单
变量
分析,发现有三个连续
变量
和两个类别
变量
,有大量
的
缺失
数据
。在对每一个
变量
进行二元分析和图解处理后,我想使用缺失
数据
的</e
浏览 0
提问于2019-08-11
得票数 6
1
回答
小鼠
R
模拟与回归()
r
、
simulation
、
regression
、
missing-data
、
r-mice
我正在使用
R
中
的
鼠标包进行多重计算,并试图理解其背后
的
算法。 从它
的
文档来看,老鼠算法被认为是被使用
的
。据我理解,它使用吉布斯采样器
来
执行MCMC,其中模拟参数β,它定义了给定Y-(所有其他
变量
都没有Y)
的
Y(带有缺失
值
的
变量
)
的
条件
分布
。利用模拟β定义了相应
的
条件
分布
。然后从条件
分布
中提取值
浏览 1
提问于2015-01-28
得票数 1
1
回答
如何在SPSS
中
对一个范畴
变量
进行单次
估算
?
spss
、
missing-data
我
的
主管确信,可以在SPSS
中
对某一类别
变量
的
缺失
值
进行单次
估算
:
该
变量
的
缺失观测被随机分配给
变量
类别(级别),其
分布
与它们在非缺失观测
中
的
分布
相同。所以,一个愚蠢
的
例子:我在8个观测中有一个二元
变量
(比如性别);这个
变量
在6个观测
中
没有缺失,在3个观测
中
是
浏览 3
提问于2015-11-03
得票数 2
回答已采纳
1
回答
您应该如何处理NaN
值
?
machine-learning
、
preprocessing
、
data-imputation
我有一个
数据
集,其中包含许多NaN
值
。我相信大约50万行中有13,000行受到影响,因此大约有2.6%
的
数据
集受到影响。 我知道我可以删除这些行或为它们计算
值
。一般来说,什么时候一种方法比另一种更可取,哪种方法在我
的
特定场景
中
是最好
的
?
浏览 0
提问于2022-11-30
得票数 0
回答已采纳
2
回答
大
数据
中
的
推算
r
、
imputation
我需要对缺少
的
值
进行
估算
。我
的
数据
集大约有800,000行和92个
变量
。我在
r
中
尝试了
估算
包
中
的
kNNImpute,但看起来
数据
集太大了。在
R
中
还有其他
的
包/方法吗?我不希望使用mean
来
替换缺少
的
值
。谢谢
浏览 3
提问于2013-06-20
得票数 1
1
回答
缺少特征
的
机器学习模型
的
评价
classification
该
培训集具有以下
变量
/特性:Month1支付、Month2支付、Month3支付、Month1支付延迟、Month2支付延迟等行为
数据
。然而,这些看不见
的
数据
只是包含了“人口统计
数据
”,并没有支付行为
数据
。如何部署/测试仅基于DemoGraphics
数据
集
的
模型?
浏览 0
提问于2017-12-22
得票数 1
回答已采纳
2
回答
对缺失
值
的
估算
r
、
missing-data
、
imputation
我想根据
变量
的
其他
值
的
分布
来
估算
数据
集中
的
缺失
值
。假设30%
的
值
= 1,20%=2,50%= 3,实际上我想做以下操作:impute(var,2) #
浏览 0
提问于2013-07-10
得票数 0
1
回答
迭代计算器,为给定
列
的
所有NaNs提供相同
的
输出
值
python
、
pandas
、
scikit-learn
我目前有一个大约350
列
的
数据
框
。我想使用迭代式计算器和ExtraTreesRegressor,使用其他几个
列
来
估算
其中一个
列
中
的
NaNs。我已经创建了一个包含感兴趣
的
特征
的
较小
的
数据
框
。我
的
数据
帧看起来像这样: ? 我想
估算
first_seen_days
中<
浏览 7
提问于2021-07-02
得票数 0
回答已采纳
2
回答
如何在SPSS
中
对IQR进行汇总?
r
、
aggregate
、
spss
、
iqr
我必须聚合(当然是用一个分类中断
变量
)一个相当大
的
数据
表,其中包含一些连续
变量
,得到所需
变量
的
平均值、中值、标准差和四分位数范围(IQR)。前三个是一个简单
的
使用SPSS聚合命令,但我不知道如何
通过
聚合
数据
表
来
计算IQR。 我知道我可以使用描述符(按四分位数)
来
计算IQR,但是由于我需要聚合
中
的
计算--这不是一个选项。不幸
的
是,由于一些奇怪<em
浏览 3
提问于2011-04-07
得票数 1
回答已采纳
3
回答
为什么用异常值替换空
值
?
machine-learning
、
regression
、
linear-regression
、
outlier
、
machine-learning-model
我一直在看多
变量
线性回归
的
股票价格预测教程,导师用异常值-99999替换丢失
的
值
数据
NaN。为什么和如何这样
的
替代不偏斜
的
数据
和提供有偏见或错误
的
分类器?
浏览 0
提问于2018-07-01
得票数 2
1
回答
严重缺失特征
的
数据
计算
data
、
data-cleaning
、
bigdata
、
missing-data
、
data-imputation
我目前工作
的
数据
集IEEE-CIS欺诈检测,提供
通过
Kaggle,约350个功能,约600 k实例。但是,有些特性缺少大量
的
值
,以至于大多数功能都不可用。dataset将其300个特征转换为保护隐私
的
主要组件,因此无法理解
该
功能
的
含义。 我想知道有什么好办法
来
解决这种问题。我曾经考虑过
数据
的
归责,但是为大多数功能编造和填充假
数据
似乎并不代表现实生活
数据
。我也曾想
浏览 0
提问于2023-04-09
得票数 0
1
回答
如何将俄罗斯联邦储蓄银行俄罗斯住房市场
数据
集中缺失
的
"build_year“
列
归因于Kaggle?
r
、
linear-regression
、
missing-data
、
data-cleaning
、
imputation
我正在做一个学术项目,涉及到基于
数据
集预测房价。但是,我被困在一个特定
列
的
data cleaning进程
中
,
该
列
指示属性
的
构建日期。我不能仅仅
通过
用均值或中位数来替换缺失
的
值
来
impute它。我正在寻找所有可能
的
方法
来
估算
这样
的
数据
,这些
数据
是有意义
的
,而不仅仅是随机数字。此
浏览 0
提问于2020-10-10
得票数 1
1
回答
NMAR生成缺失
值
的
过程
r
、
simulation
、
missing-data
NMAR生成缺失
值
的
过程:NMAR直接在每个
变量
上产生缺失。对于给定
的
变量
Aj和指定
的
缺失率α,如果Aj是数值,我们首先计算Aj
的
中位数,然后随机地让低于(或高于)
的
值
以2α
的
概率丢失。例如%5 ,%10 , ....
的
α缺失率 我
的
问题是如何在
r
中
通过</e
浏览 1
提问于2016-05-04
得票数 0
2
回答
如何处理分类输入变压器
中
的
数值
变量
?
pandas
、
scikit-learn
、
feature-extraction
、
categorical-data
、
imputation
我有一个包含grade
列
的
数据
文件,其中包含分类
值
。我
的
问题导致了这样一个事实:
值
的
类型是float,而不是object。np.nan, 3.0],) key grade1 K1 2.03 K3 NaN我在
列
grade
中
缺少
值
。我想
通过
使用基于sklearn
的
fe
浏览 4
提问于2021-06-04
得票数 0
回答已采纳
1
回答
检查
估算
效率-如何比较
数据
帧?
data-imputation
我尝试用监督
的
方法
来
评价几种NA
估算
方法:我克隆我
的
原始
数据
帧而没有NAs,人工地将NAs插入到结果
的
数据
框架
中
,并将
估算
应用于后者。 现在,我想
通过
比较
估算
的
新DFs和原始DFs
来
评估
估算
值
。我想知道什么是最好
的
metod;是否有任何距离方法,例如,我可以应用于原始/推测
的
DF对?
浏览 0
提问于2016-09-12
得票数 3
2
回答
一个具有“年龄”特征
的
二进制分类
数据
集,其中一些
值
丢失了
machine-learning
、
svm
、
libsvm
、
missing-data
、
feature-extraction
该
分类问题有300000个元组和20个特征。我想用SVM算法
来
解决这个问题。“年龄”特征介于1到100之间,但有些元组
的
这一特性缺失且空白。我
该
怎么解决。
浏览 2
提问于2016-07-13
得票数 2
回答已采纳
3
回答
R
使用预处理函数输入
数据
时出现Caret包错误
r
、
classification
、
r-caret
我有一个缺少
数据
的
数据
集(训练-测试),我想在分类之前
估算
数据
。我尝试使用插入符包和函数preProcess,我想使用训练集
的
predictor
变量
来
估算
数据
,只使用训练集
的
知识
来
估算
测试集上
的
数据
,而不使用测试集
的
predictor (我不应该知道)。.) : cannot impute when al
浏览 2
提问于2015-03-31
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
【视频】为什么要处理缺失数据?如何用R语言进行缺失值填充?
推荐:使用机器学习预测房价
seaborn更高效的统计图表制作工具
R语言—数据分析3
使用曲线估计法预测广告支出与销售业绩之间的关系
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券