腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
3
回答
为
R
中
的
所有
观测
值
生成
多个
分类
变量
水平
的
频率
表
r
我有一个如下所示
的
数据集 ID Q1 Q2 Q3Person2 B C DPerson3 .66 0 .33 0 0 我已经尝试过使用crosstab()函数,以及使用dplyr和tidyr移动东西<
浏览 4
提问于2019-05-17
得票数 1
1
回答
探索
变量
以指导xgboost调优
visualization
、
xgboost
、
hyperparameter-tuning
简而言之:在为xgboost选择参数值时,如何考虑
变量
的
类型和分布?示例:具有二进制结果
变量
和二进制/连续预测器混合
的
数据集。结果
变量
(每次观察一个
值
):一组名为味道(
浏览 0
提问于2020-10-09
得票数 4
回答已采纳
2
回答
卡方和方差分析(f_classif)是选择最佳特征吗?
machine-learning
、
python
、
data-science-model
、
chi-square-test
、
anova
我有一个二进制
分类
问题(目标0 0 1),我有两个
变量
连续和
分类
作为特性。我明白,关于卡方,我只能用
分类
的
特征来评价它们。那方差分析(f_classif)呢?是一样
的
吗?我只能评价最好
的
分类
特征?
浏览 0
提问于2022-12-24
得票数 1
1
回答
线性回归中给定
的
不必要系数
r
、
linear-regression
我有一个像这样
的
线性回归:pos32 NA NA NA NA+++这是我
的
数据示例: pos1 pos2 pos3
浏览 37
提问于2021-03-07
得票数 0
回答已采纳
1
回答
熊猫在同一产量上
的
频率
、行率和总率
的
交叉
表
python
、
pandas
、
stata
我试图在Stata
中
复制非常有用
的
tabulate twoway函数,在相同
的
输出
中
,您可以看到
频率
、对应
的
行百分比和对应
的
列百分比,它们分别用于数据
中
两个
分类
变量
的
可能组合。也就是说,结果
表
中
的
每个单元格包含与上述数字对应
的
三个叠加值。Stata
中
的
示例输出:这是单
变量
ca
浏览 2
提问于2016-04-01
得票数 4
回答已采纳
1
回答
(从Stata到
R
)数据挖掘和
变量
创建:计数、列表、排序、egen
r
、
sorting
、
data-mining
、
stata
、
subset
从Stata到
R
的
过渡一直是令人兴奋和具有挑战性
的
,但我在
R
中
仍在努力
的
一个领域是数据探索,然后是随后
的
变量
创建。具体来说,如何 如果var 2==3 /*计数var2 */上
的
值
为
3
的
观测
数 列出满足条件
的</e
浏览 4
提问于2014-12-18
得票数 0
回答已采纳
2
回答
当组大小有显著差异时,评估一个组
的
度量是否高于另一个组
的
度量。
data-analysis
、
variance
、
hypothesis-testing
我正在使用一个数据集,其中包含申请者
的
收入、性别和贷款状况(无论此人是否已被批准贷款)。我根据这些数据创建了下面的图表。直方图图是:核密度估计(KDE)图是:KDE地块似乎表明,与妇女相比,在某一特定收入
中
,男子接受
的
与被拒绝
的
比率更高。我想进一步调查一下。注(!)数据集中
的
男性多于女性,因此任何结论都需要考虑到差异。 一个想法:我最初
的
想法是把收入存起来,计算每个性别在每个垃圾箱中被接受/拒绝
的
比率。然后,我们可以绘制比率和方差(使用每个垃圾箱<
浏览 0
提问于2022-01-23
得票数 0
回答已采纳
1
回答
如何解释XGBoost重要性
的
输出?
machine-learning
、
xgboost
我不知道如何解释xgb.importance
的
输出。另外,Split、RealCover和RealCover%意味着什么?我有一些额外
的
参数这里从
R
文档
中
,我了解到增益类似于信息增益,
频率
是在
所有
树中使用特性
的
次数。我不知道什么是掩护。我运行了链接
中
给出
的
示例代码(也尝试在我正
浏览 0
提问于2016-06-21
得票数 53
回答已采纳
1
回答
不包括范畴
变量
中
的
级别/组(ggplot图)
r
、
ggplot2
、
visualization
我相对来说是个新手,我对可视化一个包含11个组/级别的
分类
变量
感兴趣。我运行下面的代码来
生成
一个条形图,显示每个组
的
频率
。但是,考虑到范畴
变量
"active“
中
的
某些组只发生一次或零次,它们会使图形混乱。因此,是否有可能在<2
观测
值
的
范畴
变量
中直接排除it图中
的
组?如果条形图在这里不合适的话,我也愿意听取关于如何可视化具有多组/
浏览 3
提问于2022-05-07
得票数 1
回答已采纳
4
回答
基于多类观察
值
划分
r
中
的
数据集
r
、
random
、
partitioning
我正在尝试划分我在
R
中
的
数据集,2/3用于训练,1/3用于测试。我有一个
分类
变量
和七个数值
变量
。每个观察
值
被归类
为
A、B、C或D。为了简单起见,假设
分类
变量
cl对于前100个观察
值
是A,对于观察
值
101到200是B,对于300是C,对于400是D。我正在尝试获得一个分区,其中包含A、B、C和D
中
每一个
的
2/3
浏览 3
提问于2012-11-24
得票数 15
回答已采纳
1
回答
函数使用Purrr::map
生成
多个
htmlTables。
r
、
tidyverse
library(htmlTable)library(ggmosaic) for "happy" dataset 我想要创建一个函数,
为
数据集中
的
所有
分类
变量
创建
频率
表
,然后为每个
变量
生成
htmlTables。但是,通过使用purrr::map,
表
在列表
中
。如何使用htmlTable
生成
表
?还是
生成
浏览 2
提问于2017-03-25
得票数 1
回答已采纳
2
回答
将
多个
变量
合并到一个
表
中
的
过程
频率
sas
我需要对
多个
变量
运行PROC FREQ,但我希望
所有
输出都在同一个
表
上。目前,一个类似于tables ERstatus Age Race,InsuranceStatus;
的
PROC FREQ语句将计算每个
变量
的
频率
,并将它们全部打印在单独
的
表
中
。我只想要一个
表
上
的
数据。以下是我
的
PROC TABULATE代码。我
的
变量<
浏览 4
提问于2017-03-28
得票数 0
回答已采纳
1
回答
如何用
R
语言转换Stata标记样本?
r
、
stata
我是Stata
的
新手,但为了以后
的
方便,我需要考虑将Stata代码
的
一部分转换为
R
。1.在权重为0
的
观测
中
,标记
变量
设置
为
0(但请参见选项零8)。2.发出适当
的
错误消息,如果权重无效,一切都会停止(例如在某些
观测
中小于0或
频率
权重为非整数)。3.在不满足if exp
的
观测
中
,标记
变量
设置
为
0。
浏览 3
提问于2017-09-08
得票数 2
2
回答
选择
分类
变量
(列)可以有2个
值
的
子集
r
我
的
数据由不同模型和场景(即
变量
)
的
频率
表
组成。我想要选择这个数据库来
为
每个子集制作图形。我
的
大多数
变量
都是
分类
的
和文本
的
(例如天气,场景)。我找不到一种方法来允许来自一个
分类
变量
的
多个
值
(大多数情况下%in% c()用于数字)。ThisSelection <- subset (Hist, all_see
浏览 0
提问于2014-01-20
得票数 5
回答已采纳
1
回答
用层次随机林模型估计类概率
r
、
classification
、
bayesian
、
random-forest
我使用随机森林
分类
器(
R
)来预测
多个
本地植物群落
的
空间分布,使用各种环境
变量
作为预测因子。这个
分类
系统是分层
的
,每个连续
的
级别在其类描述
中
变得更加详细。我知道到目前为止这是非常基本
的
,但我遇到
的
挑战是这样
的
。我想在最好
的
分类
水平
上预测这些类
的
空间分布,但是有太多
的
环境变化无法以可接受
浏览 3
提问于2014-04-14
得票数 1
回答已采纳
2
回答
在使用tabulate时,有没有办法克服Stata
中
“
值
太多”
的
错误?
stata
我正在尝试
为
Stata
中
的
一个
变量
生成
频率
,条件是另一个
变量
的
类别。 另一个
分类
变量
对我感兴趣
的
类别有大约79万个观察
值
。Stata对单向
表
和双向
表
分别有12,000行和1,200行
的
限制,这使得这是不可能
的
。每次运行tab x if y==<category of interest>时,我都会得到
浏览 11
提问于2014-03-03
得票数 4
2
回答
含缺失
值
的
分类
数据降维
python
、
r
、
statistics
我有一个回归模型,其中因
变量
是连续
的
,但是90%
的
自
变量
是绝对
的
(包括有序
的
和无序
的
),大约30%
的
记录有缺失
的
值
(更糟糕
的
是,它们是随机丢失
的
,没有任何模式,也就是说,超过45%
的
数据至少有一个缺失
值
虽然我知道几种连续
变量
降维
的
方法,但我不知道关于
分类
数据
的
类似静态文献(除
浏览 8
提问于2010-05-14
得票数 24
回答已采纳
2
回答
获取
分类
数据
频率
矩阵
的
程序
r
、
dataframe
、
dplyr
、
correlation
、
binary-data
我正在研究包含300
多个
分类
特性
的
数据,我已经将其分解
为
0和1s。现在,我需要创建一个矩阵
的
特征,与
频率
的
关节出现在每个细胞。id cat1 cat2 cat3 cat4465 1 1 1 0我想要<e
浏览 1
提问于2019-10-02
得票数 3
回答已采纳
1
回答
随机选取序列
中
的
数字,并根据预定义
的
频率
分布保存为
观测
值
。
sas
我想从1:8
的
序列
中
随机选择数字,并将选取
的
数字保存为SAS数据集中一个新
变量
的
观测
值
。每个数字在1到8将得到相同
的
机会被挑选(0.125)。因此,一旦
生成
新
变量
,并对
变量
运行proc,我将得到序列
中
每个数字
的
接近
频率
分布约12.5%。使用sample()函数,
R
等价如下所示: x <- sample(1:8, 1000,
浏览 2
提问于2014-08-13
得票数 3
回答已采纳
1
回答
在一个单元格
中
包含
多个
值
并在
R
中计数
的
分类
变量
r
重新发布这个问题来澄清我
的
目标--我试图创建一个新
的
分类
变量
“收入”(3级),将预定国家
的
子集(x,y,z)
分类
为
不同
的
级别。我
的
问题是,countries
变量
在每个单元格中有
多个
国家,所以我不知道如何
分类
。我希望得到
的
是:1 Chad, USA, US
浏览 1
提问于2022-07-21
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
卡方检验—初步了解
如何用R语言进行缺失值填充?
二元逻辑回归的简介与操作演示
《社会研究方法》 第八讲 定量分析——相关分析、回归分析
2xC表、Rx2表和无序RxC表资料的统计分析
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券