腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何将
变量
的
每个
唯一
组合
迭代
到
具有
变量
的
训练
/
测试
集中
,
并
添加到
预先
存在
的
模型
变量
中
?
、
、
、
我找到了this answer,它告诉我如何获得每一种独特
的
组合
--这很完美。但是我已经在我
的
模型
中有了一组我想要
的
“基本”
变量
。这只是我需要遍历和添加
的
最后几个。我已经有一个函数,将采取所有的准确性,召回等措施,我需要
并
输出我
的
所有措施
的
数据帧。因此,我可以很容易地浏览这些列,看看哪个区域最好。 所有的
变量
都在一个数据框
中
,所以我所要做
的
就是选择我想要
的
浏览 2
提问于2020-10-18
得票数 0
1
回答
如何使用哈希码作为其值设置索引列?
、
、
、
我正在尝试使用
具有
分类值(字符串值)
的
数据集来
训练
机器学习
模型
。然而,火花
模型
不能使用字符串值进行
训练
,因此我必须将它们转换或将它们索引为一个数值。然而,我发现Spark
的
唯一
字符串转换器是StringIndexer,但是我发现这是非常不可靠
的
,因为它根据字符串
的
频率对string进行索引,并且不能保证在我
的
测试
文件
中
字符串值
的
频率将保持不变。因
浏览 1
提问于2017-07-31
得票数 1
回答已采纳
2
回答
如何将
数据集分成两部分,同时确保它们在列
中
与分类
变量
保持平衡?
、
、
我正在使用
训练
和
测试
数据集来
测试
一个估算
模型
的
准确性。我正在运行
的
模型
使用了一个分类
变量
。不幸
的
是,当我随机拆分数据集并在
训练
集上运行一个
模型
时,我无法估计
测试
数据
集中
存在
的
某些分类
变量
的
系数。我想对数据进行分割,同时确保所有的分类
变量
都
存在
于培训和
浏览 1
提问于2021-11-06
得票数 0
1
回答
一次热编码可用类别的一致性
、
、
、
、
假设我有两个数据集,一个用于
训练
,一个用于预测。因此,
变量
X同时
存在
浏览 1
提问于2020-05-11
得票数 1
1
回答
不使用row.name
组合
数据集
、
、
我从一个data.frame (或data_frame)开始,其中包含我
的
因
变量
Y
变量
、独立
的
X
变量
和一些"Z“
变量
--这是我在建模练习
中
不需要
的
额外列。我想做
的
是:将该数据集分解为随机
训练
和
测试
集;使用该
模型
对
训练
集和
测试
集
浏览 0
提问于2015-02-28
得票数 1
回答已采纳
2
回答
图神经网络在不可见图拓扑上
的
推广失败
、
、
我使用PytorchGeometric来
训练
一个用于节点回归问题
的
图形卷积网络(图
模型
是传感器网络
中
的
物理现象;传感器网络实际上是分布在电网
中
的
测量网络(功率、电流、电压),而GNN
的
目标是预测图中
的
一些未测量
变量
训练
曲线看上去很好,损失曲线收敛
到
一个很小
的
值,没有爆炸或消失
的
梯度。 在
训练
集中
有1000个不同
浏览 0
提问于2021-06-10
得票数 1
1
回答
处理多个数据集
的
ML问题
的
方法是什么?
用不同参数、列和长度/宽度
的
多个数据集解决机器学习问题
的
方法是什么?其中只有一个有因
变量
。其余文件包含支持数据。
浏览 1
提问于2018-11-28
得票数 0
回答已采纳
1
回答
如何解决Python
中
的
开放集分类问题?
、
、
目的是预测物种标签用于
测试
训练
集中
表示
的
样本,
并
预测属标签用于
测试
未表示在
训练
集中
的
样本。给定
的
数据
变量
如下所示: __:这是一个大小为16128
的
列向量。这个
变量
包含
训练
集中
每个
昆虫实例
的
属级标签。你可以把它们想象成树中叶节点
的
父节点,其中叶节点是物种,父节点是属。所有<e
浏览 1
提问于2021-04-30
得票数 0
1
回答
Orange:如何确保相同
的
PCA同时应用于
训练
数据集和
测试
数据集?
在Orange
中
,我可以将数据集附加到PCA以进行降维。有没有一种方法可以在
测试
数据
的
训练
数据上运行PCA转换?
浏览 72
提问于2020-02-22
得票数 0
回答已采纳
3
回答
处理R
中
的
不平衡数据-错误消息
、
、
我正在尝试处理R
中
不平衡
的
数据集。我传递了
训练
和
测试
集
的
csv文件,我试图预测,但预测只对前10个实例运行。输出消息是:预测代码exit with value 1谢谢
浏览 1
提问于2016-03-15
得票数 0
1
回答
scikit学习
的
训练
-
测试
分离导致在
训练
数据
中
只有一个
唯一
值
的
特征
、
、
、
我正在尝试
训练
一个多元线性回归
模型
。我有一个名为'main‘
的
数据集。该数据
集中
类别
变量
很少。我简化了分类
变量
。假设虚拟后得到
的
列是A、B、C、D等。现在,当我试图在这个主数据集上运行
训练
测试
拆分时,这样获得
的
训练
数据集在其中一列
中
只有0值。我怎样才能克服这个问题。: df_train.columns[df_train.nunique() == 1] 结果是:Index
浏览 7
提问于2019-01-24
得票数 1
1
回答
分割数据时如何处理ID
变量
以进行机器学习?
、
、
特别是在基于home和one
的
变量
中有一个重复,这样我就可以尝试将所有的事件数据放到一个也是
唯一
的
一个观察
中
(例如= "average_speed_home“和"average_speed_away")我在几篇文章
中
读到,我应该保留这些
变量
用于数据分割,因为如果我不这样做,可能会产生偏差。但是,我拥有的ID
变量
并不是我在创建
模型
时真正想要包含
的
因素。具体来说,我在比赛
中
浏览 0
提问于2023-06-01
得票数 0
1
回答
由于特征不匹配而无法预测
、
、
、
、
我使用sklearn创建一个基于xlsx文件
的
逻辑回归
模型
。我从dataset
中
删除了一些目标和冗余特性。现在,我想对文件
的
每一行进行预测,
并
希望根据新
的
xlsx文件获取标签。“x
每个
样本有37个特征;预期为44个” 出什么问题了?谢谢你
的
暗示。
浏览 0
提问于2019-06-24
得票数 0
回答已采纳
2
回答
稀疏数据
的
logistic回归
、
我使用logistic回归
模型
进行一些预测分析。我们有大约25个预测
变量
和1个二元结果(Y/N)
变量
。我正在对结果为"Y“
的
概率进行建模。我
的
训练
数据
集中
有400,000条记录,评分
集中
也有相同数量
的
记录。
训练
集中
出现"Y“
的
概率为0.1%。SAS输出
的
模型
的
C统计量为0.97,这是非常好
的
浏览 0
提问于2014-03-05
得票数 2
1
回答
如何在字符串Javascript
中
增量
变量
、
、
基本上,我有一个.each循环,它
迭代
一些数据,
并
对数据
集中
的
每个
项附加一个span类
到
DOM。$('.selected_cont').append('<span class="' + classes + '"></span>'); 类只是上面的
变量
ive创造性
的
,它保存了我
迭代
的
数据
的
浏览 3
提问于2016-04-12
得票数 0
回答已采纳
1
回答
按组处理/评分
的
随机森林
、
、
、
、
我正试图用客户数据库建立一个预测
模型
。 我有一个有3000名客户
的
数据集。
每个
客户在
测试
数据
集中
有300个观察和20个
变量
(包括因
变量
)。我还有一个分数数据集,它有50个观察数据集,其中包含19个
变量
(不包括因
变量
),用于
每个
唯一
的
裁剪器ID。我将
测试
数据集放在一个单独
的
文件
中
,
每个
客户都通过一个
唯一<
浏览 1
提问于2014-03-23
得票数 0
回答已采纳
1
回答
Kaggle竞争:范畴
变量
、
、
在分类
变量
练习
中
,最后一部分是生成
测试
预测。我已经编写了以下代码,但得到了一个错误。我无法理解这个错误,为什么它说X有148个特征,随机森林期望155个特征。我
的
代码: # X_test.dropna(axis=0, inplace
浏览 11
提问于2022-07-04
得票数 -1
1
回答
从验证精度
到
测试
精度
的
显著下降
、
、
、
、
我一直在执行这样
的
验证: 根据我
测试
的
模型
浏览 0
提问于2019-08-11
得票数 3
2
回答
如何使用新(
测试
)数据重新创建相同
的
DocumentTermMatrix
、
、
、
、
假设我有基于文本
的
训练
数据和
测试
数据。更具体地说,我有两个数据集-
训练
和
测试
-它们都有一个列,其中包含文本,
并
对手头
的
工作感兴趣。 我使用R
中
的
tm package处理
训练
数据
集中
的
text列。在删除空格、标点符号和停用词之后,我对语料库进行了词干处理,最后创建了一个1克
的
文档术语矩阵,其中包含
每个
文档
中
单词
的
浏览 0
提问于2013-05-19
得票数 11
回答已采纳
1
回答
Logistic回归
训练
集
的
功能
、
我试图创建一个函数来
测试
在
训练
集上开发
的
logistic回归
模型
。train <- filter(y, folds != i)我希望能够为不同
的
数据集使用公式。例如,如果我要把y作为一个响应
变量
,例如在与生俱来
的
to数据
集中
的
“low”和x作为解释
变量
,例如“age", “race”,我将
如何将
这些参数实现<
浏览 3
提问于2014-11-10
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
数据分享|R语言决策树和随机森林分类电信公司用户流失churn数据和参数调优、ROC曲线可视化
怎样发现机器学习模型中的缺陷?
数据分享|用加性多元线性回归、随机森林、弹性网络模型预测鲍鱼年龄和可视化
用Python玩转统计数据:取样、计算相关性、拆分训练模型和测试
佐治亚大学:极端梯度提升和行为生物识别
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券