腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
2
回答
当
训练
和
测试
中
的
特征
数量
不
同时
,
如何
处理
生产
环境
中
的
One-Hot
编码
?
、
、
、
在做某些实验时,我们通常在70%上进行
训练
,在33%上进行
测试
。但是,当你
的
模型投入
生产
时会发生什么呢?该模型针对4个
特征
进行了
训练
。现在,某经销商只销售轿车
和
跑车:----------------------------------------------| 2 | 0 | 1 | | 3 | 1 |
浏览 6
提问于2018-07-25
得票数 5
1
回答
在python
中
,x.shape:(?,78)
和
x.shape:(?,1,78)有什么区别
、
在keras上实现LSTM时,将shape.x(None,78)
的
输入
one-hot
编码
转换为shape.x(None,1,78),但不确定为什么需要在keras中进行此转换。我正在查看以下DL课程
的
代码示例:LSTM_cell = LSTM(n_a, return_stateModel(inputs = [X,a0,c0],outputs = outputs) retu
浏览 0
提问于2020-04-08
得票数 0
2
回答
mlr3 -对新数据应用预
处理
、
假设我对用于
训练
Learner
的
训练
集应用了以下预
处理
preprocess <- po("scale", param_vals = list(center = TRUE, scale = TRUE))%>>% po("encode",param_vals = list(method = "
one-hot
")) 我想用predict(Learner, newdata =pred, predict_ty
浏览 32
提问于2020-10-06
得票数 0
回答已采纳
1
回答
火花: OneHot
编码
器
和
存储管道(
特征
尺寸问题)
、
我们有一个由多个
特征
转换阶段组成
的
流水线(2.0.1)。
当
训练
管道模型,并使用它来预测所有的工作良好。但是,存储经过
训练
的
管道模型并重新加载它会引起以下问题: 存储
的
“
训练
有素”OneHot
编码
器不跟踪有多少类别。加载它现在会引起问题:
当
加载模型用于预测时,它会重新
浏览 3
提问于2017-02-06
得票数 2
回答已采纳
3
回答
XGBoost/CatBoost
中
包含大量类别的分类变量
、
、
、
、
我有一个关于随机森林
的
问题。假设我有关于与项目交互
的
用户
的
数据。项目的
数量
很多,大约有10000个。我
的
随机森林
的
输出应该是用户可能与之交互
的
项目(比如推荐系统)。对于任何用户,我都希望使用一个功能来描述用户过去与之交互过
的
项目。然而,将分类产品
特征
映射为一次性
编码
似乎非常低效,因为用户最多与几百个项目交互,有时甚至只有5个项目。
当
输入
特征
之一是具有大约10,000个可能值
浏览 0
提问于2017-09-27
得票数 3
2
回答
在对机器学习
和
深入学习项目进行分析之前,我应该重组培训
和
测试
集吗?
、
、
、
、
我通过在机器学习
和
深度学习领域做项目来
训练
自己。为此,我向Kaggle竞赛(如 )注册。 当我们加载数据时,有两个数据集:火车
和
测试
。现在,我将对缺失
的
值进行估算,并执行一些预
处理
操作,因此,我将对数据使用一些聚合,对分类
特征
进行
编码
等等。但是,我不知道是否应该
同时
使用
训练
集
和
测试
集来计算这些
特征
的
平均值或标记,或者仅仅使用
训练
浏览 0
提问于2019-07-26
得票数 0
回答已采纳
2
回答
一个热门
编码
器什么是行业标准,在
训练
/拆分之前或之后进行
编码
、
我仍然对一个热门
的
编码
器感到有点困惑。我只是在想,如果我们在拆分之前进行
编码
,就不应该有任何“信息泄漏”到
测试
集中。那么,为什么人们提倡在
编码
之后进行
编码
呢?不是只用于将分类变量转换为二进制
的
热门
编码
器吗?我只是想知道什么是行业标准。 谢谢
浏览 0
提问于2019-11-28
得票数 1
2
回答
如何
修复此错误: ValueError:无法将字符串转换为浮点型:'A‘
、
、
、
我不确定
如何
摆脱这个错误。下面是我
的
示例数据集。我是不是还漏掉了什么步骤?
浏览 0
提问于2020-05-26
得票数 1
3
回答
为什么一种热
编码
可以提高机器学习性能?
、
、
、
我注意到,当在特定
的
数据集(矩阵)上使用一种热
编码
并用作学习算法
的
训练
数据时,与使用原始矩阵本身作为
训练
数据相比,它在预测准确性方面提供了明显更好
的
结果。这种性能提升是
如何
实现
的
?
浏览 6
提问于2013-07-04
得票数 132
回答已采纳
2
回答
在分类模型
中
处理
新
特征
、
、
我在ML
中
迈出了我
的
第一步,特别是文本情感分析
的
分类器。我
的
方法是进行通常80%
的
训练
数据集
和
20%
的
测试
。有了一个经过
训练
的
模型,
当
新
特征
出现(文本
中
的
新词没有出现在初始数据集中)时,在
生产
环境
中进行
的
最佳方式是什么?
浏览 19
提问于2017-08-08
得票数 0
3
回答
是否有可能在4个功能上
训练
数据,并仅使用功能进行
测试
?
、
、
、
我已经做了四个
特征
的
训练
,包括月,日,小时
和
温度,这是预测一些值,我想要做
的
是根据月,小时
和
第二天
的
天来预测值,因为我不知道第二天
的
温度(这将是看不见
的
数据,不会在
训练
中使用),所以这使得只使用3个
特征
来
测试
数据使用
的
分类器是SVR。我是机器学习
的
初学者。 感谢您
的
回复
浏览 0
提问于2020-02-19
得票数 0
2
回答
一次热
编码
后
测试
数据
的
预
处理
、
、
我在这里有点困惑,我有一个对所有<10个唯一值low_cardinality_cols
的
分类列进行了热
编码
,并删除了用于
训练
和
验证数据
的
其余分类列。现在,我
的
目标是将我
的
模型应用于test.csv
中
的
新数据。对
测试
数据进行预
处理
以匹配
训练
/验证格式
的
最佳方法是什么?我担心
的
是: 对于这些列,Test_data.csv当然会有不
浏览 7
提问于2019-12-23
得票数 2
回答已采纳
2
回答
scikit了解SelectPercentile TFIDF数据
特征
缩减
、
、
、
我使用scikit-learn
中
的
各种机制来创建由文本
特征
组成
的
训练
数据集
和
测试
集
的
tf-idf表示。这两个数据集都经过预
处理
,以使用相同
的
词汇表,因此
特征
和
特征
的
数量
是相同
的
。我可以在
训练
数据上创建一个模型,并在
测试
数据上评估其性能。我想知道,如果我在转换后使用Select
浏览 0
提问于2015-04-01
得票数 2
1
回答
处理
多个分类输入
和
可变大小
的
组作为神经网络
的
输入
、
、
、
、
我正在
处理
由数字
和
分类
特征
组成
的
数据,其中每个输入都由一组可变大小
的
特征
组成。例如:通过使用房子
中
每个房间
的
特征
来预测房子
的
价格,每个房子可以有不同
数量
的
房间。
特征
可以是米
的
大小,类型(如客厅/浴室/卧室),颜色,地板...一些分类
特征
具有很高
的
基数,我可能会使用许多
特征
。
浏览 3
提问于2019-07-31
得票数 2
1
回答
列车验证
和
测试
集(
生产
数据)
中
的
一个热点
编码
、
、
、
、
1002 Sam 1204 Sam 140经过一次热
编码
后Danny
测试
数据,这是name
中
的
一个新级别。values1 Danny 2103 Tony 180经过一次热
编码
后220 0 0 1 0 3
浏览 2
提问于2021-04-01
得票数 3
回答已采纳
2
回答
处理
具有监督比率
和
证据权重
的
高基数
特征
、
问题是,这些supervised_ratio
和
灾难都是根据
训练
集来计算
的
,对吧?因此,我得到
训练
集并
处理
它,计算SR
和
灾祸,用新
的
值更新
训练
集,并将计算值保留在
测试
集中。但是,如果
测试
集有不属于
训练
集
的
邮政
编码
,会发生什么呢?
当
没有SR或悲哀
的
价值可以使用?(实际上,如果培训数据集没有涵盖所有可能
的
邮政
浏览 7
提问于2017-09-09
得票数 2
回答已采纳
1
回答
SVM CV误差随着
特征
个数
的
增加而减小,但存在过拟合问题。为什么?
、
我
的
数据集大约是700个向量,相当不平衡,大约20%是正面的:80%是负面的。我使用了几种
特征
评级算法,例如libsvm
中
的
boruta或fselect.py来构建范围
特征
排序列表,然后从该列表中选择一些顶级
特征
。问题是,当我采用更多
的
特征
时,AUC值变得相当高(
特征
越多,AUC值越
浏览 0
提问于2019-10-03
得票数 0
1
回答
在未见数据上实现sklearn
的
FeatureHasher
、
、
、
我已经在我
的
初始
训练
集上
训练
了一个XGBoost分类器,它被转换成每个分类
特征
被散列为log (x )维(x是每个
特征
中
唯一
的
因子级别的数目)。我将对每日提取
的
索赔数据进行散列,这些数据具有相同
的
哈希维度,因此,在对模型进行培训
的
特征
数量
与每日提取
的
特征
数量
之间没有差异,允许我使用经过
训练
的
模
浏览 0
提问于2020-04-27
得票数 0
2
回答
如何
从WEKA获取结果
、
、
我了解
如何
使用WEKA,我首先将arff加载到创建Instances
的
程序
中
。然后,这些数据将被提供给已在此数据集上
训练
的
Classifier。现在,我想给它一个没有标签
的
新
测试
数据集,并让WEKA API告诉我该实例
的
标签是什么或可能是什么。这是怎么做到
的
呢?
浏览 0
提问于2012-04-20
得票数 0
回答已采纳
1
回答
Kaggle竞争:范畴变量
、
、
在分类变量练习
中
,最后一部分是生成
测试
预测。我已经编写了以下代码,但得到了一个错误。我无法理解这个错误,为什么它说X有148个
特征
,随机森林期望155个
特征
。我
的
代码: # X_test.dropna(axis=0, inplace
浏览 11
提问于2022-07-04
得票数 -1
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
云直播
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券