腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
对
大量
分类
特征
进行
编码
的
最佳
方式
是什么
?
、
、
、
、
我正在尝试制作一个小型
的
数据科学工具(有点像WEKA
的
迷你版)。现在,我有了这些具有
大量
特征
(70-100+)
的
数据集,它们大多是
分类
的
。我正在使用Python sklearn
进行
机器学习逻辑,我需要根据我得到
的
sklearn错误将这些类别转换为数字值。 考虑到这一点,一次热
编码
不是一个选择,因为它会放大太多
的
维度。我已经研究了其他可能
的
方法,比如频率
编码
,标签<
浏览 24
提问于2021-04-21
得票数 0
1
回答
在聚类数据时,
对
特性
进行
编码
的
最佳
方法
是什么
?
、
、
、
、
我有一个具有数字和
分类
特征
的
数据集。我正在尝试运行一个k均值算法来查找数据簇。我一直在做一个热
编码
,但我想它可以很容易地改进。
浏览 0
提问于2019-12-19
得票数 0
1
回答
在机器学习中
对
大数据集中
的
分类
数据(URL)
进行
编码
的
最佳
方法?
、
、
、
、
我有一个很大
的
数据集,其中一个
特征
是
分类
(名义)命名
的
URL,它包含不同
的
URL。一百万行中有500多个不同
的
URL。 对此
分类
特征
进行
编码
的
最佳
方式
是什么
,以便将
编码
后
的
特征
传递给Logistic回归模型?我尝试过使用sklearn中
的
标签
编码
,但它不能很
浏览 11
提问于2019-07-06
得票数 0
1
回答
为无监督学习
编码
分类
数据
、
、
在无监督学习中,
分类
数据
的
最佳
编码
器
是什么
? 我在混合数据(如K-均值)上使用无监督
的
学习。在运行无监督算法之前,我使用FAMD (用于混合数据
的
PCA)对数据
进行
降维,这使我能够获得坐标并减少数据集
的
维数。FAMD需要一个热
编码
(又名Dummies变量),它基于SVD.如果维数很高,SVD可能会非常耗时,当我有
大量
模式
的
范畴变量时,这就是我
的
情况。因此,我正在寻
浏览 0
提问于2022-12-02
得票数 1
1
回答
在CatBoost基准测试中,使用了什么样
的
预处理来
编码
分类
变量?
、
由于XGBoost只能接受数字
特征
,所以CatBoost和XGBoost之间
的
比较需要对
分类
特征
进行
共同
的
预处理。我并不完全清楚在基准测试中使用了什么样
的
预处理来
编码
分类
特性,以及不使用简单
的
一种热
编码
的
理由。 在
浏览 3
提问于2019-01-13
得票数 1
1
回答
sklearn将多个
分类
列标签
编码
器序列化到磁盘
、
、
、
、
我有一个带有几个
分类
特征
的
模型,需要转换为数字格式。我正在使用和
的
组合来实现这一点。一旦投入生产,我需要对新传入
的
数据应用相同
的
编码
,然后才能使用模型。我已经使用将模型和
编码
器保存在磁盘上。这里
的
问题是,LabelEncoder只保留最后一组类(对于它
编码
的
最后一个
特征
),因此它不能用于
编码
新数据
的
所有
分类
特征
浏览 1
提问于2020-05-17
得票数 2
1
回答
如何按
分类
顺序处理多源能源
的
时间序列?
、
、
我想
对
多源能源(风能/太阳能/teg)
进行
分类
,并在时间序列数据中加以说明。我
的
问题是: 1-最相关
的
特征
是什么
,我应该选择做
分类
(统计
的
(kurtoisis/意思/方差.)对于每个滑动窗口(用于实验)或光谱窗口(DWT/FFT),在这种情况下,
特征
选择/提取方法是最好
的
。2-我应该选择
的
最佳
分类
浏览 0
提问于2017-04-11
得票数 1
回答已采纳
3
回答
从scikit-learn中
的
one-hot-encoding回溯
分类
特征
?
、
、
、
、
我使用scikit learn中
的
OneHotEncoder,使用one-hot of-K方案
对
我所有的
分类
整数
特征
进行
了
编码
。根据结果,实际影响预测模型
的
参数只有51个。我想研究这些参数,但它们
的
编码
方式
如上所述。你知道如何提取哪个
分类
整数
特征
对应哪个热
编码
数组吗?谢谢!
浏览 0
提问于2015-11-28
得票数 0
2
回答
使用scikit-learn
对
大数据集
进行
一次性
编码
、
我有一个很大
的
数据集,我计划
对
其
进行
逻辑回归。它有很多
分类
变量,每个变量都有数千个
特征
,我计划
对
这些
特征
使用一个热
编码
。我将需要以小批
的
方式
处理数据。我
的
问题是,如何确保在第一次运行期间,一个热
编码
可以看到每个
分类
变量
的
所有功能?
浏览 0
提问于2014-07-26
得票数 2
1
回答
one-hot
编码
会导致功能不均衡
的
问题吗?
、
、
、
、
我们知道,在数据挖掘中,我们经常需要对
分类
特征
进行
一次性
编码
,因此,一个
分类
特征
将被
编码
为几个"0/1“
特征
。有一个特例让我感到困惑:现在我
的
数据集中有一个
分类
特征
和一个数字
特征
,我将
分类
特征
编码
为300个新
的
"0/1“
特征
,然后使用MinMaxScal
浏览 2
提问于2018-12-03
得票数 0
1
回答
如何处理具有不同基数
的
多个范畴变量?
、
、
我正在处理我在kaggle上找到
的
一个自动数据集。除了马力、车长、汽车重量等数值外,它还有多个
分类
变量,如:我想使用随机森林
分类
器来执行
特征
选择,并将所有这些变量作为输入。我知道,在这样做之前,必须对
分类
变量
进行
编码
。处理这些变化基数
的
数据
的
<em
浏览 3
提问于2022-02-03
得票数 1
2
回答
为什么连续
特征
在决策树模型中比
分类
特征
更重要?
、
、
、
、
我
的
预测模型中既有
分类
特征
,也有连续
特征
,我希望选择(和排序)最重要
的
特征
。 我使用一个热
编码
将所有的
分类
变量转换为虚拟变量(为了更好地解释我
的
logistic回归模型)。一方面,我使用LogisticRegression (sklearn),并通过使用它们
的
系数
对
最重要
的
特征
进行
排序。通过这种
方式
,我将
分类
变
浏览 0
提问于2020-01-15
得票数 9
回答已采纳
1
回答
数据集
的
编码
和缩放特性
、
、
我有一个带有非序数
分类
特征
的
数据集。在训练机器学习模型(线性SVC)之前,转换它们(
编码
+缩放)
的
最佳
方法
是什么
?标签
编码
-这是有效
的
。但是缩放没有意义,因为特性中
的
不同类别没有任何特定
的
顺序。 One--热
编码
--特性中有上千种独特
的
类别,这使得ML模型通过创建数千列而变得复杂。计数
编码
--我
的</e
浏览 0
提问于2020-11-26
得票数 0
1
回答
在未见数据上实现sklearn
的
FeatureHasher
、
、
、
一直是
对
所有这些信息
进行
编码
的
有用工具。我计划使用经过训练
的
模型
对
新
的
/未见
的
索赔数据
进行
预测,这些数据将在每天
的
基础上
进行
评分。我将对每日提取
的
索赔数据
进行
散列,这些数据具有相同
的
哈希维度,因此,在对模型
进行
培训
的
特征
数量与每日提取
的
特征
数量之间
浏览 0
提问于2020-04-27
得票数 0
1
回答
如何处理包含名义数据
的
目标变量?
、
、
、
、
我正在做一个NLP项目,它
的
目标变量包含七个独特
的
句子,它们是“鼓舞人心
的
和发人深省
的
",”信息性
的
“,”感谢和欣赏“和其他4个。至于我
的
理解,目标变量,因为我们不能建立他们之间
的
定量比较。所以我
的
问题是,
对
这些变量
进行
编码
的
最佳
方式
是什么
?如果我使用一个热
编码
对
其
进行</e
浏览 11
提问于2020-12-18
得票数 1
回答已采纳
1
回答
如何处理最新
的
星火随机森林
的
分类
特征
?
、
、
、
、
在随机森林
的
Mllib版本中,有可能用参数categoricalFeaturesInfo指定具有名义
特征
(数值但仍然是绝对变量)
的
列,那么ML随机森林
是什么
呢?在用户指南中,它使用VectorIndexer来转换向量中
的
分类
特征
,但是它被写成“自动识别
分类
特征
,并
对
它们
进行
索引” I发现,在随机森林中,数字索引无论如何都被视为连续
的
特性,因此建议
进行
一次热<em
浏览 1
提问于2017-10-15
得票数 6
回答已采纳
2
回答
在机器学习中,如何在数字和
分类
特征
上使用统一
的
管道?
、
、
想要运行
编码
器上
的
分类
特征
,输入(见下文)上
的
数字
特征
,并将它们统一在一起。例如,具有
分类
特征
的
数字: 'A' : ['ios', 'android', 'web', 'NaN'],13 NaN
浏览 0
提问于2019-02-12
得票数 2
回答已采纳
1
回答
在决策树中处理标称类别
特征
、
、
、
、
我一直在阅读一些关于如何处理决策树(sklearn实现)
的
标准特性
的
堆栈溢出问题。其中一个答复指出:那么,OneHotEncoding
的
优势
是什么
呢?
浏览 0
提问于2021-05-24
得票数 1
回答已采纳
1
回答
属性
的
特征
缩放
、
、
、
我使用两个要素来训练
分类
模型,例如要素A和B。要素A比要素B更重要。要素A具有序数数据,因此我
对
其
进行
了标注
编码
,其值范围为1到5。要素B也是
分类
要素,并且在标注
编码
后
对
其
进行
了热
编码
由于上述
编码
,
特征
A具有从1到5
的
值,而
特征
B具有多列,并且每个列值要么为0,要么为1。现在,在我
的
模型训练之后,我
的
模型过于偏向于
特征
浏览 26
提问于2020-01-03
得票数 1
1
回答
理解计算机视觉conv网中滤波器
的
概念
、
、
、
我正在尝试理解计算机视觉
的
卷积网络中
的
过滤器
的
概念。我知道它们是做什么
的
,例如,它们可以用来降低输入图像
的
维度,等等。我
的
问题是这些过滤器是从哪里来
的
?:])) 其中64是我想要应用于输入
的
过滤器
的
数量...但是,Keras或任何其他库如何确定过滤器矩阵将包含哪些数字?现在,如果我想要检测整个图像
的
边缘,我指的是物体
的
轮廓,以检测图像是笔记本电脑还是手机,这在卷积网络中是如何发生
的
浏览 5
提问于2019-04-02
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
机器学习总是踩雷?实例教你避开陷阱
图像物体分类与检测算法综述
python二分类模型精度低怎么办
谈论图像识别时在谈论什么?
进行机器学习和数据科学常犯的错误
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券