腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
对
许多
分类
变量
进行
编码
、
、
我有1000万个
分类
变量
(每个
变量
有3个类别)。
对
这1000万个
变量
进行
编码
以训练深度学习模型的最佳方法是什么?(如果我使用一个热
编码
,那么我最终将拥有3000万个
变量
。此外,只有一个输出的嵌入层没有任何意义(它类似于整数
编码
,并且这些类别之间没有顺序),而有两个输出的嵌入层也没有太大区别。通常,当类别数较多时,我们使用嵌入层)。请给我你的意见。
浏览 6
提问于2020-10-17
得票数 0
1
回答
转换一些
变量
而不是其他
变量
是很好的做法吗?
、
、
、
我有一个数据集,其中包含
编码
为数值的
分类
变量
、其他连续且有
许多
异常值的
变量
,以及具有相当正态分布的其他连续
变量
。我正计划使用sklearn预处理方法.PowerTransformer来
对
所有这些列
进行
转换,但也许只对那些没有正态分布的列和
许多
异常值使用它可能更有意义?这是一个
分类
问题(泰坦尼克号机器学习问题)。
浏览 0
提问于2021-02-21
得票数 1
回答已采纳
1
回答
LabelEncoding a Dataframe
我有一个包含整数
变量
和
分类
变量
的数据。是
对
所有
变量
(整数
变量
和范畴
变量
)
进行
标记
编码
,还是只对
分类
功能
进行
编码
?
浏览 0
提问于2019-01-31
得票数 -1
回答已采纳
2
回答
使用虚拟值会使模型的性能更好吗?
、
、
我看到
许多
特征工程在对象特征上都有get_dummies步骤。例如,将包含'M‘和'F’的性别列虚拟为两列,并在单热表示中标记它们。为什么我们不在性别栏中直接将'M‘和'F’设为0和1?虚拟方法在
分类
和回归模型中
对
机器学习模型都有积极的影响吗?如果是,原因是什么?谢谢。
浏览 2
提问于2016-12-02
得票数 0
2
回答
python中"Lasso“的输入可以包含
分类
变量
吗?
、
、
我不确定输入观测矩阵X是否可以包含
分类
变量
。我从这里阅读了说明:model = Lasso(fit_intercept=False, alpha=0.01)在上面的代码中,X是一个大小为n-x-p的观测矩阵,p个
变量
中的一个可以是
分类
类型吗
浏览 0
提问于2019-11-16
得票数 2
1
回答
CatBoost后提取
编码
特征
、
、
我有一个包含数字
变量
和
分类
变量
的数据集。 在我将数据集与CatBoostClassifier相匹配之后,我希望提取整个特征集,并使用
分类
器决定
对
它们
进行
编码
的任何方法中
编码
的
分类
变量
。如何提取完全转换(
编码
)特性?(类似于fit_transform方法返回的内容)
浏览 0
提问于2020-02-05
得票数 5
回答已采纳
2
回答
如何使用Excel文件中给出的字典方案在Pandas DataFrame中
编码
分类
值?
、
、
我有一个带有键属性和其他
分类
属性的Pandas DataFrame。如何使用此excel文件中的“字典”对
分类
属性
进行
编码
?我希望
对
每个
分类
变量
进行
编码
,例如,通过在excel文件的“variable”列中查找ACGB03A,并从“value”列中获取相应的整数值,从而从DataFrame中
对
它
进行
编码
。“‘VARIABLE”是关键,“Value Scheme details”给出
浏览 11
提问于2022-02-10
得票数 0
回答已采纳
1
回答
h2o测试集中的
分类
编码
、
我有几个
分类
变量
,并在h2o.gbm函数中使用选项categorical_encoding
对
这些
变量
进行
编码
。 在处理测试集中的预测时,我如何处理
分类
变量
?似乎predict函数没有自动
编码
分类
变量
的选项。
浏览 0
提问于2018-09-18
得票数 0
1
回答
替代一种热
编码
任何地方都建议使用一种热
编码
,但我想做一些其他的事情,使我的电影向量的长度变小。我听说过整数
编码
,但我从未见过它的例子,也没有建议过它。我是个新手,
对
这个话题不太熟悉。
浏览 0
提问于2021-04-27
得票数 1
1
回答
用于PCA的单尺度热
编码
变量
、
、
我有混合了连续
变量
和
分类
变量
的数据。我计划对
分类
变量
进行
一次性
编码
,缩放数据集(mean=0,std=1),然后执行主成分分析以减少维数。我需要知道在做PCA之前,我是否也应该
对
单热点
编码
变量
进行
类似的缩放?为此,我将使用python scikit-learn包。
浏览 0
提问于2018-05-22
得票数 2
1
回答
如何处理最新的星火随机森林的
分类
特征?
、
、
、
、
在随机森林的Mllib版本中,有可能用参数categoricalFeaturesInfo指定具有名义特征(数值但仍然是绝对
变量
)的列,那么ML随机森林是什么呢?在用户指南中,它使用VectorIndexer来转换向量中的
分类
特征,但是它被写成“自动识别
分类
特征,并
对
它们
进行
索引” I发现,在随机森林中,数字索引无论如何都被视为连续的特性,因此建议
进行
一次热
编码
以避免这种情况我还注意到,当
分类
列中有
许多
类别(>1000)时,一旦
浏览 1
提问于2017-10-15
得票数 6
回答已采纳
1
回答
带范畴
变量
的线性回归
、
、
、
、
我目前正在学习和探索机器学习,并了解基于两个数值
变量
的线性回归的基础知识,但现在我希望更进一步,并需要一些指导,了解如何去做。具体来说,我现在正在学习关于线性回归的范畴
变量
,我理解它的要点:我们只是将范畴
变量
编码
成某种数值表示形式(比如一种热
编码
),并将其放入模型中。太棒了。虽然网上有很多关于如何做各种
编码
方法的指南,但我还没有找到一个资源来解释这种方法的用例:在何种情况下使用
分类
数据来预测一个数值是有用的? 在
进行
编码
之前,我应该使
浏览 0
提问于2021-04-10
得票数 1
2
回答
范畴值的虚拟
变量
、
、
、
许多
人都做过类似的特征提取, 他们已将一些数字特征(年龄、费用)转换为使用带的标号(1、2、3)的
分类
类型。如果我们有
分类
值形式的所有特征,那么
对
模型的有效拟合有帮助吗?我一直知道,如果你有范畴值,你应该首先把它们转换成数字,而不是虚拟
变量
。但在解决方案中,它是不做的,是不是不需要假人呢?
浏览 0
提问于2018-08-28
得票数 2
5
回答
在训练和测试数据中保持相同的虚拟
变量
、
、
、
、
培训数据包含数字类型的
分类
变量
,例如邮政
编码
,91521,23151,12355,.,以及字符串
分类
变量
,例如,城市“芝加哥”,“纽约”,“洛杉矶”,.为了训练数据,我首先使用“pd.get_dummies”来获取这些
变量
的虚拟
变量
,然后用转换后的训练数据
对
模型
进行
拟合。 我
对
我的测试数据
进行
同样的转换,并使用经过训练的模型来预测结果。Model n_features is 1487 and in
浏览 13
提问于2016-12-26
得票数 47
1
回答
忽略GLM中的h2o因子
当您对
分类
变量
进行
一次性
编码
时,通常会在建模之前删除其中一个
变量
。这样,您就没有一个与其他特性线性相关的冗余特性。 是否有一种方法可以指定不应该用于拟合的范畴
变量
的级别?:“我们强烈建议避免
对
任意级别的
分类
列
进行
一次热
编码
,因为这样做效率很低,对于习惯于为其他框架手动扩展
分类
变量
的用户来说尤其如此。
浏览 4
提问于2018-02-23
得票数 1
回答已采纳
1
回答
可以将PCA应用于部分数据集吗?
、
、
、
、
我正在使用kaggle数据集,它有超过130个特征,包括116个
分类
和14个连续特性。我绘制了14个连续
变量
的热图,发现它们大多与响应
变量
弱相关,但高度相关。我试图将PCA应用于数据的这一部分,并将它们作为列与
分类
变量
结合在一起。这样做可以吗?或者我是否应该对
分类
变量
进行
一次热
编码
/标签
编码
,并
对
整个数据集
进行
pca?
浏览 0
提问于2019-03-20
得票数 1
回答已采纳
2
回答
寻找数字
编码
的
分类
变量
之间的相关性?
、
、
、
所以我有一个包含
分类
变量
的数据集。我已经根据类别x的数量从0:x
对
每个类别
进行
了
编码
。我试图找到
变量
(数字和
分类
)与目标
变量
(也是
分类
变量
,但已
编码
为0表示否,1表示是)之间的相关性。我已经能够
对
所有
变量
(大约有17个)运行此代码,它似乎确实起作用了,但我质疑相关性是否正确。我以前没有在我的数据集中计算过与
分类
变量
的相关性,只想
浏览 2
提问于2017-11-16
得票数 0
3
回答
使用连续
变量
和
分类
变量
混合处理数据集
、
、
当一些自
变量
是
分类
的而另一些自
变量
是连续的时,机器学习算法和预处理的选择如何变化?这样的数据能直接应用到使用一次热
编码
转换
分类
数据的算法中吗?更新:不知道连续
变量
的理想桶。
浏览 0
提问于2019-02-22
得票数 4
2
回答
使用虚拟
变量
进行
多个
分类
变量
的机器学习
、
、
我希望使用Python
对
一些拥有大量
分类
变量
的数据
进行
多元线性回归或Logistic回归。我知道,有一个范畴
变量
,我需要把它转换成一个虚拟,然后移除一种类型的虚拟,以避免冒充,然而,是否有人熟悉在处理多个类型的范畴
变量
时应该采取什么方法? 我
对
每个人都做同样的事吗?例如,将每种类型的记录转换为一个虚拟
变量
,然后为每个类型删除一个虚拟
变量
,以避免冒充?
浏览 7
提问于2017-05-24
得票数 1
回答已采纳
2
回答
处理有超过2000列的数据集的
编码
、
每当我们有需要预处理的数据集时,在将其输入到模型之前,我们会将
分类
值转换为数值值,通常使用LabelEncoding、一种热
编码
等技术,但所有这些都是手动遍历每一列的。但是,如果dataset在列方面是巨大的(例如: 2000列),这里不可能手动遍历每一列,在这种情况下,我们如何处理
编码
? 是否有处理
变量
自动
编码
的特定库?我知道category_encoders,它提供了不同的
编码
技术,但我们如何在上述条件下做到这一点。
浏览 0
提问于2020-11-05
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
one-hot encoding不是万能的,这些分类变量编码方法你值得拥有
如何有效对电脑文件夹进行分类?
AI知识地图:如何对AI技术进行分类
利用 AWS SageMaker BlazingText 对不均衡文本进行多分类
《使用一种新的算法对肝脏数据进行分类》
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券