腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
对
Dataframe
中
的
特征
进行
编码
(
包括
数字
和
非
数字
)
、
、
、
、
我想
对
同时包含
非
数字
和
数字
信息
的
特征
进行
编码
。这是我
的
代码from sklearn import preprocessing dictionary = {'Values':['Y','N','Y','N',99,'N'],'AGE':[23,24,12,-
浏览 26
提问于2019-07-22
得票数 0
回答已采纳
1
回答
对分类要素
进行
编码
以在KMeans聚类中使用
、
、
我有一个包含
数字
和
分类
特征
(
非
数字
)
的
数据集,而分类
特征
可以有许多值(无限制)。我需要转换这些数据以形成一个KMeans集群模型。目前,我已经在训练过程中使用python函数将所有
非
数值型数据
编码
为数值型格式,并在测试过程中使用同一函数
对
非
数值型数据
进行
编码
。下面的代码是我用来
编码
非
数字
特征
<
浏览 2
提问于2019-07-23
得票数 2
4
回答
分类
编码
前后
的
标准化?
、
、
、
、
我正在研究一种回归算法,在这种情况下,k-NearestNeighbors可以预测某个产品
的
价格。 所以我有一个训练集,它只有一个分类
特征
和
4个可能
的
值。我已经使用了一
对
k分类
编码
方案来处理它,这意味着现在我
的
Pandas
DataFrame
中
还有3列,其0/1取决于当前值。
DataFrame
的
其他
特征
主要是位置
和
价格
的
纬度-经度等距离
浏览 0
提问于2017-11-13
得票数 8
回答已采纳
2
回答
基础:为ML准备简单数据
的
正确顺序是什么?
、
、
我刚刚开始与ML和我
的
第一次Kaggle比赛(泰坦尼克号)。我只是想知道用以下步骤组织数据以避免冗余
的
最佳方法是什么:数据缺口
的
核算(估算)将数据拆分为培训
和
验证集 然后
对
模型
进行
拟合
和
预测。我
的
主要问题是,在对数据
进行
编码
之前,是否最好先
进行
拆分,还
浏览 0
提问于2018-08-09
得票数 0
1
回答
是否有任何方法在
dataframe
列
中
编码
非
数字
值?
、
、
、
、
我有一个
dataframe
,它
包括
数值
和
非
数字
值(它
包括
一些特殊
的
字符,如-、空格等)。我想
编码
这个
非
数字
值来运行corr()。
非
数字
列名,例如:'Department','Location‘等。但它显示了一个TypeError;我使用了这个代码:
浏览 7
提问于2022-09-15
得票数 0
1
回答
one-hot
编码
会导致功能不均衡
的
问题吗?
、
、
、
、
我们知道,在数据挖掘
中
,我们经常需要对分类
特征
进行
一次性
编码
,因此,一个分类
特征
将被
编码
为几个"0/1“
特征
。有一个特例让我感到困惑:现在我
的
数据集中有一个分类
特征
和
一个
数字
特征
,我将分类
特征
编码
为300个新
的
"0/1“
特征
,然后使用MinMaxScaler对
数字
浏览 2
提问于2018-12-03
得票数 0
1
回答
布尔
特征
是标准化
的
还是假
的
是-1还是0?
、
我试图从一组
数字
和
分类
的
特性
中
训练支持向量机,例如:距离Y(
数字
)单词1 Bold (布尔)字1字体大小(
数字
) ..。对于将特性映射到
特征
数组,我将true视为1,false为0,然后使用Z-分数
对
整个功能数组
进行
规范化。我是否应该
对
false as -1
进行
编码
,
浏览 0
提问于2017-09-06
得票数 5
1
回答
跟踪Crisp-DM时,何时对分类数据
进行
一次热
编码
、
、
我有一个数据集,其中包含15个分类
特征
(2
和
3个级别因素,这是不序数)
和
3个连续
的
数字
特征
。鉴于大多数机器学习算法都需要将
数字
数据作为输入
特征
,并且实际上自动地
对
其
进行
一次性
编码
(随机森林、glmnet等),那么在数据预处理过程
中
不应该执行一次热
编码
来探索
编码
特征
数据之间
的
关系吗?还是最好先探索原始分类数据之间
浏览 0
提问于2020-07-31
得票数 5
回答已采纳
2
回答
RNN时间序列预测包含
非
数值
特征
和
数字
特征
的
多个
特征
?
、
、
多
特征
神经网络
的
问题是模棱两可
的
,在区分不同
的
特性方面没有明确
的
区别。我想了解如何使用RNN预测时间序列
的
多个
特征
,
包括
非
数字
数据,以及。作为一种深度学习模型,我假设我不需要量化
非
数字
元素。我已经找到了一些演示,比如这里,关于在数值数据中使用RNN,而不是用
非
数字
数据来丰富数据。如何预测包含
数字
特征
<e
浏览 0
提问于2017-08-17
得票数 5
1
回答
非
序数变量
的
kNN
、
、
kNN是一种基于距离
的
方法,因此它要求输入为数值形式.使用顺序
编码
似乎不是个好主意。如果我们将
数字
1-10分配给颜色,那么基于距离
的
度量将假设颜色1
和
3之间
的
距离与颜色2
和
4之间
的
距离
浏览 0
提问于2021-03-29
得票数 2
1
回答
ECMA-404
的
发布是否影响了JSON文本
的
有效性,如“2”或“hello”?
、
这是基于
中
对
JSON格式
的
描述,其中指出: JSON文本是一系列标记。这组标记
包括
六个结构字符、字符串、
数字
和
三个文字名称。以下是六个结构
特征
: 然而,RFC-4627状态声明它“没有指定任何类型
的
因特网标准”。相反,JSON
的
官方标准是最近发布
的
。与RFC-4627不同,EC
浏览 3
提问于2013-10-24
得票数 20
1
回答
将数据
的
所有值存入熊猫
的
百分位数
、
、
、
、
我有一个包含所有
数字
列
的
dataframe
:import numpy as npdf = pd.
DataFrame
(np.random.randn(10, 2), columns=['A', 'B']) 我想要创建
包括
A
和
B
的
所有值
的
公共分位数。这两种方法都有一些缺失
的
值。一旦创建了公共分位数,我想在
d
浏览 2
提问于2016-06-22
得票数 1
回答已采纳
1
回答
(无法将字符串转换为浮点型)使用knn算法时出错
、
、
、
Error Data type of columns 属于对象类型
的
数值列是当我尝试在没有它们
的
情况下拟合时给出错误原因
的
那些列,然后它就可以工作了。如何转换它们
浏览 31
提问于2019-12-24
得票数 0
回答已采纳
3
回答
如何在使用一次热
编码
后获得原始
特征
名
、
、
、
如何从scikit返回
的
feature_importances_ (学习DecisionTreeClassifier() )
中
获得按降序排列
的
功能名称?问题是分类器
的
输入特性不是原始
特征
,而是来自熊猫
DataFrame
get_dummies
的
数字
编码
特征
。 例如,我从UCI存储库获取蘑菇数据集。数据集中
的
特性
包括
- cap_shape、cap_surface、cap_color、
浏览 0
提问于2018-04-29
得票数 3
1
回答
仅对
dataframe
中
的
非
数字
列
进行
编码
、
我有一个包含数值
和
非
数值列
的
dataframe
。我只想
对
非
数字
列
进行
编码
,并保持
数字
列
的
值不变。当我尝试用我
的
代码
编码
时,它会对所有列
进行
编码
。下面是我
的
python代码from sklearn.ba
浏览 1
提问于2019-02-06
得票数 1
2
回答
使用列变压器
的
MinMax定标器(变换后
的
列向前移动)
、
、
、
、
我试图建立一个模型
的
房价-先进回归技术数据集(1460,80)。它有37个
数字
特征
和
43个分类
特征
。这是我
的
密码 columns_transform_sc=make_column_transformer((MinMaxScaler()
浏览 5
提问于2021-05-09
得票数 0
回答已采纳
12
回答
用其他一些整数
进行
编码
、
、
、
输入一个
非
空
的
正整数数组(大于0) .输出另一个
非
空
的
正整数数组,
对
输入数组
进行
编码
。输出数组不使用输入数组中使用
的
任何
数字
。输出数组不应包含输入数组中使用
的
任何
数字
。输入
和
输出数组都可能包含重复
的
数字
。 它应该能够从输出数组
中</em
浏览 0
提问于2022-01-05
得票数 16
1
回答
如何解释one-hot
编码
用于决策树后
的
特征
重要性
、
、
我知道决策树有基尼系数计算
的
feature_importance属性,它可以用来检查哪些
特征
更重要。但是,对于scikit-learn或Spark
中
的
应用程序,它只接受
数字
属性,所以我必须将字符串属性转换为
数字
属性,然后
对
其
进行
one-hot
编码
器。当
特征
被放入决策树模型时,它是0-1
编码
的
,而不是原始格式,我
的
问题是,如何解释原始属性
的
浏览 2
提问于2016-10-14
得票数 11
2
回答
为LDA pca保留csv要素标签
、
、
、
我正在尝试使用
的
2000个主题
的
前20个频率数据但是,这不是以下行
的
正确格式sklearn.decomposition.RandomizedPCA(n_components=45) pc
浏览 76
提问于2018-12-07
得票数 1
1
回答
Spark - Naive贝叶斯分类器值错误
、
labels.toArray(), pi.toArray(), numpy.array(theta))当使用这一行训练模型时model = NaiveBayes.train(
dataframe
, 1.0) 但是,如果我使用一个
数
浏览 0
提问于2015-04-22
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何在数字时代中更方便地进行支付和交易:数字支付和加密货币的应用和发展
三迭纪成森平:数字化对医学和药学的全面升级,能让人们在家进行医疗
机器学习100天:第1天
机器学习中的独热编码
pandas系列学习(三):DataFrame
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券