腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
关于
使用
pandas
的
分类
特征
的
问题
pandas
我对熊猫中
的
分类
变量有一点困惑。我
的
问题
是,如果我已经设法通过以下方式扩展了我
的
df中需要
的
特性 cat1 cat2 cat3 1 0如果df['cat1'].dtype是int64 (对其他人也是一样),它们会通过运行一些机器学习算法自动被视为
分类
特征
吗?或者,我是否需要对它们执行一些转换,才能明确地将其视为类别?
浏览 10
提问于2021-11-18
得票数 0
回答已采纳
1
回答
利用
Pandas
选择滑雪板数据集
的
分类
/离散
特征
和数值
特征
python
、
pandas
、
numpy
、
scikit-learn
、
data-mining
我无法识别“
分类
/离散”
的
特征
。我想要这样做,然后计算出
分类
特征
的
每个值
的
频率。同样地,我想最终发现并
使用
所有的数字
特征
。 在这个来自sklearn
的
数据集中,哪些
特征
是
分类
的
/离散
的
?我知道可以
使用
dtype,但这不包括
分类
或不包括,因为数字->
分类
是可能
的
浏览 18
提问于2022-10-24
得票数 0
3
回答
从存储在
Pandas
DataFrame中
的
分类
数据中为巨大
的
特征
向量创建CSR/COO格式
的
稀疏矩阵
python
、
pandas
、
matrix
、
scipy
、
statistics
如何从存储在
Pandas
DataFrame中
的
分类
数据中为巨大
的
特征
向量(50000 X 100000)创建CSR/COO格式
的
稀疏矩阵?我
使用
Pandas
get_dummies()函数创建
特征
向量,但它返回一个MemoryError。我如何避免这种情况,而是以稀疏矩阵CSR格式生成它?
浏览 1
提问于2015-11-10
得票数 3
1
回答
对同一数据帧中
的
分类
和连续要素
使用
reindex和fill_value
python
、
pandas
、
scikit-learn
我在拟合和
分类
时
使用
pandas
.get_dummies对
分类
特征
进行编码,我刚刚注意到Imputer()在对新样本进行
分类
时将平均值放在dataframe.reindex()中添加
的
"off“
分类
开关中我读到了这个,建议在reindex调用中
使用
fill_value=0,这似乎是一个很好
的
解决方案,但在我将这段代码推向生产之前,我有一个困扰我
的
问题
。有人知道
pa
浏览 9
提问于2017-02-11
得票数 2
回答已采纳
2
回答
如何将返回
的
单热编码列合并到原始数据帧中?
python
、
pandas
、
dataframe
、
machine-learning
、
one-hot-encoding
我有一个包含21个不同列
的
banking_dataframe,其中一个是目标,其中10个是数字
特征
,10个是
分类
特征
。我已经
使用
pandas
的
get_dummies方法将
分类
数据转换为one-hot编码。返回
的
dataframe有74列。现在,我想将编码
的
数据帧与原始数据帧合并,这样我
的
最终数据就应该有一个
分类
列
的
热编码值,但数据帧
的
原始大小是2
浏览 2
提问于2019-08-01
得票数 0
1
回答
使用
sk-learn进行
分类
:在预测时处理丢失
的
分类
特征
python
、
scikit-learn
、
missing-features
我
的
项目我训练了一个BaggingClassifier。由于
使用
的
数据包含
分类
特征
,因此我
使用
pandas
框架(Get_dummies)对其进行编码。在此之后,我训练
分类
器。预测数据集内
的
给定
特征
:6 由于编码,在这种情况下,训练数据集扩展到12个
特征
。我用于预测
的
编码数据只有6个
特征
,因为它只有一
浏览 6
提问于2015-05-06
得票数 3
1
回答
分类
数据-如何处理
categorical-data
、
categorical-encoding
、
one-hot-encoding
很少有
关于
分类
数据
的
问题
。需要建议/指示:cat和num
特征
之间
的
相关性如何?我们如何找到目标依赖于组合
的
分类
特征
,但可能不显示与个别
特征
的
相关性
的
情况? 我们能否处理测试数据具有训练数据中不存在
的
分类
<em
浏览 0
提问于2020-04-28
得票数 0
1
回答
用于文本
分类
的
支持向量机-机器学习教程?我该如何开始?
text
、
machine-learning
、
nlp
、
classification
我正在寻找一本
关于
机器学习进行文本
分类
的
非常好
的
教程,可能是
使用
支持向量机(SVM)或其他适合大规模监督文本
分类
的
技术。如果没有很好
的
教程,有没有人可以给我一些建议,告诉我初学者应该如何开始并做好像英语文本
分类
的
特征
检测这样
的
事情。 书籍,文章,任何可以帮助初学者入门
的
东西都是非常有帮助
的
!
浏览 0
提问于2013-12-25
得票数 0
1
回答
基于
分类
列
的
连续变量预测
pandas
、
python-3.x
我有一个大
的
数据集(40百万行,50列),其中大部分是
分类
列(有些是数字
的
),我
使用
Python/
Pandas
。
分类
栏有多达3000个独特
的
标签。 我正在寻找
关于
如何处理这个
问题
的
最佳实践。显然,单热编码(OHE)是不可能
的
。我试着做了较小数量
的
分类
,并以这种方式做OHE,但模型是非常糟糕
的
,许多信息正在丢失。此外,记忆是一个
问
浏览 0
提问于2022-03-21
得票数 0
1
回答
识别非
分类
特征
python
、
pandas
、
scikit-learn
、
sklearn-pandas
我有一个这样
的
数据帧: A B C2 9978 B 3 5 D 如你所见,B栏不是
分类
的
。我如何
使用
sklearn或
pandas
来识别非
分类
数字/回归
特征
?
浏览 6
提问于2021-07-21
得票数 0
1
回答
VowpalWabbit -如何为同时具有连续要素和
分类
要素
的
表格数据
的
分类
要素设置三阶交互
python
、
feature-extraction
、
feature-selection
、
feature-engineering
、
vowpalwabbit
对于损失函数-如何为同时具有连续和
分类
特征
的
表格数据
的
分类
特征
设置三阶交互,例如如何更改: vw_squared =VWRegressor(loss_function=‘平方’,交互= 'abc')假设VWRegressor
的
输入数据是
pandas
数据框架,其中
分类
特征
作为类别类型进行市场营销,例如 “”“ df['jobcat']=df['job'].as
浏览 35
提问于2021-09-14
得票数 0
1
回答
CatBoost后提取编码
特征
classification
、
categorical-data
、
boosting
我有一个包含数字变量和
分类
变量
的
数据集。 在我将数据集与CatBoostClassifier相匹配之后,我希望提取整个
特征
集,并
使用
分类
器决定对它们进行编码
的
任何方法中编码
的
分类
变量。(类似于fit_transform方法返回
的
内容)
浏览 0
提问于2020-02-05
得票数 5
回答已采纳
2
回答
词袋训练和测试opencv,matlab
matlab
、
opencv
、
image-processing
、
matlab-cvst
、
object-recognition
我通过
使用
SIFT
特征
在opencv中实现词袋,以便对特定
的
数据集进行
分类
。到目前为止,我已经将描述符聚类并生成词汇表。据我所知,我必须训练SVM ..。但是我有一些
问题
,我真的对它们感到困惑。主要
的
问题
是实现背后
的
概念,这些是我
的
问题
: 1-当我提取
特征
然后创建词汇表时,我是否应该提取所有对象(假设5个对象)
的
特征
并将它们放在一个文件中,这样我就可以将它们都放在
浏览 3
提问于2012-07-23
得票数 20
回答已采纳
3
回答
如果我
使用
LabelEncode
分类
数据,在创建LightGBM数据集时还需要
使用
categorical_feature吗?
python
、
categorical-data
、
lightgbm
我正在尝试
使用
两个特性在lightgbm中创建一个简单
的
模型,一个是
分类
的
,另一个是距离。我遵循了一个教程(),该教程指出,即使在LabelEncoding之后,我仍然需要告诉lightgbm,我
的
编码功能本质上是绝对
的
。我想知道
的
是lightgbm是否真的理解这个专栏在本质上是绝对
的
。它看起来是这样
的
,但是我不确定为什么教程中明确地说明了它没有。下面是我
的
代码: trainDataProc = pd.read_cs
浏览 1
提问于2019-07-20
得票数 3
2
回答
相关
特征
和
分类
精度
machine-learning
、
classification
、
correlation
、
feature-selection
我想问大家一个
关于
相关
特征
(变量)如何影响机器学习算法
的
分类
精度
的
问题
。对于相关
特征
,我指的是它们之间
的
相关性,而不是与目标类之间
的
相关性(即几何图形
的
周长和面积,或者教育水平和平均收入)。在我看来,相关
特征
对
分类
算法
的
准确性有负面影响,我想说
的
是,因为相关性使其中之一变得无用。真的是这样吗?
问题
会随着
分类
算法
浏览 2
提问于2013-02-11
得票数 38
5
回答
线性回归中范畴
特征
的
去除
scikit-learn
、
linear-regression
、
feature-engineering
这是一个
关于
线性回归
的
设计
问题
。以下是我们
的
数据集
的
一些信息:我们还尝试了提取
分类
特征
,并对我们
的
三个
分类
特征
的
每一个可能组合运行线性
浏览 0
提问于2018-03-05
得票数 3
2
回答
卡方和方差分析(f_classif)是选择最佳
特征
吗?
machine-learning
、
python
、
data-science-model
、
chi-square-test
、
anova
我有一个二进制
分类
问题
(目标0 0 1),我有两个变量连续和
分类
作为特性。我明白,
关于
卡方,我只能用
分类
的
特征
来评价它们。那方差分析(f_classif)呢?是一样
的
吗?我只能评价最好
的
分类
特征
?
浏览 0
提问于2022-12-24
得票数 1
1
回答
如何建立语音情感数据集?
sentiment-analysis
、
rnn
我正在建立一个LSTM来识别这个人是悲伤
的
、快乐
的
、愤怒
的
还是中立
的
。这是通过将他
的
语音波形作为一个字节序列(每个字节为0到255)输入网络来实现
的
。
问题
是,我
的
数据集不够大,是否有有效
的
方法可以对我
的
数据集进行测试?我正在用1.5秒
的
短片段训练,我有800个这样
的
片段,这是不够
的
。我目前
的
预言是:再加上一点白
浏览 0
提问于2018-05-24
得票数 1
回答已采纳
1
回答
LDA作为分区之前或之后
的
降维
machine-learning
、
computer-vision
、
classification
我正在进行
分类
,我有一个
关于
仅用于降维
的
LDA
的
问题
: LDA是否适用于包括训练数据和测试数据在内
的
整体
特征
矩阵,然后(在减少数据维数后)对
特征
矩阵进行划分,为
分类
提供训练和测试集?是真的吗?如何能够
使用
Matlab
的
内部
分类
器(如kNN和SVM)对测试数据进行
分类
?
浏览 1
提问于2017-09-30
得票数 2
1
回答
基于scikit决策树
的
多输出
分类
python
、
machine-learning
、
scikit-learn
我一直在玩scikit图书馆,目的是学习如何根据历史信息预测新数据,并对现有信息进行
分类
。
问题
1现在,目标值不是单数,而是一组值;我想出
的
最佳解决方案是将这些值集合表示为级联,这将创建一个人工类,并允许我只
使用
一个属性来表示多个值。有没有更好
的
方法来解决
浏览 4
提问于2016-11-30
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
区块链分类/特征/共识机制/面临的问题
pandas的groupby问题
关于Windows消息的分类和使用场景
【友学问】关于缺少必要技术特征问题的实务分析
使用Pandas读取复杂的Excel数据
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券