关于使用pandas的分类特征的问题_分类特征省略编码的Pandas实现_关于分类树的R问题 - 腾讯云开发者社区

pandas

我对熊猫中的分类变量有一点困惑。我的问题是，如果我已经设法通过以下方式扩展了我的df中需要的特性 cat1 cat2 cat3 1 0如果df['cat1'].dtype是int64 (对其他人也是一样)，它们会通过运行一些机器学习算法自动被视为分类特征吗？或者，我是否需要对它们执行一些转换，才能明确地将其视为类别？

浏览 10提问于2021-11-18得票数 0

回答已采纳

1回答

利用Pandas选择滑雪板数据集的分类/离散特征和数值特征

python、pandas、numpy、scikit-learn、data-mining

我无法识别“分类/离散”的特征。我想要这样做，然后计算出分类特征的每个值的频率。同样地，我想最终发现并使用所有的数字特征。在这个来自sklearn的数据集中，哪些特征是分类的/离散的？我知道可以使用dtype，但这不包括分类或不包括，因为数字->分类是可能的

浏览 18提问于2022-10-24得票数 0

3回答

从存储在Pandas* DataFrame中的分类数据中为巨大的特征向量创建CSR/COO格式的稀疏矩阵*

python、pandas、matrix、scipy、statistics

如何从存储在Pandas DataFrame中的分类数据中为巨大的特征向量(50000 X 100000)创建CSR/COO格式的稀疏矩阵？我使用Pandas get_dummies()函数创建特征向量，但它返回一个MemoryError。我如何避免这种情况，而是以稀疏矩阵CSR格式生成它？

浏览 1提问于2015-11-10得票数 3

1回答

对同一数据帧中的分类和连续要素使用reindex和fill_value

python、pandas、scikit-learn

我在拟合和分类时使用pandas.get_dummies对分类特征进行编码，我刚刚注意到Imputer()在对新样本进行分类时将平均值放在dataframe.reindex()中添加的"off“分类开关中我读到了这个，建议在reindex调用中使用fill_value=0，这似乎是一个很好的解决方案，但在我将这段代码推向生产之前，我有一个困扰我的问题。有人知道pa

浏览 9提问于2017-02-11得票数 2

回答已采纳

2回答

如何将返回的单热编码列合并到原始数据帧中？

python、pandas、dataframe、machine-learning、one-hot-encoding

我有一个包含21个不同列的banking_dataframe，其中一个是目标，其中10个是数字特征，10个是分类特征。我已经使用pandas的get_dummies方法将分类数据转换为one-hot编码。返回的dataframe有74列。现在，我想将编码的数据帧与原始数据帧合并，这样我的最终数据就应该有一个分类列的热编码值，但数据帧的原始大小是2

浏览 2提问于2019-08-01得票数 0

1回答

使用sk-learn进行分类:在预测时处理丢失的分类特征

python、scikit-learn、missing-features

我的项目我训练了一个BaggingClassifier。由于使用的数据包含分类特征，因此我使用pandas框架(Get_dummies)对其进行编码。在此之后，我训练分类器。预测数据集内的给定特征:6 由于编码，在这种情况下，训练数据集扩展到12个特征。我用于预测的编码数据只有6个特征，因为它只有一

浏览 6提问于2015-05-06得票数 3

1回答

分类数据-如何处理

categorical-data、categorical-encoding、one-hot-encoding

很少有关于分类数据的问题。需要建议/指示：cat和num特征之间的相关性如何？我们如何找到目标依赖于组合的分类特征，但可能不显示与个别特征的相关性的情况？我们能否处理测试数据具有训练数据中不存在的分类<em

浏览 0提问于2020-04-28得票数 0

1回答

用于文本分类的支持向量机-机器学习教程？我该如何开始？

text、machine-learning、nlp、classification

我正在寻找一本关于机器学习进行文本分类的非常好的教程，可能是使用支持向量机(SVM)或其他适合大规模监督文本分类的技术。如果没有很好的教程，有没有人可以给我一些建议，告诉我初学者应该如何开始并做好像英语文本分类的特征检测这样的事情。书籍，文章，任何可以帮助初学者入门的东西都是非常有帮助的！

浏览 0提问于2013-12-25得票数 0

1回答

基于分类列的连续变量预测

pandas、python-3.x

我有一个大的数据集(40百万行，50列)，其中大部分是分类列(有些是数字的)，我使用Python/Pandas。分类栏有多达3000个独特的标签。我正在寻找关于如何处理这个问题的最佳实践。显然，单热编码(OHE)是不可能的。我试着做了较小数量的分类，并以这种方式做OHE，但模型是非常糟糕的，许多信息正在丢失。此外，记忆是一个问

浏览 0提问于2022-03-21得票数 0

1回答

识别非分类特征

python、pandas、scikit-learn、sklearn-pandas

我有一个这样的数据帧： A B C2 9978 B 3 5 D 如你所见，B栏不是分类的。我如何使用sklearn或pandas来识别非分类数字/回归特征？

浏览 6提问于2021-07-21得票数 0

1回答

VowpalWabbit -如何为同时具有连续要素和分类要素的表格数据的分类要素设置三阶交互

python、feature-extraction、feature-selection、feature-engineering、vowpalwabbit

对于损失函数-如何为同时具有连续和分类特征的表格数据的分类特征设置三阶交互，例如如何更改: vw_squared =VWRegressor(loss_function=‘平方’，交互= 'abc')假设VWRegressor的输入数据是pandas数据框架，其中分类特征作为类别类型进行市场营销，例如 “”“ df['jobcat']=df['job'].as

浏览 35提问于2021-09-14得票数 0

1回答

CatBoost后提取编码特征

classification、categorical-data、boosting

我有一个包含数字变量和分类变量的数据集。在我将数据集与CatBoostClassifier相匹配之后，我希望提取整个特征集，并使用分类器决定对它们进行编码的任何方法中编码的分类变量。(类似于fit_transform方法返回的内容)

浏览 0提问于2020-02-05得票数 5

回答已采纳

2回答

词袋训练和测试opencv，matlab

matlab、opencv、image-processing、matlab-cvst、object-recognition

我通过使用SIFT特征在opencv中实现词袋，以便对特定的数据集进行分类。到目前为止，我已经将描述符聚类并生成词汇表。据我所知，我必须训练SVM ..。但是我有一些问题，我真的对它们感到困惑。主要的问题是实现背后的概念，这些是我的问题： 1-当我提取特征然后创建词汇表时，我是否应该提取所有对象(假设5个对象)的特征并将它们放在一个文件中，这样我就可以将它们都放在

浏览 3提问于2012-07-23得票数 20

回答已采纳

3回答

如果我使用LabelEncode分类数据，在创建LightGBM数据集时还需要使用categorical_feature吗？

python、categorical-data、lightgbm

我正在尝试使用两个特性在lightgbm中创建一个简单的模型，一个是分类的，另一个是距离。我遵循了一个教程()，该教程指出，即使在LabelEncoding之后，我仍然需要告诉lightgbm，我的编码功能本质上是绝对的。我想知道的是lightgbm是否真的理解这个专栏在本质上是绝对的。它看起来是这样的，但是我不确定为什么教程中明确地说明了它没有。下面是我的代码： trainDataProc = pd.read_cs

浏览 1提问于2019-07-20得票数 3

2回答

线性回归中范畴特征的去除

scikit-learn、linear-regression、feature-engineering

这是一个关于线性回归的设计问题。以下是我们的数据集的一些信息：我们还尝试了提取分类特征，并对我们的三个分类特征的每一个可能组合运行线性

浏览 0提问于2018-03-05得票数 3

2回答

卡方和方差分析(f_classif)是选择最佳特征吗？

machine-learning、python、data-science-model、chi-square-test、anova

我有一个二进制分类问题(目标0 0 1)，我有两个变量连续和分类作为特性。我明白，关于卡方，我只能用分类的特征来评价它们。那方差分析(f_classif)呢？是一样的吗？我只能评价最好的分类特征？

浏览 0提问于2022-12-24得票数 1

1回答

如何建立语音情感数据集？

sentiment-analysis、rnn

我正在建立一个LSTM来识别这个人是悲伤的、快乐的、愤怒的还是中立的。这是通过将他的语音波形作为一个字节序列(每个字节为0到255)输入网络来实现的。问题是，我的数据集不够大，是否有有效的方法可以对我的数据集进行测试？我正在用1.5秒的短片段训练，我有800个这样的片段，这是不够的。我目前的预言是：再加上一点白

浏览 0提问于2018-05-24得票数 1

回答已采纳

1回答

LDA作为分区之前或之后的降维

machine-learning、computer-vision、classification

我正在进行分类，我有一个关于仅用于降维的LDA的问题： LDA是否适用于包括训练数据和测试数据在内的整体特征矩阵，然后(在减少数据维数后)对特征矩阵进行划分，为分类提供训练和测试集？是真的吗？如何能够使用Matlab的内部分类器(如kNN和SVM)对测试数据进行分类？

浏览 1提问于2017-09-30得票数 2

1回答

基于scikit决策树的多输出分类

python、machine-learning、scikit-learn

我一直在玩scikit图书馆，目的是学习如何根据历史信息预测新数据，并对现有信息进行分类。问题1现在，目标值不是单数，而是一组值；我想出的最佳解决方案是将这些值集合表示为级联，这将创建一个人工类，并允许我只使用一个属性来表示多个值。有没有更好的方法来解决

浏览 4提问于2016-11-30得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云