Pandas中分类变量的顺序_如何在Pandas中按顺序标注分类变量？_保持分类变量的原始顺序 - 腾讯云开发者社区

python、csv、pandas、types、dataset

我有一个CSV数据集，有40个特性，我正在处理的潘达。7个特性是连续的(int32)，其余的都是绝对的。我的问题是：是将Pandas的dtype('category')用于分类功能，还是允许默认的dtype('object')

浏览 3提问于2015-06-02得票数 36

3回答

Pandas中CategoricalDtype的顺序反转

python、pandas、indexing、series、categorical-data

我的数据中有一个有序的分类变量，如下所示： CategoricalDtype(categories=['UNDER $1 000', '$1 000 TO 2 999', '$3 000 TO 3 999', '$90000 - $109999', '$110000 OR OVER', 'REFUSED'], ordered=True) 对于数据文件中的Categorical

浏览 0提问于2018-10-10得票数 3

回答已采纳

3回答

如何将pandas中的变量指定为序数/类别变量？

python、pandas、scikit-learn、categorical-data

我正在尝试使用scikit-learn在数据集上运行一些机器学习算法。我的数据集有一些类似于类别的特征。例如，A就是一个特性，它具有指定某物质量的值1,2,3。1:Upper, 2: Second, 3: Third class。所以它是一个序数变量。类似地，我重新编写了一个变量City，将三个值('London', Zurich', 'New York'转换为1,2,3，但没有为这些值指定特定的首选项。所以现在这是一个名义分类变量。在熊猫中，我如何指定算法来将它们视为分类和有序等？与R类似，分类变量由factor(a)指定，因此不被视为连续值。在p

浏览 1提问于2015-04-09得票数 14

1回答

一种热编码及其与DecisionTreeClassifier的结合

python、pandas、scikit-learn、decision-tree、one-hot-encoding

因此，我的理解是，您执行一种热编码，将分类特征转换为整数，以使它们适合scikit学习机器学习分类器。假设我们有两个选择 a.将所有特征分割成一个热编码的特征(如果A是一个以'a‘、'b’和'c‘值为值的分类特征，那么它就变成了A_a、A_b和A_c，在其每一行中都有二进制值'1’，这意味着观测值'0‘意味着它不拥有该功能！)。然后，我会在这上面安装一个DecisionTreeClassifier。 b.不分割所有功能，而是将每个类别转换为整数值，而不执行一个热编码(如果A是以'a‘、'b’和'c‘值为值的分类特征，则'

浏览 6提问于2017-10-26得票数 0

1回答

用Pandas‘范畴’dtype和sklearn

python、pandas、scikit-learn、categorical-data

在滑雪板中是否支持直接使用熊猫的分类数据类型来拟合模型？据我所见，sklearn不支持这种数据类型，这是不幸的，因为分类数据类型既编码分类数据，又包含数据的映射方案。此外，分类编码纯粹是一个数据处理/处理问题，因此由Pandas来处理似乎更自然。 Note 我意识到在Pandas和sklearn中有几种编码分类变量的方法--这不是我要问的。

浏览 3提问于2015-06-15得票数 16

回答已采纳

1回答

机器学习中的分类属性预处理

python、pandas、numpy、machine-learning、scikit-learn

numpy.unique() vs Pandas.get_dummies() numpy.unique()将数据转换为所有K类的数组，并将每个值的索引作为新列返回，而get_dummies()只创建具有(0,1)值的k列。将分类数据转换为数字的哪种方法最适合机器学习，以及为什么?

浏览 0提问于2018-02-24得票数 0

回答已采纳

6回答

如果pandas.DataFrame中的列是绝对的，什么是一个很好的启发式方法？

python、pandas、scikit-learn

我一直在开发一个工具，可以自动地以pandas.DataFrame格式对数据进行预处理。在这个预处理步骤中，我想以不同的方式处理连续数据和分类数据。特别是，我希望能够只对分类数据应用(例如，OneHotEncoder )。现在，让我们假设我们被提供了一个pandas.DataFrame，并且没有关于DataFrame中数据的其他信息。使用什么好的启发式方法来确定pandas.DataFrame中的列是否是绝对的？我最初的想法是： 1)如果列中有字符串(例如，列数据类型为object)，则该列很可能包含分类数据。 2)如果列中某些值的百分比是唯一的(例如，>=20%)，那么该列很可能包

浏览 4提问于2016-03-06得票数 29

2回答

LightGBM是否根据名称或cat_code值来处理熊猫分类？

python、pandas、categorical-data、lightgbm

LightGBM提供了处理分类变量的选项，而不需要对数据集进行热编码。使用此特性(来自Python接口)的一种方法是使用categorical_feature-argument将分类特性的列名指定为列表。这种方法要求将类别编码为整数。但是，另一种方法是为LightGBM提供一个Pandas DataFrame，其中本质上是分类的列被设置为范畴dtype，LightGBM将确定哪些列被视为分类。但是在分类中使用的底层代码是由Pandas设置的，并且在Python会话中可能不一致。- cat_codes会导致LightGBM错误解释分类？中的条目吗？根据Pandas的分类，我指的是一个名为

浏览 4提问于2020-02-12得票数 2

2回答

将分类列添加到数据框架中，并将类别与现有的分类列匹配

python、pandas

我有两个数据框架，包含逻辑上相互关联并包含相同数量类别的分类列( df1 <->类别1在df2中，类别2在df1 <->类别2在df2中，等等)。数据帧有不同的长度，行没有排序，所以我不能简单地重新排序和连接它们。我希望将df2的分类变量添加到df1中，以便两个分类列的类别匹配。下面是一个例子： import pandas as pd foo = pd.Categorical(values=[0,1,2,3],categories=[0,1,2,3],ordered=True) bar = pd.Categorical(values=['b',&#

浏览 2提问于2020-03-23得票数 0

回答已采纳

1回答

分类数据-如何处理

categorical-data、categorical-encoding、one-hot-encoding

很少有关于分类数据的问题。需要建议/指示：我们如何检查分类特征与目标之间或特征本身之间的相关性？ cat和num特征之间的相关性如何？我们如何找到目标依赖于组合的分类特征，但可能不显示与个别特征的相关性的情况？我们能否处理测试数据具有训练数据中不存在的分类特征值的场景？

浏览 0提问于2020-04-28得票数 0

1回答

熊猫MultiIndex按分类顺序分类等级，而不是按字母顺序排序

python、pandas、sorting、multi-index、categorical-data

我是Pandas的新手(0.16.1)，我希望在多个索引中进行自定义排序，所以我使用分类。我的多个索引的一部分： Part Defect Own Кузов 504 ИП Кузов 504 Итого Кузов 504 ПС Кузов 505 ПС Кузов 506 ПС Кузов 507 ПС Кузов 530 ИП Кузов 530 Итого Кузов 530 ПС 我创建了带有MultiIndex级别缺陷的枢轴表。然后我做出“自己”的分类(见p.s. )。(问题的一部分)将其排序为ИП，ПС，Итого。但是，当我

浏览 2提问于2015-06-01得票数 2

回答已采纳

1回答

基于一列返回条件的Pythonfor循环将导致另一列

python、pandas、loops

我有一个excel电子表格，其中有一个名为"Description“的列，我想迭代一遍。在本专栏中，我使用项作为标准对每一项进行分类。例如，如果描述列中写着“投资利息”，我希望代码在“描述”栏中看到这一点，并在另一列“类别”中返回“投资收入”。我已经试过了，但似乎无法让它起作用。您可以在下面看到，我尝试过不同的方法，我认为我遗漏了一些简单的东西，比如对字符串进行分类，尽管我也尝试过这样做。如果有任何问题，请让我知道，或如果需要更多的信息，因为我只是学习。 import pandas as pd GLDetail = pd.read_excel("GL_DetailFY19.x

浏览 3提问于2020-09-14得票数 1

2回答

分解RandomForest中的连续变量

python、random-forest、sklearn-pandas

我想使用随机森林进行基于基尼指数的特征选择。我的数据集混合了数字数据(连续数据)和分类数据(字符串)。这是数据集的一个示例。 Var1 Var2 198 zcROj17IEC 336 DHeTmBftjz 252.3 crIgUHSK8h 252 ZSNrjIX0Db 我知道树在离散数据(分类)上工作，但是Sklearn中的RandomForest是否需要先离散连续的数值数据，还是它可以处理它？对于分类字符串变量，我使用以下方法将字符串编码为带有0和1的数字列 pandas.get_dummies(X['Var2']) 它起作用了，但对于数值，我尝试了下面的离散化 pandas

浏览 0提问于2017-12-02得票数 1

回答已采纳

1回答

在Pandas，Python中，如何可视化类别值随时间变化的频率？

python、pandas、time-series、sequence、visualization

我有一个Pandas DataFrame，其I和分类值(A、B、C)如下： ID CAT 1 A 2 C 2 B 3 A 2 A 1 B 1 A 3 B 3 B 实际上，行表示一个时间序列，其中包含is的分类事件记录，因此存在一个时间维度，但实际的日期时间并不重要，只是事件的相对序列。每个in在整个DF中有相同数量的顺序事件。我想将每个用户的类别值(事件)序列可视化在2D矩阵(如热图)中，其中行表示I，列表示时间步骤，彩色单元格表示类别值，如下所示： ABA CBA ABB 这应该是一个3*3矩阵的彩色瓷砖，而不是字母。第一行是ID 1，它有三个连续事件，依此类推。它在Py

浏览 3提问于2022-11-11得票数 0

1回答

熊猫:将逗号分隔的列转成多个列

python、python-3.x、pandas、pivot、dummy-variable

我有以下Pandas DataFrame： import pandas as pd import numpy as np df = pd.DataFrame({'id': [1, 2, 3, 4], 'type': ['a,b,c,d', 'b,d', 'c,e', np.nan]}) 我需要根据逗号分隔符拆分类型列，并将值转换为多个列以获得以下结果我查看了Pandas文档中的透视()，并搜索了堆栈溢出。我没有找到任何似乎能(直接或间接)实现我在这里需要做的事情的东西。有什么建议吗？编辑：

浏览 1提问于2022-03-23得票数 2

回答已采纳

1回答

在包含类别的Pandas数据框中添加新列

python、pandas

我有以下葡萄酒分类数据： country, price, colour USA 10 white italy 25 red USA 75 rose Germany 125 white 我必须根据以下信息在pandas中添加一个新列：新列名为'Affordability' 如果价格< 50，则为Cheap；如果价格>50，则为expensive；如果价格<100，则为very exp；如果价格>100，则为very exp

浏览 2提问于2020-12-24得票数 0

2回答

如何检查连续变量和分类变量之间的相关性？

python、linear-regression、correlation、categorical-data

我有一个数据集，包括分类变量(二进制)和连续变量。我正在尝试应用线性回归模型来预测连续变量。有人能告诉我如何检查分类变量和连续目标变量之间的相关性吗？当前代码： import pandas as pd df_hosp = pd.read_csv('C:\Users\LAPPY-2\Desktop\LengthOfStay.csv') data = df_hosp[['lengthofstay', 'male', 'female', 'dialysisrenalendstage', 'asthma'

浏览 0提问于2017-06-22得票数 14

回答已采纳

1回答

如何合并每个都是字符串列表的行。排除重复项

python、list、join、merge、encode

我正在处理音乐数据，需要为回归算法编码流派分类，python 3熊猫。如果分类为流派，我想将类别编码为0或1。数据位于pandas数据框中，并且包含重复值。我希望将所有行合并到一个唯一值列表中，然后使用get_dummies对每条记录进行编码。第一次尝试： for i in x: a = genres + list(i) genres.append(a) 第二次尝试： x = list of genres (like below) [j for i in x for j in i] list(itertools.chain(x)) 输入：第1行= ['hip ho

浏览 0提问于2019-01-03得票数 0

5回答

Python Pandas中项目的标记

python、pandas

我有一个数据框，如下： Id Type 0 14035 A 1 14035 B 2 14035 C 3 24259 A 4 24259 B 我试图用pandas python做一些分类，如果它包含ABC/BAC/CBA排列，它被分类在类别1中。如果它只包含AB/BA，那么它被分类在类别2中。

浏览 0提问于2017-07-14得票数 0

1回答

Python导入差异

python-3.x、python-3.6

在Python中，它看起来像自定义类，需要在导入时进行完全分类。例如, from analytics.npv_differences import NpvDifferences 分析 -npv_Diffences.py(包含NpvDifferences类) 当以下内容无法工作时： from analytics import NpvDifferences 然而，对于熊猫来说，以下两项工作 from pandas import DataFrame from pandas.core.frame import DataFrame 为什么会有区别？

浏览 0提问于2018-05-30得票数 0

回答已采纳

2回答

处理python中不同数据类型的NaiveBayes分类器

python、scikit-learn、gaussian、naivebayes

我试图在Python中实现朴素的Bayes分类器。我的属性有不同的数据类型:字符串、Int、浮点数、布尔值、序号。我可以使用高斯朴素贝叶斯分类器(Sklearn.naivebayes : package)，但我不知道如何处理不同的数据类型。分类器引发错误，声明不能处理除Int或float以外的其他数据类型。我可能想到的一种方法是将字符串编码成数字值。但我也怀疑，如果我这样做，分类器会有多好。

浏览 4提问于2015-06-19得票数 1

回答已采纳

1回答

labels字母范畴范围上闪亮的selectInput错序因子标签

r、shiny

新用户。下拉菜单从selectInput的shiny应用程序字母分类选项。我使用以下代码，IPEDS INSTSIZE (机构规模)提供分类数据。 selectInput("size" , "2. Choose Institution Size:" , as.character(levels(as.factor(ipeds$INSTSIZE))) , selectize=TRUE), 对于我来说，自动字母化功能通常是很好的，但是机构规模的数字

浏览 6提问于2015-03-16得票数 1

回答已采纳

2回答

带部分类的静态字段初始化顺序

c#、.net

是否有任何方法强制静态字段初始化顺序在部分类？假设在HelloWorld1.cs中，我有： partial class HelloWorld { static readonly string[] a = new[] { "Hello World" }; } 在HelloWorld2的其他地方我有： partial class HelloWorld { static readonly string b = a[0]; } 如果a是在b之前初始化的，这很好，但是如果b是在a之前初始化的，则它会抛出一个。健康的方法可能是使用静态构造函数，但我很好奇，当字段类位于同一部分类的不

浏览 0提问于2015-03-16得票数 10

回答已采纳

8回答

将分类数据传递给Sklearn决策树

python、scikit-learn、decision-tree

有几篇关于如何将分类数据编码到Sklearn决策树的文章，但是从Sklearn文档中，我们得到了以下内容决策树的一些优点是： (...) 能够处理数字和分类数据。其他技术通常专门用于分析只有一种类型变量的数据集。有关更多信息，请参见算法。但是运行以下脚本 import pandas as pd from sklearn.tree import DecisionTreeClassifier data = pd.DataFrame() data['A'] = ['a','a','b','a'] data

浏览 10提问于2016-06-29得票数 102

回答已采纳

1回答

我需要创建一个pyspark UDF，它通过比较从查询中输出表

python-3.x、pyspark、apache-spark-sql、user-defined-functions

我正在使用Kaggle上的IBM自然减员数据集。我正在尝试做的是统计分类变量的出现次数到Attrition == 'Yes'和Attrition == 'No'，并采用简单的比率来查看哪一级别的分类变量更有可能出现问题。现在我可以在Pandas中这样做，如下所示： def cal_ratio(x): n_1 = sum(x['Attrition'].values == 'Yes') n_0 = sum(x['Attrition'].values == 'No') return

浏览 0提问于2021-07-13得票数 0

1回答

CART算法是否按属性集的顺序考虑？

machine-learning、algorithms、random-forest、decision-trees、matlab

当使用matlab命令'fitctree‘进行分类时，我改变了属性的顺序，找不到相同的树，从而导致相同的分类错误？为什么？CART算法是否考虑了首先引入的属性？

浏览 0提问于2017-06-13得票数 3

1回答

在极地，我可以自己创建一个分类类型的层次吗？

python-polars、rust-polars

在Pandas中，我可以自己指定分类类型的级别： MyCat = pd.CategoricalDtype(categories=['A','B','C'], ordered=True) my_data = pd.Series(['A','A','B'], dtype=MyCat) 这意味着 I可以确保不同的列和设置使用相同的dtype。有没有办法用极地做这件事？我知道您可以使用字符串缓存特性以一种不同的方式实现1)，但是我感兴趣的是我的dtype/级别是否可以直接指定。我不知道实现2)的任何方法，

浏览 7提问于2022-02-01得票数 1

回答已采纳

2回答

比较标签matlab

matlab

嗨，在matlab中使用分类器(朴素贝叶斯)时，有没有一种方法可以将分类后的标签与原始标签进行比较？例如，以下面的图像为例，我必须手动检查每一行，并检查它正确分类了哪一行，没有分类哪一行。我希望有一个类似于分类550蓝精灵未分类50的列表，然后它输出另一个文件，其中包含错误分类的行的idx。它可能看起来像什么的快速表格 Corrrectly Classified | Missclassified Smruf 550 50 Neptune 100 80

浏览 1提问于2012-07-21得票数 0

1回答

将pandas数据框的多列转换为虚拟变量- Python

python、pandas、machine-learning、scikit-learn

我有这个数据框架：据我所知，要使用Python中的scikit learn包执行机器学习任务，应该将分类变量转换为虚拟变量。例如，使用scikit learn库，我尝试将第三列的值转换为虚拟值，但我的代码不起作用： from sklearn.preprocessing import LabelEncoder x[:, 2] = LabelEncoder().fit_transform(x[:,2]) 那么我的代码出了什么问题呢？如何将数据框中的所有分类变量转换为虚拟变量？编辑:完整的回溯如下： ------------------------------------------

浏览 1提问于2014-09-29得票数 0

1回答

对同一数据帧中的分类和连续要素使用reindex和fill_value

python、pandas、scikit-learn

我在拟合和分类时使用pandas.get_dummies对分类特征进行编码，我刚刚注意到Imputer()在对新样本进行分类时将平均值放在dataframe.reindex()中添加的"off“分类开关中。我读到了这个，建议在reindex调用中使用fill_value=0，这似乎是一个很好的解决方案，但在我将这段代码推向生产之前，我有一个困扰我的问题。有人知道pandas DataFrame.reindex函数是否会将所有NaN设置为fill_value中的值，还是只设置它添加的新列？我希望确保Imputer()能够处理NaN中的任何非分类数据。

浏览 9提问于2017-02-11得票数 2

回答已采纳

3回答

对分类变量进行排序有优势吗？

r、modeling、categorical-data

有人建议我最好在适当的地方对分类变量进行排序(例如，短小于中，小于长)。我想知道，在将分类变量建模为解释变量的上下文中，将分类变量按顺序对待而不仅仅是简单的分类变量有什么具体的优势？它在数学上是什么意思(最好是外行术语！)？非常感谢！

浏览 2提问于2014-02-06得票数 2

10回答

在python的pandas中创建虚拟变量

python、pandas

我正在尝试使用python中的pandas从分类变量创建一系列虚拟变量。我遇到过get_dummies函数，但每当我尝试调用它时，我都会收到一个错误，指出该函数的名称尚未定义。任何创建虚拟变量的想法或其他方式都将受到欢迎。编辑：由于其他人似乎也遇到了这个问题，get_dummies函数现在可以很好地工作。这意味着以下内容应该可以工作： import pandas as pd dummies = pd.get_dummies(df['Category']) 有关详细信息，请参阅。

浏览 261提问于2012-07-21得票数 44

回答已采纳

2回答

如何测试两只熊猫的分类系列是否仅通过类别标签而不同

python、pandas、categorical-data

假设我有两个分类pandas.Series，如下所示： > series_1 = pandas.Categorical( ["A", "B", "C", "A", "C"], categories=["A", "B", "C"] ) > series_2 = pandas.Categorical( [1, 2, 3, 1, 3], categories=[1, 3, 2] ) 因此，这两个系列具有完全相同的信息内容，但不同

浏览 1提问于2018-10-29得票数 1

回答已采纳

2回答

如何在sklearn GradientBoostingClassifier中处理分类变量？

python、machine-learning、scikit-learn、decision-tree、ensemble-learning

我正在尝试使用分类变量使用来训练模型。以下是一个原始代码示例，仅用于尝试将分类变量输入到GradientBoostingClassifier中。 from sklearn import datasets from sklearn.ensemble import GradientBoostingClassifier import pandas iris = datasets.load_iris() # Use only data for 2 classes. X = iris.data[(iris.target==0) | (iris.target==1)] Y = iris.target[

浏览 5提问于2014-07-12得票数 10

回答已采纳

1回答

唯一键- CustomerID，分类变量还是数值变量？

python、pandas、data-science

我正在尝试使用Pandas在Python中对客户数据进行分段。我的数据集中有一个客户ID变量。我对此感到困惑，即使它不会被视为影响输出变量的变量。如果需要的话，我们实际上是如何对待这个变量的，是分类变量还是数值变量？此外，您是否可以考虑在哪些业务案例中考虑customerID？

浏览 4提问于2017-07-19得票数 0

回答已采纳

1回答

模型的拟合是否自动将分类转换为虚拟变量？

python、pandas

很简单的问题：我想要拟合回归模型。我已经让熊猫知道这些变量是绝对的。样本代码： bikes_reg['month'] = bikes_reg['month'].astype('category') 我是否需要创建虚拟变量，或者模型是否会在合适的情况下自动创建它们？一般的经验法则是什么？每次使用分类变量时，是否都需要创建虚拟变量？

浏览 1提问于2017-08-25得票数 0

回答已采纳

1回答

如何在Pandas Dataframe (分类数据)中将列名排序到存储箱中

python、pandas、scikit-learn、jupyter-notebook、sklearn-pandas

我有一个Pandas数据框，它包括173列不同的大学专业(例如category_ACCOUNTING)，在列下面的每一行中都有一个1或0的值来指示学生是否选择该专业。我想将这173列排序为两列- STEM和非STEM专业。如何将分类数据分类到两个分类存储箱中？尝试使用pandas.cut()不起作用

浏览 13提问于2019-08-15得票数 0

3回答

范畴变量的转换(二进制变量与数值变量)

neural-network、preprocessing、encoding

在使用分类编码时，我看到一些作者使用任意数值转换，而另一些作者则使用二进制转换。例如，如果我有一个A，B和c值的特征向量，第一种方法将A、B和C分别转化为数值( 1,2和3)，其他研究采用(1，0，0，0，1，0)和(0,0,1)。第一种方法和第二种方法有什么区别？我能想到的唯一不同是，如果使用二进制值，则培训/测试数据的大小将根据您拥有的值线性增加，这可能会降低性能，而第一个值将保持不变。这些方法中的任何一种都会影响机器学习模型(或分类器)的准确性吗？

浏览 0提问于2018-11-04得票数 2

回答已采纳

8回答

如何将自定义列顺序(在分类上)应用于熊猫框图？

python、pandas、boxplot、categorical-data

编辑:这个问题早在2013年就出现在熊猫的0.13版本上，在0.15-0.18版之间的直接支持已经过时了(根据，大熊猫也大大提高了对分类的支持，因为这是被问及的)。我可以在熊猫boxplot DataFrame里得到一个工资专栏. train.boxplot(column='Salary', by='Category', sym='') ...however --我不知道如何定义索引--列“类别”上使用的顺序--我想根据另一个标准提供自己的自定义订单： category_order_by_mean_salary = train.groupby

浏览 4提问于2013-03-21得票数 17

回答已采纳

3回答

使用matplotlib绘制分类变量的直方图

python、pandas、matplotlib

我在pandas数据框中有一个列，它有三个可能的分类值。当我尝试使用matplotlib中的plt.hist(data['column'])绘制它时，直方图条没有与x轴刻度对齐，它们的间距也不均匀。我该如何解决这个问题呢？

浏览 2提问于2021-04-29得票数 0

1回答

ML模型:如何处理具有1000多个唯一值的分类特性

machine-learning、python、pandas、unsupervised-learning、supervised-learning

我正在尝试在包含大量分类列的数据集上构建一个ML分类模型。然而，它们中很少有超过1000个独特的值。我担心，如果我运行一次热编码，或者熊猫在上面有假人，那么它只会导致太多的功能需要处理。因此，我试图找出最高的N个唯一值，这些值占基础数据的90%，并将其余数据归类为“其他”或“杂项”。但这使得“其他”或“杂项”价值成为最突出的价值。我担心这可能会扭曲模型/结果。对于我应该如何处理这样的场景，有什么建议吗？

浏览 0提问于2018-09-05得票数 3

1回答

如何学习在特征选择的基础上选择分类特征

python、scikit-learn、feature-selection

我的问题是，我想用几个分类变量对数据进行特性选择。我在get_dummies中使用pandas为这些分类变量生成了所有稀疏矩阵。我的问题是sklearn如何知道一个特定的稀疏矩阵实际上属于一个特性，并选择/删除它们？例如，我有一个名为city的变量。该变量有纽约、芝加哥和波士顿三级，因此稀疏矩阵如下： [1,0,0] [0,1,0] [0,0,1]，我怎样才能告诉滑板，在这三个“列”实际上属于一个功能，那就是城市，最终不会选择纽约，并删除芝加哥和波士顿？非常感谢!

浏览 3提问于2014-07-29得票数 6

回答已采纳

2回答

基于mRMRe的分类目标变量特征选择

r、machine-learning、bioinformatics、feature-selection、categorical-data

我试图使用R中的mRMRe包对基因表达数据集进行特征选择。我的目标变量是一个分类变量，即每个样本都关联到一个类，该类用作目标变量。但是，通过使用mRMRe包，尝试加载数据时会出现以下错误： data <- mRMR.data(data = data) Error in .local(.Object, ...): data columns must be either of numeric, ordered factor or Surv type Traceback: 1. mRMR.data(data = data) 2. new("mRMRe.Data", ..

浏览 5提问于2016-06-30得票数 3

回答已采纳

2回答

python中二进制单热点(一K)编码的问题

python、pandas、scikit-learn、categorical-data

二进制单热点(也称为-K之一)编码是为一个分类变量为每个不同的值创建一个二进制列。例如，如果有一个颜色列(分类变量)，其值为“红色”、“蓝色”、“黄色”和“未知”，那么二进制人的热编码将颜色列替换为' color =red‘、' color =blue’和‘color=黄色’。我从熊猫数据框架中的数据开始，我想用这些数据来训练一个与科学知识相关的模型。我知道两种方法来做二进制一热编码，其中没有一种让我满意。 Pandas和get_dummies在数据帧的分类列中。就原始数据帧包含所有可用的数据而言，这种方法似乎很好。也就是说，在进行培训、验证和测试集的数据分割之前，您可以先

浏览 1提问于2015-08-27得票数 7

回答已采纳

3回答

分类变量.分类

machine-learning、scikit-learn、categorical-data

我有一个分类变量，国家的价值观，如印度，美国，巴基斯坦等。我目前使用线性可持续土地管理的分类任务。所以我的国家价值从1到20不等。这应该如何成为分类任务中的一个特性。应该有一个像(1,0,0..)这样的热向量吗？对于我们和分配这个向量20权值，或者我应该有整数从1_20和分配一个权重？我用的是科学知识。答案是否取决于分类器？

浏览 0提问于2017-06-18得票数 4

回答已采纳

1回答

使用sk-learn进行分类:在预测时处理丢失的分类特征

python、scikit-learn、missing-features

我的项目我训练了一个BaggingClassifier。由于使用的数据包含分类特征，因此我使用pandas框架(Get_dummies)对其进行编码。在此之后，我训练分类器。现在我想做一个预测。它返回了这个错误： ValueError: Number of features of the model must match the input. Model n_features is 12 and input n_features is 6. 我确实理解为什么我会得到这个错误。模型中的必需功能: 12 预测数据集内的给定特征:6 由于编码，在这种情况下，训练数据集扩展到12个特征。我用于预测的

浏览 6提问于2015-05-06得票数 3

2回答

将pandas间隔转换为字符串(然后再转换回来)

python、pandas、random-forest、binning、discretization

我是Python的新手，正在尝试准备一些数据来训练RandomForest。由于各种原因，我们希望数据是离散的，因此有一些连续变量需要离散化。我在pandas中发现了qcut，它似乎可以做我想做的事情--我可以设置一些存储箱，它会将变量离散到那么多的存储箱中，试图保持每个存储箱中的计数相等。但是，pandas.qcut的输出是一个间隔列表，而RandomForest -learn中的scikit分类器需要一个字符串。我发现可以使用.astype(str)将间隔转换为字符串。下面是我正在做的一个快速示例： import pandas as pd from random import samp

浏览 136提问于2019-08-26得票数 10

回答已采纳

1回答

在HLF 1.4.4中，有哪些因素影响块内事务的顺序？

hyperledger-fabric、hyperledger

在中，对于超级分类账结构的事务流程，我们提到订购服务不需要检查事务的全部内容以执行其操作，它只需接收来自网络中所有通道的事务，按通道按时间顺序排序，并创建每个通道的事务块。我这里有几个问题 “时间顺序”是什么意思？这是否意味着根据在订购服务节点(领导人)接收到的事务的时间，对信道的事务进行排序？如果两个客户端应用程序几乎同时在分类帐上提交相同密钥的更新事务，则我们称它们为tx1 (将键x更新为值p)、tx2 (将密钥x更新为值q)，所有的代理节点都将模拟更新事务建议并返回事务提案响应中的写集。当客户端将这些批注建议请求发送到订购服务节点时，这些更新事务将按什么顺序在块中排

浏览 0提问于2020-08-08得票数 0

回答已采纳

2回答

回归分析中的分类和序数特征数据差异？

machine-learning、regression、linear-regression、categorical-data、ordinals

在进行回归分析时，我试图完全理解分类数据和序数数据之间的区别。就目前而言，清楚的是：分类特性和数据示例：颜色:红色，白色，黑色为什么分类：red < white < black在逻辑上是不正确的普通特性和数据示例：状况:旧的，翻新的，新的为什么序数：old < renovated < new在逻辑上是正确的分类到数值和序号到数字的编码方法：一种分类数据的热编码序数数据的任意数分类示例： data = {'color': ['blue', 'green', 'green', 're

浏览 5提问于2015-12-04得票数 3

回答已采纳

1回答