将分类数值数据编码到不同的列

是一种数据处理技术，常用于数据分析和机器学习任务中。它的目的是将原始的分类数据转换为数值形式，以便计算机能够更好地理解和处理。

在数据编码过程中，可以采用多种方法，下面介绍几种常见的编码方式：

One-Hot编码（独热编码）：将每个分类值转换为一个二进制向量，向量的长度等于分类的数量。向量中只有一个元素为1，表示该分类值的位置，其他位置为0。这种编码方式适用于分类无序且数量较少的情况。例如，对于颜色这个分类特征，可以将红色编码为[1, 0, 0]，绿色编码为[0, 1, 0]，蓝色编码为[0, 0, 1]。
Label Encoding（标签编码）：将每个分类值映射为一个整数，从0开始递增。这种编码方式适用于分类有序的情况，可以保留分类之间的顺序关系。例如，对于衣服尺码这个分类特征，可以将S编码为0，M编码为1，L编码为2。
Ordinal Encoding（序数编码）：将每个分类值映射为一个整数，但是根据分类的重要性或频率进行排序。这种编码方式适用于分类有序且有权重的情况。例如，对于学历这个分类特征，可以将小学编码为0，初中编码为1，高中编码为2，大学编码为3。
Binary Encoding（二进制编码）：将每个分类值转换为二进制形式，然后将二进制数分割为多个列。这种编码方式适用于分类数量较多的情况，可以减少编码后的维度。例如，对于地区这个分类特征，可以将北京编码为00，上海编码为01，广州编码为10，深圳编码为11。
Hash Encoding（哈希编码）：将每个分类值通过哈希函数映射为一个固定长度的数值。这种编码方式适用于分类数量较多且无序的情况，可以减少编码后的维度。但是可能存在哈希冲突的问题，不同的分类值可能映射为相同的数值。

以上是常见的分类数值数据编码方式，根据具体的数据特点和任务需求选择合适的编码方式。在腾讯云的产品中，可以使用腾讯云机器学习平台（https://cloud.tencent.com/product/tiia）来进行数据编码和机器学习任务。

分类列和密集列有什么区别？

、、

在Tensorflow中，有9个不同的特征列，分为分类、密集和杂交三大类。通过阅读，我了解到分类列用于用数值表示离散的输入数据。给出了一个名为“范畴标识列”的分类列的示例。 ID Represented using one-hot encoding 0 [1, 0, 0, 0] 1 [0, 1, 0, 0] 2 [0, 0, 1, 0] 3 [0, 0, 0, 1] 但你也有一个密集的列，叫做指示列，它是“包装”(？)一种分类列，用来产生看起来几乎相同的东西： Category (from category column) Represented as...

浏览 0提问于2018-07-19得票数 0

2回答

Logistic回归-带有分类变量的多类分类

、、

我目前正在使用一个同时具有分类和连续功能的数据帧，如下所示：我想运行逻辑回归来预测目标值。本例中的目标值是种族，可以是"A“、"W”、"B“、"H”、"N“或"O"，代表”亚洲人“、”白人“、”黑人“、”西班牙人“、”美洲原住民“或”其他“。我已经把所有的特性都变成了虚拟变量(除了来自"race“列的)，在一个叫做"dummies”的新数据帧中。为了训练模型，我使用以下代码： from sklearn import linear_model, metrics X = dummies.drop("race&#

浏览 4提问于2017-08-29得票数 2

1回答

为什么或何时将数字数据转换为分类数据？

、、

这是一个开放的为什么或何时提问的问题，而不是关于如何将数字编码为分类数据的问题。我目前正在研究来自kaggle的电信客户流失数据集。这是一个分类问题，用来预测客户是否会流失。它共有7043行和21列，是分类列和数字列的混合体。其中一列是保有权，它的数据分布在范围内。 > df.tenure.unique() array([ 1, 34, 2, 45, 8, 22, 10, 28, 62, 13, 16, 58, 49, 25, 69, 52, 71, 21, 12, 30, 47, 72, 17, 27, 5, 46, 11, 70, 63, 43, 15,

浏览 0提问于2020-05-27得票数 1

5回答

与oneHotEncoding的问题

、、

因此，我在一个列中有一个带有分类变量的PandasDataFrame，我想对它进行一个热编码，我使用了来自ML课程的以下代码 from sklearn.preprocessing import OneHotEncoder onehotencoder=OneHotEncoder(categorical_features=[10]) Y= onehotencoder.fit_transform(X).toarray() 但是，我得到以下错误 ValueError: could not convert string to float: 使用以下方法将一些信息Y从df转换为对象 Y=df.iloc[:

浏览 0提问于2017-10-18得票数 8

1回答

在R的randomForest包中，是否必须将因素显式地标记为因素？

、、、

或者，包装是否会意识到它们是不连续的，并将它们作为因素对待？我知道，对于分类来说，被分类的特征确实需要成为一个因素。但是预测功能呢？我在几个玩具数据集上运行过，根据分类特征是数字还是因素，我得到的结果略有不同，但是算法是随机的，所以我不知道结果中的差异是否有意义。谢谢!

浏览 1提问于2015-10-19得票数 4

回答已采纳

1回答

sklearn.linear_model.Lasso能否识别pandas数据帧中的分类数据类型？

、、

我想在sklearn中使用套索回归来运行我的数据。我的dataframe中的所有属性都是数字类型(数字，我的意思是它们都是整数)。但它们中的一些显然应该是分类的(例如，我的dataframe中的“race”属性是一个具有三个值1,2,3的属性，其中每个值代表一个种族)。我所做的是首先使用astype('str')将这些列设置为字符串类型，然后使用代码astype('categorical')将这些列的数据类型转换为分类类型。最后，我对这些转换后的特性使用了sklearn.linear_model.Lasso。我的问题是，sklearn.linear_model.

浏览 12提问于2020-05-20得票数 1

回答已采纳

2回答

使用虚拟值会使模型的性能更好吗？

、、

我看到许多特征工程在对象特征上都有get_dummies步骤。例如，将包含'M‘和'F’的性别列虚拟为两列，并在单热表示中标记它们。为什么我们不在性别栏中直接将'M‘和'F’设为0和1？虚拟方法在分类和回归模型中对机器学习模型都有积极的影响吗？如果是，原因是什么？谢谢。

浏览 2提问于2016-12-02得票数 0

1回答

如何处理最新的星火随机森林的分类特征？

、、、、

在随机森林的Mllib版本中，有可能用参数categoricalFeaturesInfo指定具有名义特征(数值但仍然是绝对变量)的列，那么ML随机森林是什么呢？在用户指南中，它使用VectorIndexer来转换向量中的分类特征，但是它被写成“自动识别分类特征，并对它们进行索引” I发现，在随机森林中，数字索引无论如何都被视为连续的特性，因此建议进行一次热编码以避免这种情况，对于这种算法来说，这似乎没有意义，特别是考虑到上面提到的官方示例！我还注意到，当分类列中有许多类别(>1000)时，一旦用StringIndexer进行索引，随机林算法就会要求我设置MaxBin参数，假定它与连续

浏览 1提问于2017-10-15得票数 6

回答已采纳

1回答

在对枚举/类别类型列求和时，h2o dataframe GroupBy sum函数的作用是什么？

想知道当列类型是分类的(特别是h2o enum类型)时，在h2o dataframe GroupBy对象中求和列时会发生什么。将pandas数据帧转换为H2o数据帧。然后，我按某一列对行进行分组，并对其他列求和。 location_id price store ------------------ 1 10 JCP 1 15 SBUX 3 20 HOL then after grouping and summing; df.group_by('location_id').sum(['

浏览 26提问于2019-04-02得票数 0

回答已采纳

2回答

使用分类输入数据和图像输入数据的分类

、、、、

我有一个大约300行的小型数据集。每行具有:列A:图像，列B:分类文本输入，列C:分类文本输入，列D:分类文本输出我可以仅对图像输入数据(列A)使用顺序Keras模型来预测输出(列D)，但准确率非常低(约40%)。如何将图像数据与分类输入数据相结合以获得更好的准确性？下面是我使用的代码。我在model.fit上收到错误: ValueError:无法将字符串转换为浮点型：'item1‘ 我使用的数据中没有数字，所有内容都是分类文本。我认为我需要更改'y‘的模型，以便它知道预测是分类的，而不是数字的。不过，我不确定要改变什么。 drive.mount('/content

浏览 32提问于2020-06-02得票数 2

2回答

用numeric+text数据训练支持向量机分类器

、、、

我想在MATLAB中训练一个SVM分类器来进行威胁检测。训练数据在Excel文件中，包含数字和文本字段/列。当我将这些数据导出到MATLAB时，它要么是表格格式，要么是单元格格式。如何将其转换为矩阵格式？附注:使用xlsread函数不会导入文本数据。

浏览 2提问于2014-11-11得票数 0

1回答

Dask DataFrame中的分类数据概述

、

默认情况下，Dask DataFrame的describe方法只汇总数值列。根据，我应该能够通过提供include参数来获得分类列的描述。然而， df.describe(include=['category']).compute() 引向 TypeError: describe() got an unexpected keyword argument 'include'。我也尝试了一种不同的方法： df.select_dtypes(include=['category']).describe().compute() 这一次我得到 ValueEr

浏览 1提问于2018-01-24得票数 9

1回答

我应该和其他数值特征一起缩放二进制特征吗？

、、、

当我清理我的数据时，我有一些包含大量数字的特性和一些二进制特性。我是应该缩放大型功能，然后添加二进制列，还是只是将它们全部缩放？我担心的是，如果将它们都扩展到一起，那么二进制特性看起来就没有真正的重要性了。注:我正在为二值分类准备一个神经网络。我正在使用乙状结肠输出并从0,1扩展我的特性。

浏览 0提问于2017-09-15得票数 1

1回答

and列车与fitcsvm的区别

、

我有一套由35个特性组成的数据。我注意到，当我将数据提供给svmtrain时，我会得到以下消息： no convergence achieved within maximum number of iterations 当我将迭代“MaxIter”的次数增加到大约1,000,000时，上面的错误消失了，我开始使用“svmclassify”进行良好的分类。另一方面，当我将数据提供给“fitcsvm”时，它会在默认的迭代次数"15,000“内快速收敛。然而，问题是当我尝试使用“预测”对数据进行分类时，我得到了错误的分类。因此，简单地说，在增加迭代次数后，“svmtrain”对数据进行了正

浏览 1提问于2015-07-10得票数 3

回答已采纳

1回答

如何处理数据集中的大量类别？

、、

我有一个“书籍”的数据集，最初包含8列，其中3列包含可以分类的文本值。3列包含“语言代码”、“作者姓名”和“书名”。由于LinearRegression不接受文本作为输入，所以我决定使用“pandas_getdummies(.)”对这3列进行分类但是在对其进行分类之后，列数从8列超过了20072，这太高了。数据集url为：https://www.kaggle.com/jealousleopard/goodreadsbooks/downloads/goodreadsbooks.zip/6 因此，我的问题是：名字和名字有什么关系？把它分类似乎不对。剩下的两列怎么办？如果保留标题名称，则列数将

浏览 0提问于2019-07-15得票数 1

回答已采纳

2回答

缺失值的确定与范畴值的处理

、、、、

我有一个数据集(1000万行，55列)，其中有许多缺失的值。我需要使用其他不缺失的值来预测这些值，即用不属于NaN的东西替换它们。平均值和中位数不是解决办法。我试图对其他方法进行研究，但这些方法都不起作用，因为我有很多分类变量。我还尝试使用一个热编码将分类变量转换为整数，但我不确定这在我的情况下是否是一个解决方案，因为只有一个分类列，我将得到600个新列。如果我对其他分类专栏也这么做，我会得到数百万的新专栏。其中一个分类列是URL字符串，每一行都不同，例如，我有1000万个不同的URL。另一个分类列是一个描述，它对于每一行也是不同的。我可能会删除URL列，但我不能删除描述、标题、位置等。我

浏览 0提问于2017-05-23得票数 4

6回答

如果pandas.DataFrame中的列是绝对的，什么是一个很好的启发式方法？

、、

我一直在开发一个工具，可以自动地以pandas.DataFrame格式对数据进行预处理。在这个预处理步骤中，我想以不同的方式处理连续数据和分类数据。特别是，我希望能够只对分类数据应用(例如，OneHotEncoder )。现在，让我们假设我们被提供了一个pandas.DataFrame，并且没有关于DataFrame中数据的其他信息。使用什么好的启发式方法来确定pandas.DataFrame中的列是否是绝对的？我最初的想法是： 1)如果列中有字符串(例如，列数据类型为object)，则该列很可能包含分类数据。 2)如果列中某些值的百分比是唯一的(例如，>=20%)，那么该列很可能包

浏览 4提问于2016-03-06得票数 29

1回答

一种热编码关联和决策树

、、、

关于为学习准备数据，我有几个问题。当我想要使用for相关性和分类器决策树时，我对如何将列转换为分类列和二进制列感到非常困惑。对于NBA_df中的示例，可以使用决策树将position列转换为分类列，是否可以使用.astype('category').cat.codes将其转换为分类列？(我知道在篮球比赛中，你可以用数字1-5来表示位置。NBA_df 在students_df中，为什么使用.get_dummies将“性别”、“种族/民族”、“午餐”、“考试准备课程”列转换为新的二进制列而不是在同一列中进行分类转换会更正确？students_df 它在相关性和树上是一样的吗？

浏览 11提问于2021-06-16得票数 0

2回答

如何在深度学习中使用分类列？

、、、、

我正在使用这个作物农业的数据集。为了使用它来创建神经网络，我使用MinMaxScalar对数据进行了预处理，这将在0到1之间缩放数据。但我的数据集也包含分类列，因此在预处理过程中遇到了错误。因此，我尝试使用OneHotEncoder和LabelEncoder对分类列进行编码，但我不知道如何处理它。我的目标是预测"Crop_Damage“。我该如何继续？链接到数据集-

浏览 1提问于2020-12-21得票数 0

4回答

组合dataframe列值(分类和数字)

、

我有一个包含许多列的dataframe(df)，其中一些列包含分类数据，另一些列包含数字数据。我想将列'd‘的值定义为来自两个列(’a‘和'b')的值的组合(一个包含分类数据，另一个包含数值数据)。例如，列'a‘行1具有分类数据值'h’，列'b‘行1具有数值数据值'76’。我希望第1行第'd‘列的值为'h76’ 任何帮助都将不胜感激。

浏览 1提问于2013-01-02得票数 1

回答已采纳

2回答

在分类问题中，我能用数字代替分类数据吗？

、、、、

我正在处理的分类数据有9个类和这么多的特性。很明显，类是绝对的，也有一些特性。我用一热编码技术把分类数据转换成数字.问题是，与其为每个类有8或9个列，每个类都有一个二进制值，我是否可以只拥有一个类标签列，但是值从0到8，其中0代表第一个类，8个代表最后一个类？如果这样做有效，我是否可以对功能列做同样的操作？提前谢谢..。注意:类标签和特性中的数据都是名义的，而不是序号的。

浏览 0提问于2021-12-28得票数 1

1回答

BigQuery存储成本相对于模式？

如果我有一个包含“数字”的列，如果模式指定该列为整数还是字符串，那么存储成本是否会发生变化？示例:我将数十兆字节的数字数据存储为字符串。如果我需要对该列执行数学运算，那么在查询时进行转换就很容易了。但是，如果我更改了模式，那么数据的存储方式会不会有任何不同，以便在休息时消耗更少的数据，从而降低成本呢？

浏览 2提问于2020-09-03得票数 0

回答已采纳

2回答

预测类或类概率？

、、、、

我目前正在使用H2O进行分类问题数据集。我正在一个python3.6环境中用H2ORandomForestEstimator测试它。我注意到预测方法的结果是给出0到1之间的值(我假设这是概率)。在我的数据集中，目标属性是数字属性，即True值为1，False值为0。我确保将类型转换为目标属性的类别，仍然得到相同的结果。然后，我对代码进行了修改，将目标列转换为因子，在H2OFrame上使用了H2OFrame方法，但结果没有任何变化。但是，当我将目标属性中的值分别改为True和False时，我得到的是预期的结果(即，输出是分类而不是概率)。得到分类预测结果的正确方法是什么？如果概

浏览 5提问于2018-07-16得票数 12

回答已采纳

3回答

在SQL表中存储分类引用的最佳方法是什么？

、、、、

我想在MySQL数据库表中存储大量的分类数据。比方说，我想要获取有关“小部件”的信息，并希望以特定的方式对属性进行分类，即形状类别。例如，小部件可以分类为:圆形、方形、三角形、球形等。这些类别是否应该存储在表中，以便最好地从应用程序中引用它们？我想，另一种可能是向小部件中添加一个列，该列包含一个包含一个小整型的shape列。这样，我的应用程序就可以通过它来搜索形状，然后使用一个协调的枚举类型来映射形状的含义。哪一个是最好的？或者有没有其他我还没想到的解决方案？

浏览 0提问于2010-06-06得票数 2

回答已采纳

1回答

在R中导入数据集时识别分类变量

、、、

我在R中导入一个大型数据集，并好奇是否有一种方法可以快速浏览这些列并确定该列是否具有分类值、数字、日期等。当我使用str(df)或class(df)时，这些列大多会出现错误标记。例如，有些列被标记为数字，但列中只有10个唯一值(范围从1-10)，这表明它确实应该是一个因素。还有其他列只有11个唯一值表示评级，从0到5递增0.5。另一列有国家代码(172个值)，其范围为1-230。是否有一种方法可以快速识别某一列是否应该是一个因素，而不通过每一列来理解变量的性质？(数据集中有许多列) 谢谢! 目前，我一直在使用以下代码的变体来捕获前两种情况： as.numeric(df[,51])

浏览 0提问于2016-12-11得票数 1

1回答

如何在执行groupby.median()时保存分类列？

、、

我有信用贷款数据，但原始df有许多贷款I，可以在一个客户之下。因此，为了构建客户端配置文件，我需要按客户端id进行分组。原始df： contract_id', 'product_id','client_id','bal','age', 'gender', 'pledge_amount', 'branche_region RZ13/25 000345 98023432 2300 32 M 4500

浏览 2提问于2020-05-18得票数 0

1回答

稀疏二维LiDAR图像到稠密深度图像的修复

、、、、

我正在研究一个分类问题(自动车辆的对象分类)。我使用来自KITTI的数据集，它提供LiDAR和照相机数据，并希望使用这两种数据来执行任务。三维激光雷达数据被投影到RGB图像的坐标系中，从而产生稀疏的LIDAR图像：每个像素都使用深度编码(距离点的距离:sqrt(X 2+Y 2)，比例在0到255之间)。为了获得更好的结果，我的CNN，我需要一个密集的LiDAR图像，谁知道如何使用Python？我想买这样的东西

浏览 4提问于2019-06-05得票数 2

回答已采纳

2回答

支持向量机总是收敛吗？

、、

我正在使用scikit--在python中学习使用svm.SVC对我的实例进行分类；但是，对于某些参数的组合，拟合永远不会停止。这是因为算法需要更多的时间。或者，算法不可能收敛到极值点。请注意，我没有对我的数据做任何假设。知道了这一点，svm总是收敛于任意数据集吗？

浏览 4提问于2016-11-06得票数 6

回答已采纳

2回答

聚类的分类特征预处理

、、、、

有人能告诉我们用混合特性(包括分类特性和连续特性)来聚类数据的最佳实践吗？我正在努力解决一个问题；我意识到，对于所有度量算法，在集群之前必须对连续数据进行缩放，所以我使用了sklearn.preprocessing.StandardScaler()。在我的分类特性中，我使用了一个编码器转换，但还不清楚是否有必要将这些一个编码向量的组件缩放到整个数据集，还是就这样保留它们呢？

浏览 0提问于2019-09-18得票数 2

1回答

如何使用具有不同特征维度的数据集来训练sklearn分类器？

、、、、

浏览 13提问于2017-06-16得票数 1

回答已采纳

2回答

当数据集具有具有唯一值的要素列时，尝试在DSX中构建模型时出现评估错误

、、

在使用IBM Watson Machine Learning在IBM Data Science Experience (DSX)中构建二进制分类模型时，如果其中一个特征列具有唯一的分类值，则会出现评估错误。我使用的数据集看起来像这样- Customer,Cust_No,Alerts,Churn Ford,1000,8,0 GM,2000,50,1 Chrysler,3000,10,0 Tesla,4000,48,1 Toyota,5000,15,0 Honda,6000,55,1 Subaru,7000,12,0 BMW,8000,52,1 MBZ,9000,13,0 Porsche,100

浏览 2提问于2018-01-24得票数 0

1回答

keras 'flow_from_dataframe‘中'multi’和'raw‘的区别

、、

我不确定什么时候在keras flow_from_dataframe class_mode参数中使用raw和multi output，因为从外观上看，它们都提供了一种对具有多个标签的数据进行分类的方法。假设我有一个数据帧，其中包含图像路径以及每个给定图像的两个列/类和标签，我想创建一个根据这些类对图像进行分类的模型，我将使用哪个class_mode，什么时候使用另一个？编辑:附加了我正在使用的数据帧的图像 ?

浏览 51提问于2021-08-27得票数 2

回答已采纳

2回答

如何在数据集中查找分类列和数值列的个数

、

我需要找到数字列和分类列的数量检查有多少分类列和数字列分类-对象类型数字-整型、浮点型布尔布尔值 df = pd.read_csv("titanic.csv") 因为我只能用df._get_numeric_data().columns获得列名，所以我需要列的总和

浏览 29提问于2020-06-19得票数 3

1回答

在插入包-R中使用dummyVars后删除分类列

、

我正在玩插入包，并提出了这个问题。我使用dummyVars将分类列拆分为单独的虚拟变量。dummyVars代码似乎删除了输入数据集中的分类列。例如： library(earth) data(etitanic) dummies <- dummyVars(survived ~ ., data = etitanic, levelsOnly = FALSE) et<-as.data.frame(predict(dummies, newdata = etitanic)) names(et) [1] "pclass.1st" "pclass.2nd"

浏览 0提问于2015-03-23得票数 1

回答已采纳

2回答

斐济/ Weka生成的arff文件中的原始属性

、、、、

我目前正在使用斐济的可训练的weka分段分类疾病和非疾病的部分。分类器工作得很好，在训练特征中没有额外的设置，它被剥离到最小，但是在检查我运行分类器后保存的数据文件时，我无法理解其中一个存在的属性。 @relation segment @attribute original numeric @attribute Hue numeric @attribute Saturation numeric @attribute Brightness numeric @attribute class {'class 1','class 2'} @data 81.66666

浏览 7提问于2016-04-27得票数 1

回答已采纳

1回答

是否有能够适应不同列的额外新培训数据的模型？

、、

我的训练数据是成批的。有时，新批(完全是新的示例)会附带新列，这些列不属于旧批，或者它们可能丢失了一些旧列。例如，假设有两个入口。在第一次摄入中，我们在一组字段上有ETL。在第二次摄入中，我们增加了一个新的字段，并且不允许我们再次吞食和更新旧记录(它们可能已经被永久删除)。理想情况下，我希望使用所有批数据来训练分类器。在这种情况下，什么样的算法会表现得很好。

浏览 0提问于2019-03-26得票数 1

1回答

分类列和密集列有什么区别？

、、

在Tensorflow中，有9个不同的特征列，分为分类、密集和杂交三大类。通过阅读指南，我了解到分类列用于用数值表示离散的输入数据。它提供了一个名为“范畴标识列”的分类列的示例： ID Represented using one-hot encoding 0 [1, 0, 0, 0] 1 [0, 1, 0, 0] 2 [0, 0, 1, 0] 3 [0, 0, 0, 1] 但你也有一个密集的列，叫做指示列，它是“包装”(？)一种分类列，用来产生看起来几乎相同的东西： Category (from category column) Represented as.

浏览 0提问于2018-07-21得票数 6

1回答

浮点数的分类器

、、

我有一个特征和N个样本的数据集。我试图从“功能”列预测下面的“目标”列。这些值的所有都是介于1到4之间的浮点数:例如1.2、2.2等。 target feature 0.0 0.0 6.0 8.0 7.2 1.0 2.3 2.0 1.1 5.0 5.0 1.0 0.0 0.0 0.0 1.0 0.0 0.0 我在和科学学习一起工作。我得到的错误是(使用DecisionTreeClassifier或RandomFore

浏览 0提问于2018-07-07得票数 0

回答已采纳

2回答

Python学习支持向量机-没有预测的类样本

、、、、

我在Python中做一个分类任务，将不同乐器的音频文件分类到它们各自的类中，在我的例子中，有4个类，分别是Brass、String、Percussion和which。采用SVM算法作为分类器。我的代码看起来有点像这样(我不为分类器更改任何参数)： #X is feature matrix, y is class vector X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3) #SVM Classifier svm = SVC() svm.fit(X_train,y_train) svm_pred

浏览 4提问于2018-03-04得票数 0

2回答

在预测模型中添加分类列

、、、、

我得到了客户的数据框架和有关他们活动的信息，并且我已经建立了一个模型来预测他们是否购买了产品。我的标签是一列'did_buy‘，如果客户购买了，则分配1，如果没有，则分配0。我的模型考虑了数字列，但我也想将分类列添加到预测模型中，但我不确定如何转换它们并在X训练中使用它们。以下是我的数据框列的简要介绍： Company_Sector Company_size DMU_Final Joining_Date Country Finance and Insurance 10 End User 2010-04-13 France Publ

浏览 2提问于2018-11-21得票数 3

1回答

科学学习的OneHotEncoder使所有的列都是绝对的吗？

、、、、

我一直在使用Scikit-Learn的OneHotEncoder将分类数据转换为二进制列，但是，将OneHotEncoder与具有数值和分类变量的数据集相匹配似乎也会使其为数值数据创建二进制列。我已经尝试在文档中搜索一个明确的答案，但找不到答案。OneHotEncoder是否自动避免编码数字列？如果不是，我怎样才能不分裂和重新连接数据文件，用它来制作管道呢？

浏览 0提问于2022-11-24得票数 0

回答已采纳

1回答

数据帧中具有混合类型的R中的对相关性

、

如果我的数据框架中有混合类型(连续的和分类的)，并且我想使用例如R中的pairs计算成对相关性，那么有没有一种方法可以快速地从框架中只选择数字类型的列？

浏览 12提问于2019-01-10得票数 1

回答已采纳

4回答

Kmeans中的分类数据

、

我需要在给定的数据集中执行聚类。有数字和分类值的分布。将分类值转换为数字值的最佳方法是什么？例如，一个字段是颜色，值是红色、绿色、蓝色，所以我可以指定如下的映射：红色: 1，绿色: 2，蓝色:3或红色: 11，绿色: 25，蓝色: 30 如果我提供这样的映射，这会影响聚类的欧几里得距离吗？或者还有别的办法吗？

浏览 0提问于2017-03-28得票数 1

1回答

理解我应该使用的机器学习技术

、

我有一个数据集，我想在那里预测成员出席情况。我需要在应用回归、分类和聚类之间做出选择。我不确定回归和分类之间的关系。我排除了集群(如果不应该的话请告诉我)。对数据集的粗略概述：该数据集包含：由0和1组成的attendance列。 category：包含会员报名参加的体育、游戏等活动) days_before：会员报名参加活动的天数。 time：事件的时间(属于特定类别)：AM或PM weight：成员的重量 months_of_membership：给定成员的成员月数。我在考虑应用二项式回归。例如，这可以是一种模式： attendance ~ category + days_befor

浏览 0提问于2023-06-03得票数 0

1回答

分类问题中大量NAs的处理

、、、

我正在研究一个分类问题。数据集维度为187,643 x 203。第一列包含没有NA的类标签。数据集的其余部分是频率数据，可以是0到1之间的任何数据。 |class|groupA|groupB|groupC| ---------------------------- |0 | NA | 0.45 |0.001 | ---------------------------- |1 |0.001 |0.0008|0.001 | 数据集包含大量NAs。柱中NAs的最小数和最大值分别为24%和90%。为了处理NAs，我正在考虑为NAs计数定义一个截断(假设为30%)，将列中的NAs计数大

浏览 0提问于2021-08-24得票数 1

2回答

同时使用图像和数字输入的神经网络

、、、、

为了对图像进行分类，我们使用具有几个卷积层的神经网络，然后是几个完全连接的层。元数据具有一些数字信息，可以帮助对图像进行分类。有没有一种简单的方法将数值元数据连同卷积的输出一起输入到第一个完全连接的层中？有没有可能使用TensorFlow或者更好的Keras来实现这一点？

浏览 2提问于2018-12-31得票数 2

1回答

在XML中传递PCL

、

我需要在XML文件中传递一些PCL。我以为CDATA标签会允许这样做，但似乎不喜欢ESC字符。Notepad++一直说，"XML解析错误.序列]>‘在内容中是不允许的’.“当我移除ESC字符时，它不再对我吠叫。

浏览 1提问于2017-04-24得票数 0

回答已采纳

1回答

范畴变量的标度

、、

在建立模型之前需要缩放分类变量吗？现在，我已经使用StandardScalear缩放了所有连续的数值变量，所有的连续变量都在-1到1之间，其中作为分类列是二进制的。它将如何影响我的模型？请有人解释一下，缩放的范畴变量如何影响DecisionTreeClassifier中节点的分裂？

浏览 3提问于2020-08-07得票数 3

1回答

带范畴变量的线性回归

、、、、

我目前正在学习和探索机器学习，并了解基于两个数值变量的线性回归的基础知识，但现在我希望更进一步，并需要一些指导，了解如何去做。具体来说，我现在正在学习关于线性回归的范畴变量，我理解它的要点:我们只是将范畴变量编码成某种数值表示形式(比如一种热编码)，并将其放入模型中。太棒了。虽然网上有很多关于如何做各种编码方法的指南，但我还没有找到一个资源来解释这种方法的用例:在何种情况下使用分类数据来预测一个数值是有用的？在进行编码之前，我应该使用哪种类型的数据格式？(是否有两个列具有一个数值结果，而另一个列具有相应的类别？) 我也想知道不同的方法，我们可以可视化和分析我们的模型的结果(和它的预测)，

浏览 0提问于2021-04-10得票数 1

1回答

假设您有多个虚拟列，如何预测值？

、、、、

目前有一个数据框架，看起来类似于： salary job title Raiting Company_Name Location Seniority 0 100 SE 5 apple sf vp 1 120 DS 4 Samsung la Jr 2 230 QA 5 google sd Sr (我的df有比这个更明确的特性)

浏览 1提问于2020-08-16得票数 1

回答已采纳