如何从现有分类数据生成随机分类数据以填充缺失值- Python

从现有分类数据生成随机分类数据以填充缺失值的方法有多种，以下是一种常见的方法：

首先，需要对现有的分类数据进行分析，了解各个分类的分布情况和比例。可以使用Python中的pandas库进行数据读取和分析。
根据现有分类数据的分布情况，可以选择合适的方法来生成随机分类数据。以下是几种常见的方法：
a. 均匀分布：如果现有分类数据的分布比较均匀，可以使用random.choice()函数从现有分类数据中随机选择一个分类作为填充值。
b. 概率分布：如果现有分类数据的分布不均匀，可以使用numpy.random.choice()函数结合现有分类数据的概率分布来生成随机分类数据。可以使用pandas中的value_counts()函数计算现有分类数据的概率分布。
c. 生成模型：如果现有分类数据的分布比较复杂，可以使用生成模型来生成随机分类数据。例如，可以使用Python中的sklearn库中的生成模型，如高斯混合模型（Gaussian Mixture Model）或朴素贝叶斯分类器（Naive Bayes Classifier）。
生成随机分类数据后，可以将其用于填充缺失值。可以使用pandas中的fillna()函数将缺失值替换为生成的随机分类数据。

下面是一个示例代码，演示如何从现有分类数据生成随机分类数据以填充缺失值：

import pandas as pd
import numpy as np

# 读取现有分类数据
data = pd.read_csv('data.csv')

# 统计现有分类数据的分布情况
distribution = data['category'].value_counts(normalize=True)

# 生成随机分类数据
random_data = np.random.choice(distribution.index, size=data['category'].isnull().sum(), p=distribution.values)

# 填充缺失值
data['category'].fillna(pd.Series(random_data), inplace=True)

在这个示例代码中，假设现有分类数据存储在名为"data.csv"的文件中，其中包含一个名为"category"的列。代码首先使用pandas库读取数据，并使用value_counts()函数计算现有分类数据的分布情况。然后，使用numpy库的random.choice()函数和现有分类数据的概率分布生成随机分类数据。最后，使用fillna()函数将缺失值替换为生成的随机分类数据。

请注意，这只是一种常见的方法，具体的方法选择和实现可能因数据特点和需求而异。

页面内容是否对你有帮助？

有帮助

没帮助

如何从现有分类数据生成随机分类数据以填充缺失值- Python

、、、

我有一个缺少分类数据的列，我正在尝试用同一列中的现有分类变量来替换它们。我不想使用该模式，因为我有太多丢失的数据，它会扭曲数据，并且我不希望删除丢失数据的行。我认为理想的方法是为我的专栏获取每个变量的比例，然后用现有的分类变量按比例替换缺失的变量。示例数据帧： ClientId Apple_cat Region Price 0 21 cat_1

浏览 23提问于2020-10-22得票数 1

回答已采纳

3回答

Scikit学习丢失的数据-分类值

、、、、

我有一个包含分类特征的数据集，它有4个标签和4个特征。(这是一个元分类器，因此基分类器的输出作为这个分类器的输入) 1 1 1 2 2我正在寻找的是关于如何在使用scikit学习时处理丢失的分类值

浏览 0提问于2016-07-15得票数 4

回答已采纳

1回答

对数据进行编码以进行补偿，然后进行解码

、、、、

我用的是python，我有如下结构的数据，其中混合了类别和数字 subject_id hour_measure urinecolor blood pressurehandle_unknown='ignore') enc.fit(df) enc.transform(df) 当我尝试进行编码时，它会要求我先填充缺失值，那么在编码时如何处理缺失<e

浏览 16提问于2019-12-17得票数 1

回答已采纳

1回答

在输入向量中传递一个NAN进行预测。

、、、

我有一个分类器，它使用给定的一组输入训练数据向量进行训练。培训数据中存在缺失值，这些值被填充为numpy.Nan值，并使用计算机填充缺失的值。但是，在输入向量用于预测的情况下，如何在缺少值的输入中传递？我应该把这个值作为nan传递吗？在这件事上，计算机起着作用吗？如果我必须手动填写这个值，我如何填写这种情况下的

浏览 3提问于2016-11-18得票数 0

回答已采纳

1回答

如何根据概率分布在python中生成随机分类数据？

、、、

我试图从现有的列中生成一列随机的分类变量，以创建一些综合数据。例如，如果我的列有3个值0,1,2，0出现了50%的时间，1和2出现了30和20%的时间，我希望我的新的随机列也有相似(但不一样)的比例。在交叉验证方面也有类似的问题，已经用R. 解决了。不过，我想要一个Python解决方案。

浏览 0提问于2019-08-09得票数 7

回答已采纳

1回答

这导致了2000图像对象(多边形)，我想根据他们的属性(光谱，RGB数据，形状，大小等)进行分类。我已经将数据保存为一个.csv，以便在'Randomforest‘包中使用。我已将“生境级别”作为数据中每个对象(1、2、3、4、5、6)的六个因素之一。所附csv的例子。我想要做的是运行随机森林来预测每个图像对象的"Habitat_Level“(列: OBJECT_ID)。因此，我需要的结果将使用"Habitat_Level“(从随机森林<

浏览 4提问于2022-03-08得票数 0

回答已采纳

2回答

如果子集中缺少任何值，则如何填充丢失的数值，则丢失所有具有相同子集的其他列。

、、

有一个清晰的模式显示两个独立的子集(列集)；如果一个列中缺少一个值，那么任何行都会丢失同一子集中其他列的值。这里是缺失数据的可视化。我注意到，Logistic回归的分数是如此之弱(0.6)，并且认为Iterforest可能学习的不够多，或者说，除了从外部子集学到的东西之外，还有哪些可能是不够的？

浏览 0提问于2018-11-10得票数 2

回答已采纳

2回答

空值作为特征工程的有用信息

、

这些特性是在Oracle中生成的。在这里，我还替换了空值。我不对数据库进行规范化，因为这取决于所选的示例。规范化将用Python完成。对于我的用例，这是一个二进制分类问题(欺诈检测)，空值的存在也与目标变量相关。因此，我想为模型保留这些信息。在其他聚合特性中，此二进制列也可用于计算特定分组(即信用卡)每单位时间的空值数。我的建议是否合理？是否有可供选择的陈述，如果有，它们的好处是什么？

浏览 0提问于2019-07-09得票数 1

2回答

含缺失值的分类数据降维

、、

我有一个回归模型，其中因变量是连续的，但是90%的自变量是绝对的(包括有序的和无序的)，大约30%的记录有缺失的值(更糟糕的是，它们是随机丢失的，没有任何模式，也就是说，超过45%的数据至少有一个缺失值虽然我知道几种连续变量降维的方法，但我不知道关于分类数据的类似静态文献(除了，作为对应分析的一部分，这基本上是频率表上主成分分析的一种变化)。我还要补充一点，数据集是中等大小的500000观测值，有200个变量。我有两

浏览 8提问于2010-05-14得票数 24

回答已采纳

1回答

模型如何才能在随机数据上获得完全相同的准确性？

、、

我正在比较一种遗传学分类的模型，它们是在4个类别之间分类的，对于影响一种疾病的基因是肯定的、可能的、可能的或未知的。但是我给这些模型一个随机数据集，其中一些模型通过多次运行(没有交叉验证，只看到分割测试数据的准确性)，这些模型是否真的有可能，或者这些模型是否达到了一个平台？从我初学者的角度来看，我认为这不太可能，任何帮助都会受到感谢。下面是我对随机数据进行测试的代码： inner_cv = KFold(n_splits=10, shuffle=True

浏览 0提问于2019-05-09得票数 2

1回答

超级分类账锯齿如何验证事务处理程序的正确性

、、

Hyper分类帐锯齿是使用来执行事务并验证状态更改。例如，如果它生成一个用于计算的随机数，或者从互联网上获取一个可以改变的数据？

浏览 0提问于2019-08-23得票数 1

回答已采纳

4回答

处理类别缺失值ML

、、、、

我已经研究过关于处理分类数据中缺失值的这。 Dataset关于6 categorical columns和missing values。这将是一个二进制分类问题。

浏览 0提问于2020-05-18得票数 2

2回答

如何处理丢失的具有重要意义的分类数据？

、、

我有一个高度明确的数据集，并且有很多缺失的值。我不想将数据归责，因为赋值为0或1会使我的数据偏向，但是许多机器学习算法不会在缺少值的数据集上工作。我该怎么处理呢？

浏览 0提问于2017-03-22得票数 2

回答已采纳

1回答

Power BI:当源包含空值时使折线图连续(处理缺失值)

、、、

这个问题衍生出了我之前发布的一个问题；关注第二行和第三行。如何才能使下面相应图形中的线条是连续的，而不是停在中间？在Excel中，我过去常常通过在为图形生成数据的公式中应用NA()来解决这个问题。有没有类似的使用DAX的解决方案？

浏览 50提问于2018-07-18得票数 3

回答已采纳

2回答

用于大量分类的分类器和技术

、、、、

我正在为一项包含5000+类别和培训数据的序列标记任务设计一个scikit学习分类器，该分类器的数据至少为8000万，并且可能每年增加1亿。我已经尝试了所有的类别，但它生成分类器的顺序为1000的GBs二进制文件。因此，我认为为每个类别设置一个分类器是有帮助的，也将有助于我对每个类别的特性进行微调，从而提高分类的准确性，但这意味着对每个类别都使用5k+分类器。那么，考虑到我将继续获得更多的培训数据以及可能会发现新的类

浏览 0提问于2015-09-26得票数 7

2回答

二进制分类-一个热编码阻止我使用测试集

、、

我有一个预处理管道，包括替换缺失的值和对分类变量进行一次编码。请告诉我如何防止这件事。谢谢,

浏览 0提问于2019-11-24得票数 0

2回答

使用不重要的特性会影响准确性吗？

、

我用的是scikit学习梯度增强分类器找到的这里。如果这确实损害了准确性，我应该如何选择哪些功能，以摆脱？

浏览 0提问于2016-05-11得票数 6

回答已采纳

2回答

JavaScript中的兼容性测试器(字符串比较函数)

、

我也开始玩它(不丢脸)，并试图弄清楚它是如何工作的。如果您比较两个完全相同的字符串，例如"John Doe“和"John Doe”，它将返回某种程度上的随机兼容性，但它每次都会返回相同的兼容性。所以这并不是真正的“随机”。有没有人知道如何让一个函数在JavaScript中做同样的事情？

浏览 1提问于2010-11-26得票数 0

回答已采纳

3回答

使用Python在Dataframe中丢失数据

、、、

[ 嗨，谢谢,

浏览 7提问于2017-09-12得票数 0

回答已采纳

3回答

在python中填充缺失值的标准方法是什么？

、

我有一个非常有限的数据集，其中包含各种缺少值的列。我不能修剪有缺失值的行，因为这样会大大减小大小。有没有人能建议一种标准的程序？

浏览 0提问于2020-04-19得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何从现有分类数据生成随机分类数据以填充缺失值- Python

相关·内容

如何从现有分类数据生成随机分类数据以填充缺失值- Python

Scikit学习丢失的数据-分类值

对数据进行编码以进行补偿，然后进行解码

在输入向量中传递一个NAN进行预测。

如何根据概率分布在python中生成随机分类数据？

R中的RandomForest -将输出附加到对象ID

如果子集中缺少任何值，则如何填充丢失的数值，则丢失所有具有相同子集的其他列。

空值作为特征工程的有用信息

含缺失值的分类数据降维

模型如何才能在随机数据上获得完全相同的准确性？

超级分类账锯齿如何验证事务处理程序的正确性

处理类别缺失值ML

如何处理丢失的具有重要意义的分类数据？

Power BI:当源包含空值时使折线图连续(处理缺失值)

用于大量分类的分类器和技术

二进制分类-一个热编码阻止我使用测试集

使用不重要的特性会影响准确性吗？

JavaScript中的兼容性测试器(字符串比较函数)

使用Python在Dataframe中丢失数据

在python中填充缺失值的标准方法是什么？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐