如何根据pandas中的列最小值和最大值使用bin将连续数据转换为分类数据_如何将pandas数据帧中的某些列转换为分类数据？_在Python/Pandas中，有没有一种方法可以将数据分组，并根据其列(作为设置项)中的每个分类数据将其拆分到不同的bin中？ - 腾讯云开发者社区

、、、

下面的数据集表示为numpy数组 direccion_viento_pos Out[32]: array([['S'], ['S'], ['S'], ..., ['SO'], ['NO'], ['SO']], dtype=object) 这个数组的维数是： direccion_viento_pos.shape (17249, 8) 我正在使用pyth

浏览 4提问于2018-05-27得票数 5

回答已采纳

2回答

将pandas qcut箱应用于新数据

、

我使用pandas qcut将一些数据分成20个bin，作为训练二分类模型的数据准备的一部分，如下所示： data['VAR_BIN'] = pd.qcut(cc_data[var], 20, labels=False) 我的问题是，我如何将从上面的qcut语句派生的相同绑定逻辑应用于一组新数据，例如用于模型验证目的。有什么简单的方法可以做到这一点吗？谢谢

浏览 0提问于2016-06-19得票数 33

回答已采纳

1回答

我有一个有大约50列的数据。这些列要么是分类数据，要么是连续数据。连续数据可以在0.000001到1.00000之间，也可以在50万到500万之间。分类数据通常是一个名称，例如商店名。如何将这些数据规范化，以便将其输入序列模型的稠密层？ Y值要么是0，要么是1，因此它是一个二进制分类问题。目前，我正在将所有连续数据规范化为0-1，对所有分类数据进行一次热编码，这样如果我有一个列，其中有5个名称，我将得到一个包含0's和1's的5列的矩阵。然后，我将所有连续和绝对数据加入到一个密集的init='uniform'和activation='relu'

浏览 0提问于2017-02-01得票数 6

2回答

用numeric+text数据训练支持向量机分类器

、、、

我想在MATLAB中训练一个SVM分类器来进行威胁检测。训练数据在Excel文件中，包含数字和文本字段/列。当我将这些数据导出到MATLAB时，它要么是表格格式，要么是单元格格式。如何将其转换为矩阵格式？附注:使用xlsread函数不会导入文本数据。

浏览 2提问于2014-11-11得票数 0

1回答

PCA回归问题

、

我有一个回归问题，我的数据有21个特征，我希望应用PCA降维。据我所知，到目前为止，我看到的所有教程都使用PCA来解决分类问题。我确实为回归做了主成分分析，但我无法显示很好的散射图，在x轴上显示PC1，在y轴上显示PC2，在中间显示目标。我写了以下代码 X = self.X pca = PCA(n_components=NUM_FEATURES_PCA) principal_components = pca.fit_transform(X) principalDf = pd.DataFrame(data=principal_

浏览 0提问于2020-01-14得票数 1

回答已采纳

1回答

用描述法求出潘达斯有序分类数据的最小值和最大值？

、、、

我有一个数字和分类数据的混合潘达数据。我对分类数据进行了排序，我可以使用min()和max()函数获得min和max值，但不能用describe函数获得它们。是否有一种方法可以使用有序分类数据的描述函数，并得到最小和最大值？代码： data_clean.indiv1 = data_clean.indiv1.astype(CategoricalDtype(categories=['F', 'D', 'C', 'B', 'A'], ordered=True)) print('min', data_c

浏览 0提问于2018-05-08得票数 2

回答已采纳

2回答

Pandas查询-按唯一列值和聚合选择元组

、、

我在Pandas df中有两列，我想对其进行操作。首先，我想从"score“列中删除诸如"High”之类的非数字值，并将剩余的值转换为int (所有数据都以字符串形式输入)。接下来，我想根据唯一的"measure_id“对"score”求和。如何执行这两个功能？ df为： nationwide_measures = pd.read_sql_query("""select state, measure_id, measure_name, score from timely_and_

浏览 2提问于2017-07-17得票数 0

回答已采纳

1回答

如何通过Vaex计算每列的最大行值

、

我有一个应用程序，它使用Pandas来计算每个列的每分钟/最大行值。例如： col_a col_b col_c 2 8 7 10 4 3 6 5 1 调用df.max()生成 col_a 10 col_b 8 col_c 7 作为参考，我试图解析以下代码： bin_stats = {'min': df.min(), 'max': df.max(), 'binwidth': (df.max()-df.min()+10*

浏览 6提问于2022-08-27得票数 0

1回答

熊猫DataFrame前测值减去最小值

、、

我想将DataFrame中列的最小值从其上方的值中减去。在R中，我会这样做： df <- data.frame(a=1:5, b=c(5,6,7,4,9)) df a b 1 1 5 2 2 6 3 3 7 4 4 4 5 5 9 df$b[which.min(df$b)-1] - df$b[which.min(df$b)] [1] 3 我如何在pandas中做同样的事情呢？更普遍的情况是，如何提取满足特定条件的pandas DataFrame中的行号？

浏览 1提问于2017-04-11得票数 0

回答已采纳

1回答

根据时间在Python中查找连续的零

、、

我有一个包含datetime列和count列的pandas df1。如果连续一个小时的字符串为0，并且在该小时内少于2分钟的数据大于0(“峰值容差”)，则认为该字符串无效。 datetime间隔为5秒，但并不总是一致的(即，可以从6:00:00跳到14:00:00，跳过其间的所有时间)，因此行之间的差异应为5秒，才能被视为连续的一段时间。我想添加一个新的列flag，它将0标记为无效，1标记为有效。样本数据 time count flag 00:00:05 0 0 00:00:10 0 0 .....

浏览 6提问于2016-08-09得票数 1

1回答

如何使用pandas有效地为序列中缺失的数据点添加行？

、

我有以下一天发生的销售数量的时间序列数据集作为pandas数据框架。 date, sales 20161224,5 20161225,2 20161227,4 20161231,8 现在，如果我必须在这里包含丢失的数据点(即，丢失的日期)和一个常量值(零)，并想让它看起来像下面这样，我如何使用Pandas高效地执行此操作(假设数据帧为~50MB)。 date, sales 20161224,5 20161225,2 20161226,0** 20161227,4 20161228,0** 20161229,0** 20161231,8 **缺少添加到数据框中的行。任何帮助都将不胜感激。

浏览 5提问于2017-01-10得票数 1

回答已采纳

6回答

如果pandas.DataFrame中的列是绝对的，什么是一个很好的启发式方法？

、、

我一直在开发一个工具，可以自动地以pandas.DataFrame格式对数据进行预处理。在这个预处理步骤中，我想以不同的方式处理连续数据和分类数据。特别是，我希望能够只对分类数据应用(例如，OneHotEncoder )。现在，让我们假设我们被提供了一个pandas.DataFrame，并且没有关于DataFrame中数据的其他信息。使用什么好的启发式方法来确定pandas.DataFrame中的列是否是绝对的？我最初的想法是： 1)如果列中有字符串(例如，列数据类型为object)，则该列很可能包含分类数据。 2)如果列中某些值的百分比是唯一的(例如，>=20%)，那么该列很可能包

浏览 4提问于2016-03-06得票数 29

1回答

熊猫如何决定垃圾桶边？

、

我有熊猫的数据，我想保存连续的值。 a['abc'].describe() # a name of pandas dataframe, abc--column name count 250000.000000 mean 43.412040 std 26.075295 min 0.000000 25% 25.000000 50% 38.000000 75% 53.000000 max 218.000000 Name: abc, dtype: float

浏览 0提问于2021-11-05得票数 1

回答已采纳

1回答

pandas数据帧行使用sklearn进行缩放

、、、

如何将sklearn缩放器应用于pandas数据帧的所有行。这个问题与相关。如何将sklearn缩放器应用于一行的所有值？注意:我知道对于特性缩放来说，在列中包含特性和按列缩放特性是很正常的，就像refenced问题中那样。然而，我想使用sklearn标度器来预处理可视化数据，在我的例子中，按行扩展是合理的。

浏览 11提问于2019-11-13得票数 1

回答已采纳

1回答

如何求R中函数的上下界

、、

我想试着找到R中函数的上界和下界。我尝试使用内置的R函数'optimise'，但该函数试图找出该函数的切线为零的位置。例如，如果您运行以下代码： phi_function <- function(x) { return(((x^6)/8) - ((3*(x^2))/4)) } lbound_ex <- -1.79550879355662 ubound_ex <- 0.168144378782495 LX_ex <- optimise(phi_function, interval = c(lbound_ex, ubound_ex), maxim

浏览 20提问于2019-01-15得票数 1

1回答

家庭作业有助于对列名的行进行分类，这些列名以相同的三个字母开头，并且在列中具有相同的值。

、

初学编程，需要帮助解决这个作业问题:考虑名称以"Cl“开头的所有列(分类、聚类，并假设可能还有许多其他列)。检索所有"Cl“列中具有相同值的人员的行。例如，您应该在所有Cl列中返回一个值为4.0的person，或者在所有Cl列中都返回一个值为3.0的person；但您不应该在所有Cl列中返回一个值为4.0的person，只有一列中的值为3.0。提示:首先计算每个学生的"Cl“列的最大值和最小值。我不知道从哪里开始解决这个问题？你不能完全理解被问到的是什么吗？样本数据集图片: 1：https://i.stack.imgur.com/xglFm.png 给定代码的数据

浏览 22提问于2019-02-05得票数 0

1回答

TDBChart:当我在同一图表上使用两个独立的系列时，在条形图中不会显示一个系列的所有X轴值

我有一个通过集成开发环境(XE2)连接了两个TBarSeries的DBChart。所有设置也会在IDE中应用，在运行时不执行任何操作。此数据是定义的日期范围内每个日期的记录计数，每个系列都有其自己的ADO查询。这两个查询都来自不同的表。如果一个系列的数据点(日期)远远超出另一个系列，则其他系列之外的数据点将不会显示在图表上。这似乎只影响橙色系列，即添加到图表中的第二个系列。在附加的图像中，我显示了蓝色和橙色条形图的图表和数据库数据。在左侧的图表中，您可以看到显示的第一个数据点。日期混杂在一起(我正在努力)，但第一个日期是5/8/19。你不能向左滚动。在该时间段之前有橙色数据点不会显示。

浏览 13提问于2019-12-06得票数 0

2回答

如何检查特定列中的最高分，并计算熊猫的平均值？

、

帮助解决家庭作业问题：“让我们将一个人的”数据科学经验“定义为该人在回归、分类和聚类中的最高分数。计算所有MSIS学生的平均数据科学经验。” 编程的初学者。我正在尝试弄清楚如何在列之间进行检查，并将这些列相互比较以获得最大值。然后取找到的值的平均值。非常感谢您提前给予我的帮助！示例数据集图片：： Provided Code: import pandas as pd df = pd.read_csv("cleaned_survey.csv", index_col=0) df.drop(['ProgSkills','Languages',

浏览 6提问于2019-02-06得票数 0

3回答

使用matplotlib绘制分类变量的直方图

、、

我在pandas数据框中有一个列，它有三个可能的分类值。当我尝试使用matplotlib中的plt.hist(data['column'])绘制它时，直方图条没有与x轴刻度对齐，它们的间距也不均匀。我该如何解决这个问题呢？

浏览 2提问于2021-04-29得票数 0

2回答

从分类器特征重要性将最大值传递给Bokeh图中的x_range

、、、

不是在bokeh中手动设置x范围，而是在绘图时传递列的最大值，例如将最大值设置为10，这将是某一列的最大值。 p1 = figure(x_range=(0, 10)) rf_important是分类器的特性重要性，定义为 rf_important = pd.Series(new_rf.feature_importances_, index=x.columns) 此外，rf是pandas.core.series.Series。我想从rf_importance获得第一列的最大值 rf.idmax 上面的内容返回功能重要性中的最大值，而不是列中的最大值。如何访问这些列并从中返回最大值？

浏览 0提问于2018-02-08得票数 1

回答已采纳

2回答

如何将Nan和负数替换为零

、、

? 在上面的数据框中，我试图使用pandas将最后一列中的NaN和负值替换为0，我在这里使用了一些建议，但这似乎也会影响其他列，并将其他列中的值替换为零。如何将其限制为只显示选定的列

浏览 211提问于2021-08-25得票数 0

1回答

组合图二次轴最大/最小尺度的变化

我已经生成了一个组合的散射(主)和聚集列(次要)图表。虽然我显示的数据集的Y值是不同的，但它们都具有相同的X范围。因此，我想对齐主X轴和次X轴的最小值和最大值。对于原始数据来说，这很容易，但是我对第二轴上的数据有困难。我尝试过.Axes(xlCategory, xlSecondary)，但是我收到了一条错误消息，说明“对象'Axis‘的方法'MaximumScale’失败了。” 对于如何改变中轴的最小值和最大值，有什么想法吗？

浏览 5提问于2022-06-24得票数 0

1回答

如何对另外两列的总和求和

、

我有一个带有一些列的df。我可以得到“利润”栏和“佣金”栏的总和。我正在尝试从列‘利润’和‘佣金’中获得总和的新列‘净利润’，但我只能获得列表的串联或列中每行的总和 gross_profit = [df['Profit'].sum()] commissions = [df['Commission'].sum()] 我尝试过的： df['net_profit'] = df['Profit'] + df['Commission'] df['net_profit'] =

浏览 14提问于2020-08-29得票数 2

1回答

使用GroupBy计算熊猫数据框中的自定义速率函数

、

我有一个包含分类数据和NaN值的COLOR列的熊猫数据框- ZIP YEAR COLOR 11111 1990 0 11111 1990 1 11111 1990 NaN 11111 1990 1 22222 2000 0 22222 2000 NaN 22222 2000 NaN 22222 2000 1 如何按ZIP和YEAR列(df.groupby(['ZIP', 'YEAR']))聚合

浏览 12提问于2020-02-17得票数 1

2回答

检查当前行中的所有列值是否小于pandas数据帧中的所有前一行

、

有没有办法检查当前行中的所有列值是否小于pandas数据帧(整个数据帧)中所有前一行(直到当前行)中的相应列值，并相应地创建一个值为1或0的新列？

浏览 0提问于2017-06-15得票数 1

1回答

Pandas:按特定行获取百分位值

、

我尝试获取列value中的值的百分位数，基于min和max列 import pandas as pd d = {'value': [20, 10, -5, ], 'min': [0, 10, -10,], 'max': [40, 20, 0]} df = pd.DataFrame(data=d) df 我获得了一个新的列"percentile"，它看起来像这样： d = {'value': [20, 10, -5, ], 'min': [0, 10, -10,], 'm

浏览 22提问于2020-06-23得票数 0

回答已采纳

3回答

熊猫数据中的分类变量？

、、

我正在研究Wes的Python For Data Analysis，我遇到了一个奇怪的问题，这本书中没有提到这个问题。在下面的代码中，基于他书的第199页，我创建了一个dataframe，然后使用pd.cut()创建了cat_obj。根据这本书，cat_obj是 “一个特殊的分类对象。您可以把它当作表示bin名称的字符串数组；在内部，它包含一个表示不同类别名称的级别数组，以及标签属性中年龄数据的标记。” 太棒了！但是，如果我使用完全相同的pd.cut()代码(在下面5节中)来创建dataframe的一个新列(称为df['cat'])，那么该列将不是一个特殊的分类变量，

浏览 6提问于2014-05-03得票数 16

1回答

MinMaxScaler伸缩不正确

、、

我正在使用我从Lynda.com上获得的sklearn MinMaxScaler代码来缩放我的数据集，以获得预测代码。特征范围应该是(0, 1 )，但我在我的试验数据中注意到一些列大于1。我相信这会导致我的预测代码不正确。有人能帮上忙吗？Belo是我使用的代码... import pandas as pd from sklearn.preproMinmaxcessing import MinMaxScaler # Load training data set from CSV file training_data_df = pd.read_csv("10596_data_traini

浏览 0提问于2018-12-18得票数 1

2回答

分解RandomForest中的连续变量

、、

我想使用随机森林进行基于基尼指数的特征选择。我的数据集混合了数字数据(连续数据)和分类数据(字符串)。这是数据集的一个示例。 Var1 Var2 198 zcROj17IEC 336 DHeTmBftjz 252.3 crIgUHSK8h 252 ZSNrjIX0Db 我知道树在离散数据(分类)上工作，但是Sklearn中的RandomForest是否需要先离散连续的数值数据，还是它可以处理它？对于分类字符串变量，我使用以下方法将字符串编码为带有0和1的数字列 pandas.get_dummies(X['Var2']) 它起作用了，但对于数值，我尝试了下面的离散化 pandas

浏览 0提问于2017-12-02得票数 1

回答已采纳

1回答

Pandas -神经网络的快速DataFrame变换("gausrank")

、、、、

首先，感谢您的帮助我有一个很大的pandas DataFrame，我需要对每个列进行快速的“排名”转换： 1]如果列仅为0-1，则不执行任何操作 2] else (针对每列)： a]在列中查找唯一值 b]对它们进行排序 c]对于列中的每个元素，将其值替换为排序唯一的“排名”列表中的位置可选： d]将这个新值转换为interval - 0.99，0.99 e]对每个元素应用scipy.special.erfinv (以获得类似于“正态”的分布) 当我需要注意速度的时候，我该如何使用Pandas呢？谢谢

浏览 3提问于2017-12-03得票数 1

1回答

Python:如何在一列数据中查找最高数字

、、

我有csv和txt文件，我想分析它们并在特定的列中找到最高的数字。例如，我想知道第5列中的最高数字(在所有行中)。这就是到目前为止我所知道的，但我不知道如何搜索特定的列。 `import csv #opening csv file = open("Scoring.csv","r") csv = csv.reader(file) csv_1=[] rows = [] for in_line in file: row = [float(each) for each in in_line.split()] rows.append(row) fi

浏览 2提问于2017-05-12得票数 0

1回答

将列添加到日期时间驱动的Groupby函数

、、、

我有一个数据帧； index UoW Category Description Date Channel Trans ADATE 2018-12-31 1603 Pay Infringement 31/12/2018 AustPost 209 2018-12-31 1604 Pay Infringement 31/12/2018 AustPost 14 2019-12-31 1605 Pay Infringement 31/12/2018 CSC 234 2019

浏览 9提问于2019-12-07得票数 1

回答已采纳

1回答

在python中如何将列数据类型int64转换为分类列数据类型？

、、、、

我怎样才能将int改为范畴 import pandas as pd import numpy as np data = pd.read_excel('data.xlsx',header=0) data.info() 现在有一个柱的损坏，即int64。它显示了不同的伤害群。如何将该列转换为分类列？(背景是，有4个伤害组。1不是真正的伤害，4是完全伤害)。我试过： data['damage']= data.damage.astype('categorical') *data type 'categorical' not unde

浏览 0提问于2020-08-30得票数 0

回答已采纳

1回答

如何检索具有max和min值Zero的列名，并将其从dataframe中删除？

、、、、

假设我们使用名为df的数据数据：- Name Scores Project_score Attendence 1 Kahn 25 0 0 2 Uri 22 0 0 3 John 24 0 0 4 Shushi 21 0 0 5 Johnny 25 0 0 我

浏览 6提问于2022-09-24得票数 0

1回答

用MLlib缩放数据集

、、、、

我正在使用spark对下面的数据集进行一些缩放： +---+--------------+ | id| features| +---+--------------+ | 0|[1.0,0.1,-1.0]| | 1| [2.0,1.1,1.0]| | 0|[1.0,0.1,-1.0]| | 1| [2.0,1.1,1.0]| | 1|[3.0,10.1,3.0]| +---+--------------+ 您可以在找到此数据集的链接。在执行标准缩放之后，我将得到以下结果： +---+--------------+-------------------------------

浏览 0提问于2020-04-19得票数 1

回答已采纳

1回答

为什么ggplot2 geom_col误读离散x轴标签为连续的？

、、

目的:绘制一个列图，表示离散地点的浓度值。问题:14个站点标签是数字的，所以我认为ggplot2假设数据是连续的，并为它所认为的“缺失数字”添加空格。相对于dataframe中的14个值，我只想要14个标记/标签的14列。我试过将这些站点指定为因素和角色，但两者都不起作用。另外，如何确保y轴以'0‘结尾，使列的底部满足x轴？谢谢数据： Sites: 2,4,6,7,8,9,10,11,12,13,14,15,16,17 Concentration: 10,16,3,15,17,10,11,19,14,12,14,13,18,16

浏览 5提问于2022-03-24得票数 0

1回答

sklearn.ensemble.RandomForestClassifier的输出包括NaN值

、、、

我正在使用来分析数据，并且我很困惑地看到NaN值在预测中没有任何NaN在训练集中或在测试集中。 print preds_y[preds_y.isnull().any(axis=1)].shape print train_y[train_y.isnull().any(axis=1)].shape print train_features[train_features.isnull().any(axis=1)].shape print test_features[train_features.isnull().any(axis=1)].shape > (4830, 1) > (0,

浏览 0提问于2016-09-13得票数 1

2回答

盲特征工程

、、、

我收到了一个分析数据集，其中有~100个带有匿名列名的数字列(X1、X2、X3等.)并要求进行二进制分类。基于SVM的分类算法具有较好的分类精度(> 95%)，但由于对列没有直觉，除了标准标度、零值替换等外，我无法在特征工程或特征生成方面做更多的工作。对于如何进行某种自动特性生成，即各种列的简单数学组合以创建新的、有用的特性，是否有任何标准逻辑？这类东西对线性或基于树的模型有任何数学基础吗？或者只有当一个人拥有基于列名的直觉时，功能工程才真正有意义.

浏览 0提问于2019-07-30得票数 3

1回答

红移表批准我的表的分发键和排序键

、

我有一个表，其中的列类似于record_id、creation_date、active_time、inactive_time和更多的数据列。到目前为止，桌子上有大约1200万条记录。表中不同的'record_id‘(varchar(6))值计数是: 8M (数据分布均匀在本列)不同的'creation_date’(日期)值在表中计数为:800个(数据分布甚至在这个列上)集群细节--总切片为16。如果我谈到这个表与其他表的联接，它主要是基于'record_id‘和'creation_date’列的。有一段时间，active_time和inactive_time也

浏览 1提问于2021-05-21得票数 0

1回答

用于静态google地图的Atlas样式地图索引

、、、、

我使用的是静态谷歌地图，但实际上这个问题适用于任何地图项目。我想把一张地图划分成多个象限(比如50x50像素)，并将这些列标记为A、B、C.排成1，2，3. 接下来我打算做一件事， ( 1)找出最北、最东、最南、最西的标记2)用这一信息来定义每一行和每列的边框，3)按其行和列对每个标记进行分类(例如，标记1= A,2) 一些要求，我不知道缩放级别，因为我让Google为我设置适当的缩放级别，我不想使用依赖于缩放级别的算法。不过，我知道地图上显示的所有标记的位置。下面是一个地图的例子，我想对标记进行分类，我发现这些看起来是个很好的开始，，但我想我还需要一些帮助才能开始。有人能

浏览 4提问于2010-12-27得票数 0

回答已采纳

2回答

使用data.table识别连续和分类数据

、

DATA = data.table(col1 = rbinom(10,10,.5), col2 = rnorm(10), col3 = rbinom(10,1,.5), col4 = rbinom(10,10,.5), col5 = rbinom(10,1,.5)) 我有一个大型数据集，其中连续变量属于integer或numeric类，分类变量属于integer类。因此，我正在寻找其他规则，使我能够区分连续变量和分类变量。所有分类变量都是0-1，如表中

浏览 2提问于2018-10-27得票数 0

3回答

过采样: Python中的二进制和分类数据的SMOTE

、

我想将SMOTE应用于包含二进制、分类和连续数据的不平衡数据集。有没有一种方法可以将SMOTE应用于二进制和分类数据？

浏览 2提问于2017-12-05得票数 11

回答已采纳

1回答

scikit中每列的max_value和min_value

、、、、

我有一个包含78列和5707行的数据集。几乎每一列都有缺失值，我想将其归因于IterativeImputer。如果我理解正确的话，它将根据来自其他列的信息对每一列进行“更聪明”的推算。但是，在估算时，我不希望估算的值小于观测到的最小值或大于观测到的最大值。我知道有max_value和min_value参数，但我不想对估算施加“全局”限制，相反，我希望每个列都有自己的max_value和min_value (这是已经观察到的最大值和最小值)。否则，列中的值就没有意义了(人数为负值，费率为负值，等等) 有没有办法实现这一点？

浏览 15提问于2020-02-14得票数 1

1回答

如何从pandas dataframe中删除连续的重复行，同时更新列值？

、、

我有以下数据结构： |a |b |start_time |end_time 0 |aaba |d |11:26 | 11:27 1 |aba |c |11:27 | 11:32 2 |aba |c |11:32 | 11:34 3 |cab |ab |11:34 | 11:35 4 |aba |c |11:35 | 11:40 我想合并列a和b上重复的连续行，然后将新行的start_time和en

浏览 16提问于2019-06-14得票数 3

1回答

将熊猫数据中的分类值转换为自定义编号

、、、

我有一只熊猫的数据，其中我有分类值和数字值。现在，我不需要为分类数据获取二进制数据，而是要自定义它。假设我有像high和low这样的值。熊猫给low = 1和high = 0，我不想要。例如： df_bin=pd.get_dummies(global_df[['CATEGORY','IMPACT']]) 现在事件类别有过去的值，上面的操作给出的值是1而不是0。所以，我怎样才能把它变成0 另一列是有价值的区域销售，广告现在为这些值，我想给出一个自定义号码。

浏览 2提问于2021-12-07得票数 0

回答已采纳

1回答

将分类流水线应用于数据集的子集

、、

我正在对短文本片段(1-3个句子)进行分类。就主题而言，该数据集包含有关植物、动物和无关内容的文本。首先，我使用分类器(线性支持向量机)来标记每个片段的类别(svm_gen: 0-无关，1-植物，2-动物)。工作正常，没有问题。现在每个类别都有子类别，我也想用自己的算法对每个子类别进行分类。例如，对于植物(svm_plant: 0-其他，1-母猪，2-生长，3-收获)和动物(svm_animal: 0-其他，1-饲料，2-宠物，3-播放)。我如何有选择地将各自的管道应用于预先分类的变量，而不拆分，然后再次追加数据集？如前所述，我可以基于预分类拆分数据集，在新的熊猫数据帧上应用第二轮分类器，

浏览 2提问于2019-05-14得票数 0

1回答

如何在Pandas Dataframe (分类数据)中将列名排序到存储箱中

、、、、

我有一个Pandas数据框，它包括173列不同的大学专业(例如category_ACCOUNTING)，在列下面的每一行中都有一个1或0的值来指示学生是否选择该专业。我想将这173列排序为两列- STEM和非STEM专业。如何将分类数据分类到两个分类存储箱中？尝试使用pandas.cut()不起作用

浏览 13提问于2019-08-15得票数 0

1回答

如何在python中存储一系列值

、、

几天前我刚开始研究python，我在寻找解决方案方面遇到了一些问题。因此，我一直在使用py魅力，并下载了一些模块，如xlrd、xlwing和xlwt来分析和格式化我的excel数据。我的缅因州目标是从作为正负值的列中找到最高值，例如： a = [0, 0.34, 0.7, 0.88, 0.98, 0.5, 0.3, 0.1, -0.1, -0.4, -0.6,-0.9, -0.2, 0, 0.1, 0.5, 0.9, 0.3,0.1, 0] 所以我的问题是:无论如何，还是要将最大值(0.98和0.9)和最小值(-0.9)存储在列表或其他什么地方？感谢您的耐心，并为语法错误感到抱歉。

浏览 1提问于2016-06-27得票数 0

1回答

如何处理数据集中的大量类别？

、、

我有一个“书籍”的数据集，最初包含8列，其中3列包含可以分类的文本值。3列包含“语言代码”、“作者姓名”和“书名”。由于LinearRegression不接受文本作为输入，所以我决定使用“pandas_getdummies(.)”对这3列进行分类但是在对其进行分类之后，列数从8列超过了20072，这太高了。数据集url为：https://www.kaggle.com/jealousleopard/goodreadsbooks/downloads/goodreadsbooks.zip/6 因此，我的问题是：名字和名字有什么关系？把它分类似乎不对。剩下的两列怎么办？如果保留标题名称，则列数将

浏览 0提问于2019-07-15得票数 1

回答已采纳

2回答

如何快速规范化pandas数据帧中的数据？

我有一个熊猫数据框架，如下所示。 import pandas as pd df = pd.DataFrame({ 'A':[1,2,3], 'B':[100,300,500], 'C':list('abc') }) print(df) A B C 0 1 100 a 1 2 300 b 2 3 500 c 我想要使整个数据帧标准化。由于列C不是编号列，我所做的如下所示(即首先删除C，

浏览 19提问于2020-06-22得票数 1

回答已采纳