如何使用qcut通过训练数据的值来标记所有数据？_为什么使用qcut后，我的数据值被"NaN“替换了？_在数据帧中标记给定值的所有值 - 腾讯云开发者社区

、

qcut在pandas中是一个很棒的功能。但在正常的机器学习情况下，我们通常需要将数据拆分成训练数据和测试数据。让我举一个例子：我有一个包含7个数据的数据集。In [5]: pd.qcut([1,4,3,2,5,3,4], 3, labels=False) Out[5]: array([0, 1, 0, 0, 2, 0, 1]) 但是我想要的只是基于前5个元素的qcu

浏览 15提问于2021-01-31得票数 0

回答已采纳

1回答

如何定义pandas qcut标签的功能？

、

我使用pandas.qcut将数据划分为5个组，并希望根据最小和最大分数标记每个组。例如，我尝试了数据框列中的"age“数据。df['age group'] = pd.qcut(df['age'], 5) 它的结果是 Categories (5, interval[float64]): [(37.999, 61.0] < (61.0, 67.0] < (67.0, 73.

浏览 19提问于2019-04-16得票数 1

回答已采纳

6回答

如何使用非唯一的bin边进行qcut？

、

我的问题和前面的一样：但是，我仍然希望在小数中包含0值。有没有办法做到这一点？换句话说，如果我有600个值，其中50%是0，其余的假设在1到100之间，我如何对小数1中的所有0值进行分类，然后对小数标签2到10中的其余非零值进行分类(假设我想要10小数)。我是否可以将0转换为nan，将剩余的非nan数据切成9个小数(1到9)，然后在每个标签(现在是2到10)上加1，并手动将<e

浏览 2提问于2013-11-23得票数 78

1回答

为什么pd.qcut()会产生巨大的边界？

、、、

我有一个事件数据的数据帧，其中的一列是该事件发生的时间间隔。我想使用pd.qcut()使每个间隔的百分位数给定其中的事件，并为每个事件分配其各自的百分位数。in_interval = paired_events.loc[events['TimeInterval'] == event_row['TimeInterval']] quartiles = pd.qcut

浏览 30提问于2019-03-26得票数 0

1回答

固定宽度与自适应平顶

、、、、

我的数据中有一些连续变量，我希望应用二进制。这些值从0到800不等，但我的动机是数据分布是倾斜的，如下图所示：然而，我读过这个关于绑定数据这的惊人博客，其中作者声称adaptive binning比fixed-width binning更好我理解这背后的想法，因为我们在固定宽度方法中定义的一些回收箱与其他回收箱相比，数据分布可能太少，这将不是一个公平的游戏，因为在quanti

浏览 0提问于2020-01-20得票数 2

回答已采纳

2回答

Pandas将数据帧分割为间隔，如果在间隔中，则获取值

、、

我有一个数据帧，并根据col1中的值将其分成10个分位数： pd.qcut(df.col1, [0,.1,.2,.3,.4,.5,.6,.7,.8,.9,1]) 这就产生了一系列的间隔。根据col2中的所有值，这些值位于之前创建的间隔内，如下所示： qcut = pd.qcut(df.col1, [0,.1,.2,.3,.4,.5,.6,.7,.8,.9,1]) qlist =

浏览 28提问于2020-09-04得票数 0

回答已采纳

1回答

有没有办法在滑雪管道中连锁pd.cut FunctionTransformer？

、、、

我正在努力制作一个DataFrame预处理管道，使用sklearn并链接各种类型的预处理步骤。我想链接一个SimpleImputer转换器和一个应用pd.qcut (或pd.cut)的FunctionTransformer，但是我一直收到以下错误：]) 如果我简单地将FeatureSelector转换器和FunctionTransformer链接到pd.qcut，而忽略了Simpl

浏览 1提问于2020-06-17得票数 3

回答已采纳

1回答

pd.qcut的值为inf (无穷大) ValueError: Bin边必须是唯一的：

、、

我有一个数据集，它是两个浮点数的比率。有些值具有无穷远(除以零)情况下的inf。如何使用pd.qcut/pd.cut和inf值一起工作？ ValueError: Bin edges must be unique: array([ 1.20089207e+03, 6.02984295e

浏览 8提问于2017-01-05得票数 1

回答已采纳

2回答

如何将我在pandas中的数据拆分为指定的存储桶，例如40-40-20？

、、、

全, 我尝试将我的数据分成3个存储桶，分别为40%、40%和20%。我怎么才能用熊猫做到这一点呢？例如，你得到最低的40%，中间的40%和最高的20%： pd.cut(df['count'], 5,labels = ['1','2','3','4','5'],retbins=True) 上面分成5个五分位数

浏览 19提问于2021-05-07得票数 0

回答已采纳

1回答

入库逻辑中的Panda.qcut

、

我正在尝试用不同的方法对连续变量进行分类。我使用了两个方法- bin_sequence和entropy_based_binning方法qcut。为了测试，我创建了一个具有100个值的数据。我将前50条记录的值设置为1，接下来的几条记录设置为2，几条记录的值设置为5，12，然后随机设置几个数字，从而使数据倾斜。当我试图用数量=6的bins运行它时，它只用q

浏览 25提问于2020-09-09得票数 0

2回答

将pandas qcut箱应用于新数据

、

我使用pandas qcut将一些数据分成20个bin，作为训练二分类模型的数据准备的一部分，如下所示：我的问题是，我如何将从上面的qcut语句派生的相同绑定逻辑应用于一组新数据，例如用于模型验证目的。有什么简单的方法可以做到这

浏览 0提问于2016-06-19得票数 33

回答已采纳

1回答

如何通过qcut获取bin值

、

我应用pd.qcut将我的数据压缩到24个存储区。如何将bin值放入列表？-0.001,1.05,2.46,3.797...res.cat.categories IntervalIndex([(-0.001, 1.05

浏览 1提问于2019-02-07得票数 0

1回答

dataframe中每列的分位数值

、、

我有一个由数字列组成的数据帧。我正在尝试计算每一列的十进制排名值。下面的代码给出了整个数据帧的值。我怎么按列来做呢？谢谢。

浏览 2提问于2018-05-03得票数 0

1回答

Pandas qcut使用相同的数据返回两个不同的结果

、

我创建了两个相同格式的虚拟数据，然后使用pd qcut得到了不同的结果。请告诉我如何使输出正确(如数据1)？数据1：df1=df[['X']].assign(var_bin=lambda x: pd.qcut(x['X'], q=20

浏览 0提问于2021-03-16得票数 0

1回答

需要创建具有相同数量的存储箱。还需要生成一个报告，其中包含仓库和切割之间的交叉表

、、

我使用的是菱形数据集，下面是列 ? 问题:创建具有相同数量的存储箱。还需要生成一个报告，其中包含仓位和切割之间的交叉表。表示每个单元格下的数字占总数的百分比我有上面的问题。虽然我是一个初学者，但我创建了Volume列，并尝试使用qcut创建具有相同数量的bin，但我无法继续。有人能帮我找到解决这个问题的方法吗？pd.qcut(diamond['Volume&#x

浏览 25提问于2020-06-11得票数 0

回答已采纳

4回答

熊猫不把相同数量的观察放进每个垃圾箱

、、

我有一个数据框架，我可以从中选择一个列(系列)如下： value_rank275490 35275497 69275499 83value_rank是以前从更大的数据集中创建的百分位数等级我想要做的是创建这个数据集的回收箱，例如五分位数。pd.<

浏览 4提问于2016-02-03得票数 14

回答已采纳

1回答

我在数据框中有一个列，其中包含数值(例如年龄)，并希望将其绑定到几个类别(或范围)中，如下所示： df['Age_binned'] = pd.qcut(df['Age'], 5, duplicatesdrop') 这会产生以下范围： (-0.001, 36.0](45.0, 54.0](62.0, 87.0] 但是，我知道该列还包含一些NaN值，我希望将它们作为单独的bin处理。我如何才能做到这一点呢

浏览 4提问于2021-01-17得票数 0

1回答

如何保存.qcut()中的时间间隔？

、、、

我被告知要使用.qcut()来查找给定的每个百分位数的值。返回值是列表中相同的间隔值。如何将间隔值保存到每个特定的百分位数？[In] pd.qcut(df['A'], 4)824448 (35.881, 1363.92] 3450257 (

浏览 18提问于2019-06-06得票数 0

1回答

Python - Pandas群和过滤器

、、、

我把它作为一个csv在熊猫中工作--前十排： permno price mv yearmonth8692 10241 30.8750 5.742132e+06 198303 data_q80=data_q80[data_q80["mv"]<=q80[yearmonth]]

浏览 0提问于2019-04-01得票数 0

回答已采纳

1回答

当我们只有一个输入，没有序列时，我们可以使用LSTM模型吗

、、、

我有一系列可用的数据。我可以使用这个数据集来训练LSTM模型。假设我使用t，t+1，...，t+5来训练我的模型并预测t+6使用LSTM可以做到这一点吗，或者唯一的方法是通过训练中使用的所有时间步长来</e

浏览 14提问于2021-03-01得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云