为什么使用qcut后，我的数据值被"NaN“替换了？

使用qcut函数对数据进行分箱操作时，可能会出现数据值被"NaN"替换的情况。这是因为qcut函数在进行分箱时，会根据指定的分箱数量或分位数将数据划分为不同的区间。如果数据中存在缺失值或者极端值，可能会导致某些数据无法被准确地分配到某个区间，从而被标记为"NaN"。

为了解决这个问题，可以采取以下几种方法：

数据清洗：在使用qcut函数之前，先对数据进行清洗，处理缺失值和异常值，确保数据的完整性和准确性。
设置labels参数：qcut函数的labels参数可以用于自定义分箱后的标签，可以将"NaN"替换为其他合适的值，如"Unknown"或者"Missing"。
设置duplicates参数：qcut函数的duplicates参数可以控制是否允许出现重复的分箱边界。如果设置为True，则允许出现重复的边界，这样可以避免数据被标记为"NaN"。
自定义分箱规则：如果对于特定的数据集，希望使用自定义的分箱规则，可以通过传递自定义的分箱边界列表给qcut函数的bins参数，来实现更精确的分箱操作。

腾讯云相关产品和产品介绍链接地址：

数据清洗和处理：腾讯云数据智能挖掘平台（https://cloud.tencent.com/product/tcdm）
数据分析和挖掘：腾讯云数据分析平台（https://cloud.tencent.com/product/dmp）
人工智能服务：腾讯云人工智能（https://cloud.tencent.com/product/ai）
数据库服务：腾讯云数据库（https://cloud.tencent.com/product/cdb）
云原生应用开发：腾讯云容器服务（https://cloud.tencent.com/product/tke）
云服务器：腾讯云云服务器（https://cloud.tencent.com/product/cvm）
网络安全服务：腾讯云安全产品（https://cloud.tencent.com/product/safety）
音视频处理：腾讯云音视频处理（https://cloud.tencent.com/product/mps）
物联网平台：腾讯云物联网开发平台（https://cloud.tencent.com/product/iotexplorer）
移动开发：腾讯云移动开发平台（https://cloud.tencent.com/product/mpt）
存储服务：腾讯云对象存储（https://cloud.tencent.com/product/cos）
区块链服务：腾讯云区块链（https://cloud.tencent.com/product/baas）
元宇宙服务：腾讯云元宇宙（https://cloud.tencent.com/product/mu）

对DataFrame进行排序、存储桶和应用函数

、

我有以下示例数据帧： pd.DataFrame({'Name': ['A', 'B', 'C', 'D', 'E'], 'Score': [2, 6, np.nan, 3, 4], 'Value 1': [10, 30, 20, 5, 15], 'Value 2': [400, 250, 100, 300, 150]}) Name Score

浏览 13提问于2020-06-18得票数 0

1回答

数组/字符串lastIndexOf不一致的结果

、、

代码是自描述的 [3, 1, 3].lastIndexOf(3) 2 [3, 1, 3].lastIndexOf(3, undefined) 0 // wtf? //ok, lets compare with string '313'.lastIndexOf(3) 2 '313'.lastIndexOf(3, undefined) 2 //wow!

浏览 1提问于2016-06-11得票数 2

回答已采纳

1回答

pd.qcut的值为inf (无穷大) ValueError: Bin边必须是唯一的：

、、

我有一个数据集，它是两个浮点数的比率。有些值具有无穷远(除以零)情况下的inf。如何使用pd.qcut/pd.cut和inf值一起工作？我的数据可以访问。 q = pd.qcut(df['ratio'], 10) ValueError: Bin edges must be unique: array([ 1.20089207e+03, 6.02984295e+04, 1.26445577e+05, 2.29982770e+05, 5.13176079e+05, 1.28794976e+06, 4.96001538e+06

浏览 8提问于2017-01-05得票数 1

回答已采纳

2回答

熊猫的数据以最高的N%

、

我有一个熊猫系列(作为更大数据框架的一部分)，如下所示： 0 7416 1 10630 2 7086 3 2091 4 3995 5 1304 6 519 7 1262 8 3676 9 2371 10 5346 11 912 12 3653 13 1093 14 2986 15 2951 16 11859 我想根据以下分位数对行进行分组： Top 0-5% Top 6-1

浏览 1提问于2015-12-09得票数 6

回答已采纳

1回答

将DF中的值替换为相对于其他值的四分位数

、

我有一个巨大的CSV文件，其中包含一组跨项I的度量，我试图相互比较，并且我希望在每个度量中找到每个项目的四分位数，并将每个实际数字替换为列中的四分位数排序。下面给出了一些虚拟数据的示例。如果度量有NaN值，我想完全忽略它们。因此，对于Metric 2，四分位数将基于具有10个值而不是12个值的列。 ID Metric 1 Metric 2 Metric 3 ----------------------------------------- 1 10 4.8 155 2 11

浏览 0提问于2014-11-07得票数 3

回答已采纳

1回答

使用Python根据另一列上的类别将一列划分为多个分位数

、

在泰坦尼克数据集中，我想根据每个登机站的值C、S和Q将票价列分成几个分位数。例如： pd.qcut(titanic_train['Fare'],q=3,labels=['Low','Med','High']) 无论乘客是从不同的车站出发，都会将票价列削减到几个分位数，如果客户是从不同的车站出发，则可能不是这样。预期的解决方案:我想要一个功能，以削减每个分位数的票价列分别。 ?

浏览 15提问于2021-07-14得票数 0

回答已采纳

1回答

将二进制值转换为分类

、、

我正在参与泰坦尼克号数据集(Kaggle)竞赛。dataset中的一列是Fare，它包含浮点值。对于EDA，我已经将票价列转换为箱，并为箱分配了标签。问题是一些标签被分配给了np.nan。 Fare 1284 non-null float64 以下是一些示例值： 0 7.2500 1 71.2833 2 7.9250 3 53.1000 4 8.0500 当我使用qcut将bins列转换为bins时： dataset['FareBin'] = pd.qcut(dataset['F

浏览 10提问于2019-12-14得票数 0

1回答

如何在python中使用pd.qcut对列值>0的列进行十进制化

、、

列包含以下数据(数据已按该列的降序排序)。此列中有两百万条记录，其中大约一百万条记录为零。此列的分布如下所示 Column Distribution min 0 mean 4.199 25% 0 50% 0 75% 0 max 1.400000 因此，在降序排序后，基本上只有前25%的数据。我想为下面的数据创建等大小的存储箱，删除零并仅在列值大于>0的情况下对数据进行存储 enter code here Column 1400000 97000 79000 43000 28000 11000 ... so on 0 0 0 0 0 0 0 我只想把column_values >

浏览 18提问于2019-12-04得票数 0

1回答

数据集中无的Pandas cut函数

、

在我的数据集中，有一列如下所示，例如： [111, 112, None, 113, 114, 115, 116, None, 117, 118, 119] 我想把这一列放入，比方说3个箱子，这样我就可以 [0, 0, None, 0, 1, 1, 1, None, 2, 2, 2] 如何使用pandas.cut实现这一点？它不接受None作为输入中的元素

浏览 2提问于2020-01-14得票数 0

2回答

如何在排序活动记录对象时将NaN值设为最低？

、、、

我想对我的表进行排序，但其中有NaN值，问题是在ruby/rails中，NaN被认为是最高的，而我想把它设为最低的？我正在考虑从列表中删除NaN，对非NaN列表进行排序，并在其后添加NaN 谁有更方便的方法？我的数据库为postgresql，列类型为Decimal/BigDecimal，值为Decimal/BigDecimal 该模式是 create_table "download_speeds", force: :cascade do |t| t.bigint "location_id", null: false t.string &#

浏览 65提问于2021-08-06得票数 0

回答已采纳

2回答

熊猫:使用qcut(数据，3)后，如何找到分位数的范围。

、

我的数据如下： spread CPB% Bin 0 0.00000787 0.001270648030495552731893265565 B 1 0.00000785 0.003821656050955414012738853503 A 2 0.00000749 0.005821656050955414012738853503 C 3 0.00000788 0.004821656050955414012738853503 B 因此，我基本上按照它们的价差值分配了一个字母A、

浏览 0提问于2019-01-11得票数 1

回答已采纳

2回答

如何使用IntervalIndex生成.cat.codes

、、、、

我有一个数据集，我将qcut和表单类别作为一个pandas.core.indexes.interval.IntervalIndex。如何使用从原始数据集生成的相同类别对未来的数据集进行分类？解释代码： >>> import pandas as pd >>> import numpy as np >>> np.random.seed(42) >>> df = pd.DataFrame(np.random.randint(0,100,size=(10, 4)), columns=list('ABCD'))

浏览 1提问于2018-03-13得票数 2

回答已采纳

2回答

在熊猫中创建一个分数列，其值取决于另一列的百分位数。

、、

我有以下数据： User_ID Game_ID votes 1 11 1040 1 11 nan 1 22 1101 1 11 540 1 33 nan 2 33 nan 2 33 290 2 33 nan 根据列votes中值的百分位数，需要根据以下规则创建一个新列：如果“选票”值为>=第75百分位数，则分配分数为2。如果>=25th百分位数分配的分数为1 如果<25百分位数，则分配0的分数。

浏览 0提问于2019-04-18得票数 3

回答已采纳

3回答

“插入”语句导致“参数7(”)引起的错误:所提供的值不是数据类型float的有效实例。

、、

我每次使用Python将一批CSV文件加载到Server表中。每个文件都包含一些自由的文本字段和错误的数据，在尝试插入之前，我会对它们进行修剪和重命名。通常(大约95%的时间)，代码似乎工作，但是出现异常与下面描述的错误消息。我感到困惑的是:我的表中只有四列，无法理解它为什么要查找参数7；( b)文本列被加载到nvarchar(max)格式的列中，所以我不希望出现数据类型错误。我已经检查了源文件以查看哪些行抛出了错误，问题行与成功加载的其他行之间似乎没有明显的区别。我已经将进程重新调整为只插入JobID (作为bigint)，它可以正常工作，但是一旦引入文本字段，它就会导致错误。我使

浏览 3提问于2018-12-31得票数 11

回答已采纳

2回答

基于群体的大熊猫数据百分比的查找

、、

Season Name value 2001 arkansas 3.497 2002 arkansas 3.0935 2003 arkansas 3.3625 2015 arkansas 3.766 2001 colorado 2.21925 2002 colorado 1.4795 2010 colorado 2.89175 2011 colorado 2.48825 2012 colorado 2.08475 2013 colorado 1.68125 2014

浏览 1提问于2017-10-30得票数 1

回答已采纳

1回答

如何在忽略其他在Dataframe中满足某一条件的值的同时存储值？

、、

我的Dataframe由非负值组成，除了被编码为负的缺失值之外。因此，我想在每一列中加入，而不包括负值。到目前为止，qcut on [df>0]将南放在以前有负值的地方，这不是我想要的，因为我希望保留这些值(它们有意义)。 dat[i]=pd.qcut(dat[i][dat[i]>0], 10,labels = False, duplicates='drop')

浏览 0提问于2018-10-04得票数 0

回答已采纳

1回答

Pandas -在保留NaN的同时对数值列进行装箱

、

我在数据框中有一个列，其中包含数值(例如年龄)，并希望将其绑定到几个类别(或范围)中，如下所示： df['Age_binned'] = pd.qcut(df['Age'], 5, duplicates='drop') 这会产生以下范围： (-0.001, 36.0] (36.0, 45.0] (45.0, 54.0] (54.0, 62.0] (62.0, 87.0] 但是，我知道该列还包含一些NaN值，我希望将它们作为单独的bin处理。我如何才能做到这一点呢？我尝试使用.fillna()，但是如果我用数字值填充NaN，它会与上面的bin合并

浏览 4提问于2021-01-17得票数 0

1回答

如何使用groupby在Pandas/Numpy中展开窗口？

、、、

数据帧示例。最后一列可能有NaNs。 import numpy as np import pandas as pd np.random.seed(0) nb_rows=100 # Creating the dataframe df = pd.DataFrame(np.random.rand(nb_rows,3), index=pd.date_range('2021-01-01', periods=nb_rows, freq='D'), columns=['group1', 'group2', 'measure1'

浏览 36提问于2021-06-19得票数 0

2回答

读取netCDF文件时缺少值'--‘

、、、

在读取NetCDF文件时，我将我的水柱数据存储到数据帧中，以便再次读取。在数据帧中，我提出了缺失值--，这些值也可能被称为“掩码”值。我尝试使用filedata.replace('--','nan')替换它们，但它甚至替换了浮点数，并且我得到了使用nan的整个数据帧。此外，pd.dropna()也不起作用。在读取netcdf时避免这些值，或者在不影响浮点数的情况下用nans替换数据帧中的这些值，有什么好方法呢？以下是我的数据帧的示例部分： so_1 so_2 so_3 -- -- -- -- -- -- -- -- -- -- --

浏览 4提问于2018-08-28得票数 1

1回答

将qcut应用于滚动分析

、

我想将pandas qcut应用于滚动窗口。我不确定如何去做this...idea，就是花上20天，找到落在上四分位数中的值，找出上四分位数中值的平均值。并返回该滚动时间序列的平均值。所以如果我有 s = pd.Series([5,6,10,12,13,13,20,21,22]) s.rolling(2,2).apply(lambda x: pd.qcut(x,5)) 这会导致 0 NaN 1 NaN 2 NaN 3 NaN 4 NaN 5 NaN 6 NaN 7 NaN 8 NaN dtype: float64 如何获得每个时间序列的qcut间隔？谢谢

浏览 12提问于2019-02-22得票数 2

2回答

将pandas qcut箱应用于新数据

、

我使用pandas qcut将一些数据分成20个bin，作为训练二分类模型的数据准备的一部分，如下所示： data['VAR_BIN'] = pd.qcut(cc_data[var], 20, labels=False) 我的问题是，我如何将从上面的qcut语句派生的相同绑定逻辑应用于一组新数据，例如用于模型验证目的。有什么简单的方法可以做到这一点吗？谢谢

浏览 0提问于2016-06-19得票数 33

回答已采纳

1回答

带有非唯一值的groupby的Pandas qcut

、

我正在尝试对pandas数据帧执行groupby，并在该groupby上执行qcut，以对分位数上的值进行分类。问题是有些组只有一个值，所以qcut用ValueError: Bin edges must be unique抱怨。有没有一种方法可以直接忽略groupby和qcut上的这些情况？我正在做类似这样的事情 df['quantile'] = df.groupby(['grouping'])['values'].transform( lambda x: pd.qcut(x, 4)) 我可以在两个级别的分组上

浏览 5提问于2015-10-21得票数 2

4回答

什么是熊猫日期场的切割/切割？

、

更新:从0.20.0版本开始，熊猫裁剪/qcut处理日期字段。有关更多信息，请参见 . pd.cut和pd.qcut现在支持datetime64和timedelta64 d类型(GH14714、GH14798)。原始问题： Pandas和qcut函数非常适合用于枢轴表等连续数据，但我看不出在混合中获取数据时间轴的简单方法。令人沮丧的是，熊猫在所有的时间相关的东西是如此伟大！下面是一个简单的例子： def randomDates(size, start=134e7, end=137e7): return np.array(np.random.randint(start, e

浏览 7提问于2013-05-01得票数 8

回答已采纳

2回答

pandas在值少于分位数的序列上使用qcut

、

我有数以千计的序列(DataFrame的行)需要应用qcut。周期性地会有一个序列(行)的值少于所需的分位数(例如，1个值与2个分位数)： >>> s = pd.Series([5, np.nan, np.nan]) 当我将.quantile()应用于它时，它可以毫无问题地分解成两个分位数(具有相同的边界值)。 >>> s.quantile([0.5, 1]) 0.5 5.0 1.0 5.0 dtype: float64 但是，当我对分位数使用整数值应用.qcut()时，抛出一个错误： >>> pd.qcut(s, 2) ...

浏览 0提问于2017-05-18得票数 3

1回答

当使用df.loc更改df的某些值时，Im得到的输出与预期不同

、、、

我有一个数据框架，我想根据四分位变量分配一个四分位数，这给了我以后在for中使用的范围。问题是，它不是仅仅更改四分位数，而是创建n(数据帧的连)行，然后使用行号作为循环。 quartile = numpy.quantile(pivot['AHT'], [0.25,0.5,0.75]) pivot['Quartile'] = 0 for i in range(0,len(pivot)-1): if i <= quartile[0]: pivot.loc[i,'Quartile'] = 1 elif i <=

浏览 3提问于2022-05-13得票数 3

回答已采纳

1回答

对分类绑定的变量pandas进行过滤

、

我有一个名为stroke_data_complete的数据框架，其中我们使用以下代码对变量进行绑定； #Cut into 4 bins of equal frequency counts stroke_data_complete['glucose_level_quartile'] = pd.qcut(stroke_data_complete['avg_glucose_level'], q=4) stroke_data_complete['glucose_level_quartile'].value_counts(); 当我检查这个新列的数据类型

浏览 144提问于2021-04-12得票数 0

回答已采纳

1回答

如何基于逻辑表达式使用groupby创建新列

、、

我有这个CSV文件我想要创建三列：'MT_Value‘、'M_Value’和'T_ data '，它们是按年份和月份分组的数据的平均值，我通过这样做完成了这一任务。 data.groupby(['Year','Month']).mean() 但是对于M_value，我只需要做与零不同的值的平均值，而对于T_Data，我需要计算零除以值的总和，我猜对于最后一个值，我需要用分组的总数据量除以零的值，但老实说，我有点迷路了。我看了谷歌，他们说了些关于变换的话，但我不太明白谢谢。

浏览 1提问于2020-05-11得票数 0

回答已采纳

1回答

熊猫分位数函数不返回给定分位数的正确数目

、、、

我有一个有2,000多条记录的dataframe，其中有多个包含不同余额的列。根据余额，我想把它分配给一个水桶。试图将每个平衡列分割成一个分位数，并有以下桶0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9具体，将余额转换为以下桶:前10%，前20%，前30%，等等. 如果我的理解是正确的，只要有10条以上的记录，它就应该在线性插值的基础上以百分位数对每条记录进行分类。因此，我运行如下： score_quantiles = df.quantile(q=[0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9]) score_quantiles.to_d

浏览 0提问于2021-03-30得票数 0

回答已采纳

1回答

来自DateTime的MongoDB对象在对象定义中具有不可读字符

、、

每当我从MongoDB集合中获取数据，而其中一个字段有一个DateTime对象时，我就会得到以下内容： object(DateTime��w )[359] public 'date' => string '2012-12-12 00:00:00' (length=19) public 'timezone_type' => int 3 public 'timezone' => string 'America/Caracas' (length=15) 当我在浏览器中用var_du

浏览 1提问于2013-05-21得票数 0

回答已采纳

2回答

Python Pandas使用pd.qcut创建新的Bin/Bucket变量

、、、

如何在python中使用pd.qut创建新的Bin/Bucket变量？对于有经验的用户来说，这可能看起来很基本，但我对此并不是很清楚，而且在栈溢出/google上搜索也令人惊讶地不直观。一些彻底的搜索产生了这个()，但它没有完全回答我的问题，因为它没有采取最后一步，并将所有内容放入垃圾桶(即1,2，...)。

浏览 5提问于2015-02-11得票数 12

回答已采纳

2回答

将数据柱切片成十进制并附加到矩阵中

、

tl;dr:除了一个元素之外，我的代码做我想做的事情:为每个代码块定义tick_slice的行不返回所需的切片。如果你想跳过我的数据的细节，请跳过下面的第4段，该段以“我的问题：”开头。我有下面的代码，其中我把csv文件读入一个数据文件。csv文件中的数据组织如下:第一行包含YYYYMMDD格式的日期，这些日期在大约350列中呈递减值。在每一列中(低于每个日期)都有唯一的标识符(有点像股票符号)。大多数列有不同的行数，从几百行到几千行不等，标识符从“最佳”到“最差”排序。我的愿望是创建一个矩阵(然后输出到一个新的csv文件)。该矩阵构建如下:从输入csv数据的第一列开始，获取标识符的顶十进

浏览 9提问于2017-08-22得票数 3

回答已采纳

3回答

将数据绑定到相同大小的回收箱中

、、

我想把价值放在同样大小的垃圾箱里。假设我们有以下Pandas系列： ex = pd.Series([1,2,3,4,5,6,7,888,999]) 现在，我想创建三个垃圾桶： pd.cut(ex, 3, labels=False) 这就产生了三个垃圾箱，并为系列的每个元素分配了如下的收件箱号： [0,0,0,0,0,0,0,2,2] 现在，我希望使用bin边框，这样每个bin都有相同数量的元素(即3个)，将数据点分配到回收箱应该如下所示： [0,0,0,1,1,1,2,2,2] 我怎么知道这事？打破领带应该做些什么(例如，当数据点的数量不能被垃圾箱的数量所分割时)？

浏览 2提问于2020-09-11得票数 3

回答已采纳

2回答

Pandas qcut返回，而bin在左侧边界显示不一致。

如果你简单地这样做： out, bins = pd.qcut(range(10), 4, retbins=True) 输出结果是： [(-0.001, 2.25], (-0.001, 2.25], (-0.001, 2.25], (2.25, 4.5], (2.25, 4.5], (4.5, 6.75], (4.5, 6.75], (6.75, 9.0], (6.75, 9.0], (6.75, 9.0]] Categories (4, interval[float64]): [(-0.001, 2.25] < (2.25, 4.5] < (4.5, 6.75] < (6.

浏览 43提问于2020-01-08得票数 1

1回答

删除包含错误的行，用于pandas数据强制

、、

我有一个dataframe，我需要将它的列转换为浮点数和整数，它有坏行，即，在应该是浮点型或整型的列中的值是字符串值。如果我使用df.bad.astype(float)，我会得到一个错误，这是意料之中的。如果我使用df.bad.astype(float, errors='coerce')或pd.to_numeric(df.bad, errors='coerce')，错误的值会被np.NaN替换，这也是根据规范和合理的。还有errors='ignore'，这是另一个忽略错误并保留错误值的选项。但实际上，我不想忽略错误，而是删除具有错误值的行

浏览 3提问于2016-07-11得票数 6

回答已采纳

4回答

如何将numpy NaN对象转换为SQL空值？

、、

我有一个，我正在插入一个SQL数据库。我直接使用Psycopg2与数据库对话，而不是SQLAlchemy，所以我不能使用内置于to_sql函数中的Pandas。除了numpy np.NaN值作为NaN转换为文本并插入数据库之外，几乎所有东西都按预期工作。它们确实应该被视为should值。因此，我正在尝试制作一个自定义适配器来将np.NaN转换为SQL，但是我尝试过的所有操作都会导致相同的NaN字符串被插入到数据库中。我目前正在尝试的代码是： def adapt_nans(null): a = adapt(None).getquoted() return AsIs(a) r

浏览 5提问于2015-08-20得票数 12

回答已采纳

1回答

Nan值未被替换

、

这些值正在被替换，但是当我打印data时，它仍然显示nan值。 for col in data.columns: for each in range(len(data[col])): if math.isnan(data[col][each]) == True: data.replace(data[col][each], statistics.mean(data[col])) data 数据集：

浏览 2提问于2022-01-19得票数 -1

回答已采纳

4回答

熊猫不把相同数量的观察放进每个垃圾箱

、、

我有一个数据框架，我可以从中选择一个列(系列)如下： df： value_rank 275488 90 275490 35 275491 60 275492 23 275493 23 275494 34 275495 75 275496 40 275497 69 275498 14 275499 83 ... ... value_rank是以前从更大的

浏览 4提问于2016-02-03得票数 14

回答已采纳

1回答

将数据的所有值存入熊猫的百分位数

、、、、

我有一个包含所有数字列的dataframe： import pandas as pd import numpy as np np.random.seed(1001) df = pd.DataFrame(np.random.randn(10, 2), columns=['A', 'B']) 我想要创建包括A和B的所有值的公共分位数。这两种方法都有一些缺失的值。一旦创建了公共分位数，我想在dataframe中对值进行编码，以便根据值的范围显示标签。对于每一列，我都可以按列进行，但如何在dataframe上这样做呢？

浏览 2提问于2016-06-22得票数 1

回答已采纳

2回答

获取前25%的数据Python

、、

我有个数据： Column1 Column2 a 0.34 b 0.25 c 0.75 d 1.5 e 0.31 f 2.45 g 7.89 如何计算Column2值最高的25%的数据。例如，7行，前25%为1.75 ~2 输出： Column1 Column2 g 7.89 f 2.45

浏览 2提问于2020-06-14得票数 0

回答已采纳

1回答

将数据分类为N个类别，其中每个类别有相同数量的数据，但间隔不同

、

我有一系列的股票回报，大概可以有5000条数据。我想把它们分为5类。每个类别的数据数量几乎相同。例如，将以下数据分为3类： test = pd.DataFrame({'Returns': [0.003,0.005,0.02,0.01,0.1,0.9,-0.2,-0.13,-0.14,-0.03,0,0.001]}) 它在使用时会产生以下结果： test.value_counts() Category: number of data 0 3 1 3 2 3 数据的

浏览 2提问于2022-07-30得票数 0

回答已采纳

2回答

如何将我在pandas中的数据拆分为指定的存储桶，例如40-40-20？

、、、

全, 我尝试将我的数据分成3个存储桶，分别为40%、40%和20%。我怎么才能用熊猫做到这一点呢？例如，你得到最低的40%，中间的40%和最高的20%： pd.cut(df['count'], 5,labels = ['1','2','3','4','5'],retbins=True) 上面分成5个五分位数，但我想定义为40:40:20个百分位数。有什么想法吗？

浏览 19提问于2021-05-07得票数 0

回答已采纳

1回答

javascript中ceil函数的问题

、

当我尝试使用ceil函数时，我一直收到这个错误，错误提示ceil不是一个函数。下面是一张图片 ? 我也试着调试它，但我没有看到任何错误！ ? 如您所见，cal的值为2.8，应该四舍五入为3，那么这里有什么问题呢？

浏览 24提问于2020-08-05得票数 1

回答已采纳

1回答

为什么一个数字在AS3.0中不能是“空”？

在AS3.0中，类型为Number的变量不能为NULL。为什么会这样呢？为什么变量还没有定义，被分隔为包含名为NaN (不是数字)的东西？

浏览 3提问于2013-11-08得票数 1

回答已采纳

1回答

按数据分组拼贴

、、、

我有一个数据框架，其中包括返回，大小和轿车的几个日期。我的目标是为每个日期确定某个条件的顶部和底部值，即我希望每个日期的上十进制最大大小条目和下十进制最小大小条目，并在新列中用'xx‘和'yy’标记它们。我很困惑如何在分组的同时应用这个贴图，以及创建一个新的专栏，这是我已经拥有的。 import pandas as pd import numpy as np import datetime as dt from random import choice from string import ascii_uppercase def create_dummy_data(st

浏览 1提问于2017-06-03得票数 1

回答已采纳

1回答

Pandas:每分钟仅更新一秒数据的滚动平均值

、

我有一个数据帧，其中的数据行在一秒的间隔内，所以08:00:00、08:00:01等。我想取10分钟内的滚动平均值，但我只希望滚动平均值每分钟更新一次。因此，08:10:00 - 08:10:59的滚动平均值都是相同的值，然后在8:11:00，它将在下一分钟更新为新值。目前，我使用以下行来计算每秒更新一次的滚动平均值： df['counts-avg'] = df['counts'].rolling(window=600).mean()

浏览 20提问于2020-09-22得票数 0

回答已采纳

1回答

熊猫蟒蛇qcut中五分之一产量的排序

、

我有499份埃博拉数据。我试图根据prob(概率变量)在每个五分之一中找到观察的数目。观察的数量应该分为0-20%，20-40%等。我的代码是， test = pd.qcut(ebola.prob,5).value_counts() 这会返回 [0.044, 0.094] 111 (0.122, 0.146] 104 (0.106, 0.122] 103 (0.146, 0.212] 92 (0.094, 0.106] 89 我的问题是，我如何排序，以返回正确的观测数0-20%，20-40% 40-60% 60-80% 80-100%？我试过了 test.v

浏览 2提问于2015-10-31得票数 4

回答已采纳

2回答

如何从熊猫的数据中按百分位数确定一定数量的群

、

我正在寻找一种方法，使n(例如，20)组在一个数据的特定列按百分位数。(数据类型为浮动)。我不确定分位数函数组是否能处理这个问题，如果可以的话，代码应该是什么样的。有3行a，b，c。即数据按“a”列进行排序，并分成20组 Group 1=0至52=5至10百分位数。。 .Group 20 = 95至100百分位数. 是否也有一种方法可以找到每个组的平均值a、b和c，并将它们排序为另一个数据帧？

浏览 3提问于2020-07-20得票数 0

1回答

有没有办法在滑雪管道中连锁pd.cut FunctionTransformer？

、、、

我正在努力制作一个DataFrame预处理管道，使用sklearn并链接各种类型的预处理步骤。我想链接一个SimpleImputer转换器和一个应用pd.qcut (或pd.cut)的FunctionTransformer，但是我一直收到以下错误： ValueError:输入数组必须是一维的这是我的密码： from sklearn.base import BaseEstimator, TransformerMixin from sklearn.pipeline import Pipeline from sklearn.impute import SimpleImputer from s

浏览 1提问于2020-06-17得票数 3

回答已采纳

1回答

使用插值清除列中的异常值

、、、

我正在尝试做以下事情。我在数据帧中有一些具有错误值(x<=0或x>=1100)的数据。我正在尝试将这些值更改为可接受范围内的值。就目前而言，这是我在代码方面所做的 def while_non_nan(A, k): init = k if k+1 >= len(A)-1: return A.iloc[k-1] while np.isnan(A[k+1]): k += 1 #Calculate the value. n = k-init+1 value = (n*A.iloc[init-1] +

浏览 17提问于2021-09-06得票数 0

回答已采纳

1回答

为什么在获取数据时使用NaN值？

、、、

from sqlalchemy import create_engine import pymysql import pandas as pd db_connection_str='mysql+pymysql://username:pwd@Host/DB' db_connection = create_engine(db_connection_str) df = pd.read_sql('select * from tbl_store_inventory', con=db_connection) print(df) 执行此代码后，我将获得所有列的NaN值。

浏览 23提问于2019-10-11得票数 0