用平均值和模式替换pandas中的缺失值_替换R中缺失值的平均值或模式_Pandas中的缺失值估算模式 - 腾讯云开发者社区

、、

在Weka中，有一个名为"ReplaceMissingValues“的过滤器，它允许使用每个属性的平均值来替换数据集中所有缺少的值。我想要替换某个属性的缺失值，使用属于某个类的值的平均值。例如，在二进制数据集中，我认为使用只计算属于正类的记录的平均值来替换属于正类的记录中的属性的缺失值会更正确。那么如何才能实现它呢？我们如何才能只替换属于某个类的记录的值？

浏览 0提问于2012-04-23得票数 0

回答已采纳

1回答

用从先前替换的值计算的特征平均值替换缺失的值

、

我不知道该怎么问，但我会尽力的。我已经用特性的平均值替换了一些缺失的值，条件是第二个分类特性。但是，并不是所有缺失的值都被替换，因为第二个特性的某些类别在第一个特性中没有任何值，因此无法计算它的平均值。然后，我再次尝试将剩馀的缺失值替换为第三个特性的平均值条件。第三个特性还包含被替换为第一个特性平均值的值。那么，用从一些曾经取代过其他缺失值的值中计算出来的平均值来替换缺失的值是可以的吗？

浏览 0提问于2020-01-09得票数 1

2回答

在python中处理数据集中的缺失值

、、

如何选择是丢弃NaN值，还是用数据集中的平均值(或中位数)填充它？还有什么其他技术可以清除数据集中的缺失值？让数据为数字。(在python中)

浏览 0提问于2018-05-29得票数 2

1回答

我在新墨西哥州处理气候数据，我是R新手。我正在尝试用means替换NA，但在我的df中有37个不同的站点。我想要DF$STATION.NAME (在第1列中)是唯一的列的平均值。我不能用一个地方的数据去找另一个地方的平均值……很明显。所以我真的应该有每个月的平均值，每个站点的平均值。我的数据是由station.name在第1列中垂直组织的，1-12月的读数在后面的列中进行组织，包括在末尾(右)的合计列。每个站点的读数或观测值是在几年内的每个月(每个新年的新一行中列出的站点名称)。我需要在给定的station.name内用给定月份的CLDD的总和替换NAs，我该怎么做呢？

浏览 1提问于2012-09-18得票数 1

3回答

部分未知向量的最近邻

、、、、

假设我们有人员列表，并且希望找到像person X这样的人。特征向量有3项[weight, height, age]，在我们的列表中有3人。注意，，我们不知道人的身高C，。 A: [70kg, 170cm, 60y] B: [60kg, 169cm, 50y] C: [60kg, ?, 50y] 找到最接近A的人的最好方法是什么？我猜让我们计算高度的平均值，用它代替未知的值。因此，假设我们计算出170cm是身高的平均值，并将person C重新定义为[60kg, ~170cm, 50y]。现在我们可以找到离A最近的人了，那就是A, C, B。问题现在的问题是，我们把C和猜

浏览 4提问于2017-09-23得票数 1

1回答

BigQuery ML如何处理空数值特性？

使用分类特性，我们可以看到BigQuery ML通过在创建的模型上运行ML.WEIGHTS自动创建"_null_filler“虚拟变量，这是有意义的。在数字特性的情况下，丢失的值是用平均值还是其他什么来计算的？这两种行为是否在官方文档中提到过？

浏览 1提问于2018-12-11得票数 3

回答已采纳

4回答

X= imputer.fit(X[:,1:3])代表什么，imputer.fit的意思是什么(X[：，1:3])？

、、、

我正在对数据集进行预处理，得到了行imputer = imputer.fit(X:,1:3)的错误原因。我不明白吗？我理解imputer = Imputer(missing_values = "NaN"，strategy =“means”)，意思是用列和行中的平均值替换缺失的值。那么，我们是否试图将数据纳入模型，这正是我所不理解的？ import pandas as pd from sklearn import svm import matplotlib.pylot as plt %matplotlib inline from sklearn.preprocessing i

浏览 1提问于2019-09-12得票数 2

回答已采纳

2回答

通过跳过Python / Pandas中的某些值来计算数据

、、、

我需要计算dataframe的第一列的平均值，我可以使用mean()方法进行计算。问题是:有时，数据中有-9999个值表示缺失的观测值。我知道在计算Pandas中的平均值时，NaN值本质上是跳过的，当然-9999值不是这种情况。这是我试过的代码。它计算列的平均值，但通过在计算中取-9999值： df=pandas.DataFrame([{2,4,6},{1,-9999,3}]) df[0].mean(skipna=-9999) 但它的平均值为-4998.5，这显然是用-9999计算得出的。

浏览 7提问于2015-01-27得票数 4

回答已采纳

1回答

如何从python上面和下面的行中求出缺失值的平均值？

、、、

我有一只熊猫df看起来像这样：我想要计算值的行有"-“而不是值，我希望用上面和下面行中值的平均值来替换这些值。有人知道怎么做吗？谢谢大家！

浏览 2提问于2022-02-07得票数 1

回答已采纳

2回答

将空字符串替换为列的模式

、

我有以下pandas数据帧： df = pd.DataFrame([["hitesh","","HAIK"],["hitesh","red","ll"],["haikent","red","tt"],["","","HAIK"]]) 我正在尝试将数据帧的空字符串替换为每列的相应模式。我在努力 df= df.replace("" , df.mode()[0]) 但这只是用第一列模式替换了数

浏览 9提问于2017-03-10得票数 2

回答已采纳

2回答

大熊猫滚动申请缺少数据

、、、

我想对丢失的数据进行滚动计算。示例代码：(为了简单起见，我给出了一个滚动和的例子，但是我想做一些更通用的事情。) foo = lambda z: z[pandas.notnull(z)].sum() x = np.arange(10, dtype="float") x[6] = np.NaN x2 = pandas.Series(x) pandas.rolling_apply(x2, 3, foo) 它产生： 0 NaN 1 NaN 2 3 3 6 4 9 5 12 6 NaN

浏览 1提问于2012-11-15得票数 13

1回答

熊猫把过去和下一个数值的平均值归为零。

、、、

我有一个有几个零散零散的数据。我想用同一行的上一次和下一次值的平均值来计算Nulls的值，但只对在其左列和右列上有数值的nulls进行计算。在下面的示例中，我只想计算第二行和第二列c2中的南 import pandas as pd import numpy as np df = pd.DataFrame([[1, 2, 3, 4], [5,np.nan,np.nan,8], [9,np.nan,11,np.nan]], columns=['c1', 'c2', 'c3', 'c4']) Out c1 c2 c3

浏览 5提问于2019-09-24得票数 2

回答已采纳

1回答

是否有可能实现逻辑回归(或任何其他ML方法)来将空值归并到具有多个值的分类特性中？

、、、

我正在做一个数据科学项目，我正处于清理分类特性的阶段。我一直在研究，似乎计算平均值或中位数可以改变分布。因此，更好的方法是使用logistic回归或任何其他模型来预测分类特征中的空值。在这个职位中，作者解释了如何使用logistic回归来计算二项式范畴特征中的空值。但是，我使用的分类特性有多个可能的值。你知道有什么方法可以解决这个问题，并在多分类特征上精确地估算零值吗？谢谢!

浏览 0提问于2022-08-24得票数 0

回答已采纳

3回答

用剩余值的平均值计算缺失值

我有一个表格的数据框架： Weight Day Hour NA M 0 NA M 1 2 M 2 1 M 3 4 T 0 5 T 1 NA T 2 2 T 3 3 W 0 3 W 1 1 W 2 NA W 3 对于权重中给定的NA值，我希望用Hour具有相同值的非NA值的平均值来替换它。例如，权重中的第一个值

浏览 7提问于2014-09-10得票数 1

回答已采纳

1回答

如何确定替换数据集中空记录的最佳方法？

、

我正在做一个项目，根据他/她过去的记录预测下一个葡萄糖值。但在一些病人中，有些录音丢失了。在我的数据集中有2种血糖值缺失的情况。因此，我将在我的示例中将它们标记为场景1和场景2。场景- 1 一位病人记录了一天三次的血糖值，基本上是在第30天早餐、午餐和晚餐之前。但在第31天，他只记录了早餐和晚餐。午餐不记录在第31天。那么，我们如何将午餐中的0值替换为另一个值呢？场景- 2 另一例患者从第1天至第40天连续记录血糖值，随后又连续2天没有记录血糖值(第41天和第42天没有早餐前、午餐前和晚餐前的血糖值)。在第43天，他又开始记录这些值。那么，解决这种情况的最佳方法是什么呢？我看了很多文章，

浏览 0提问于2020-03-01得票数 3

1回答

WEKA :如何消除“缺失”和“不适用”的数字数据？

、、、、

我是维卡新来的。在我的数据集中，我有一个类型为数字的属性。在dataset中，有一些特定的值被表示为“缺失值”和“不适用”。例如 0-缺失值99999 -表示不适用对于“缺失值”，我可以用'?‘来表示它，但是对于’不适用‘呢？我的问题是:- 1)我们如何告诉WEKA在计算平均值或std值时不包括“不适用”值? 2)“不适用”值如何影响分类结果？谢谢。

浏览 4提问于2013-10-21得票数 0

1回答

使用Python查找均值、模式和中值

、、

我正在尝试计算数据帧中2列的平均值、模式和中位数。我想按COL1分组，并计算COL2的均值、模式和中位数。有许多列和行，但下面显示了我希望使用的2个示例 COL1 COL2 1 (0-9) 64 2 (10-19) 74 3 (20-29) 64 4 (0-9) 62 我一直在尝试下面的代码，但不断收到错误： data.groupby('COL1')['COL2'].mean() 如果我只使用COL1进行groupby，这将返回其他两个列的平均值(和中位数，但不是模式)，但不是

浏览 25提问于2021-01-09得票数 0

2回答

SPSS缺失数据

、、、

我在SPSS中检查了缺失的数据。变量中缺少的数据比实际缺少的案例多。截图：对于第一个变量，它说有171784个缺失，而只有127014个缺失(我用MS Excel检查过了)。此外，实际上总共有341272个案例，但一个变量中有效案例和缺失案例的总和只有340296个。为什么会有很多缺失的数据？也许正因为如此，我在SPSS中计算的平均值与在MS Excel中计算的平均值不同。

浏览 2提问于2017-03-19得票数 1

2回答

填充缺失的值并进行规范化

、、、、

我有两列神经网络的训练数据，它们都是缺失的值。(还有许多其他列不缺少值。) 例如 Height | Weight 180 | 70 175 | N/A N/A | N/A 我希望填充缺失的值，并将列规范化。数据是高度和权重，所以我认为一个很好的填充值应该是0或-1。这是基于Python中的深度学习一书：通常，对于神经网络，输入缺失值为0是安全的，条件是0不是有意义的值。我假设0在值为150-200的数据集中没有意义。我还被建议通过减去每一列的平均值并除以std来规范数据。这两种方法都很好--我知道怎么做和为什么要这样做。我不明白的是如何把它们结合起来。我也可

浏览 0提问于2018-07-26得票数 8

4回答

如何处理熊猫DataFrame中的缺失值？

、、、、

我有一个Pandas Dataframe，它有一些缺失值。我想用一些不会影响统计数据的东西来填充缺失的值，这是我将对数据执行的操作。举个例子，如果在Excel中，你尝试对一个包含5个单元格和一个空单元格的单元格求平均值，那么平均值将是5。我希望在Python中也是如此。我尝试用NaN填充，但是如果我对某一列求和，例如，结果是NaN。我也尝试用None填充，但得到了一个错误，因为我对不同的数据类型求和。有人能帮忙吗？提前谢谢你。

浏览 25提问于2019-02-11得票数 0

回答已采纳

2回答

利用日期范围对大熊猫滚动加权均值

、

我想要计算一个时间序列的滚动加权平均值和在特定时间间隔上计算的平均值。例如，用90天的窗口(不加权)计算滚动平均值： import numpy as np import pandas as pd data = np.random.randint(0, 1000, (1000, 10)) index = pd.date_range("20190101", periods=1000, freq="18H") df = pd.DataFrame(index=index, data=data) df = df.rolling("90D").mean

浏览 0提问于2019-08-19得票数 1

回答已采纳

1回答

TypeError："value“参数必须是标量、字典或系列，但您在Python中传递了"DataFrame”

、

目前，我正在讨论主题问题。我不清楚为何会这样做，以及须作出甚麽修订。代码： table = df.pivot_table(values='LoanAmount', index='Self_Employed' ,columns='Education', aggfunc=np.median) def fage(x): return table.loc[x['Self_Employed'],x['Education']] #Replacing missing values df['LoanAmou

浏览 8提问于2018-11-24得票数 1

1回答

使用Python在.csv中搜索包含数字低于零的单元格，然后用其左右单元格的平均值替换它们。

、

我有一个很大的数据集，里面有一些错误。所有零以上的数字都是正确的。误差在零以下。我如何使用Python中的熊猫在整个数据集中运行，识别数字是否低于零，然后将其更改为单元格的平均值向左和向右？例如，如果一行表示(8,8,7,6,9，-3434,8)，我需要代码标识负数，然后用(9+8/2)替换，所以是8.5。谢谢!

浏览 2提问于2021-05-20得票数 1

回答已采纳

2回答

仅在Pandas中的连续NaN中的最后填写前一个和下一个有效值

、、、、

仅在Pandas中的连续NaN中的最后填写前一个和下一个有效值。如果有一个NaN，则用next和next的平均值填充。如果连续两个NaN，则计算第二个值的平均值为next和以前的有效值。系列：预期产出：

浏览 11提问于2022-06-02得票数 0

回答已采纳

1回答

如何将字符串变量的缺失值长度计算为零？

、、、、

我试图用Python来计算数据文件中对象变量的长度。我的许多变量都是带有缺失值的字符串，不幸的是，当我试图计算缺失值的长度时，它显示为3(因为它将"Nan“作为一个3个字符值)。下面是我正在使用的代码： df_string_mean_with_na = pd.DataFrame(df_string.applymap(len).astype(int).mean().to_dict(), index=[df_string.index.values[0]]) 其中df_string是我的起始数据，我试图计算每个列的平均值长度。我想把对象变量的缺失值的长度计算为0，有办法吗？

浏览 3提问于2019-10-02得票数 1

回答已采纳

1回答

Python熊猫被零代替，实际上用以前的值代替。

、

pandas的replace函数将目标值替换为另一个值，正如预期的那样： >>> import pandas as pd >>> >>> >>> t = pd.Series([10,20,30]) >>> t 0 10 1 20 2 30 dtype: int64 >>> t.replace(to_replace=20, value=222) 0 10 1 222 2 30 dtype: int64 >>> from numpy

浏览 1提问于2020-11-04得票数 0

回答已采纳

1回答

CSVs:如何输出丢失的数据以简化处理？

、、、、

如果通过CSV提供数据(可以是字符串，也可以是数字)，那么标记值缺失的好策略是什么？一些非空的哨兵，比如NA 一些非空的哨兵，但被引用如"NA" 空字符串，例如，在CSV中，值将为0字符长。引用的空字符串"" 其他的事情/视情况而定？如果有什么不同，那么希望CSV在使用readr、Pandas和Excel读取时表现合理。

浏览 0提问于2020-06-06得票数 0

回答已采纳

2回答

如何使用pandas在一些列上做ffil？

、、、

如何在一些栏目上做ffil？我不需要ffil每一列，我想留下最后一列。 My input和Desired Output 这段代码将对每个列和表执行ffill操作。但我不需要对每个工作表的最后一列执行ffill操作。 import pandas as pd writer = pd.ExcelFile('C:/Users/User/Desktop/law.xlsx') writer.sheet_names excelfile = pd.ExcelWriter('C:/Users/User/Desktop/law_out.xlsx', engine='

浏览 16提问于2020-09-07得票数 1

回答已采纳

4回答

在Python中删除信号中的尖峰

、

例如，我从呼吸记录中得到了一个信号，由于打哈欠而产生了许多尖峰。我试着用熊猫的滚动均值函数把它去掉，但是没有用。此图上的绿色空间是使用滚动平均值的结果。 import pandas as pd RESP=pd.DataFrame(RESP) RESP_AV=pd.rolling_mean(RESP,50) 我对过滤数据知之甚少，在pandas中也找不到任何其他方法来消除这种尖峰，所以我的问题是到哪里去寻找答案。RESP.head()的结果是： 0 -2562.863389 1 -2035.020403 2 -2425.538355 3 -2554.280563 4 -2242.438367

浏览 13提问于2016-06-01得票数 4

回答已采纳

3回答

熊猫按类别用平均数代替否定词

、、、

我想将列中的所有负值按类别替换为平均值。我可以很容易地找到每个类别的平均值。就像train_df1.groupby(train_df1['item_category'])['item_cnt_day'].mean()。 item_category Access 1.115664 Books 1.087056 CD 2.199036 CD games 1.361757 Card 1.421528 Consoles 1.2

浏览 0提问于2018-12-04得票数 0

回答已采纳

1回答

替换sqlite表中的缺失值

我用sqlite制作了一张桌子，看上去如下： Age Height 12 186 175 169 13 15 171 我希望用其列平均值替换每一列中缺少的值。我使用了update函数，但是表中似乎没有任何可见的更新。假设上面的表格叫做测试，我已经做过了 UPDATE test SET Age=13.3 WHERE Age IS NULL; UPDATE test SET Height=175.25 WHERE Height IS NULL; 此外，我还想知道如何将平均值与select语句自动合并，而不必手动输入

浏览 0提问于2014-07-22得票数 0

回答已采纳

1回答

ValueError:操作数不能一起广播

、、、、

我试图在数据集上应用Gaussian Naive Bayes模型来预测疾病。当我预测使用训练数据时，它的运行是正确的，但是当我试图预测使用测试数据时，它给了ValueError。 runfile(‘D:/ROFI/ML/心脏病/Prediction.py’，wdir=‘D:/ROFI/ML/心脏病’)回溯(最近一次调用)：文件""，第1行，在runfile中(‘D:/R菲/ML/心脏病/pretion.py’，wdir=‘D:/R菲/ML/心脏病’) 文件"C:\Users\User\Anaconda3\lib\site-packages\spyder\utils\

浏览 1提问于2017-06-19得票数 0

回答已采纳

2回答

SAS:用不包括观测的变量分组计算平均值

、

提前感谢您的帮助。下面链接了一个示例数据集和期望输出。我想从“拥有”数据集中计算新变量如下: RE:给定“猫”变量值中"R“值的平均值(不包括特定的观测值IE )--不包括特定观测值的”猫“变量值内"I”响应的平均值。

浏览 2提问于2015-10-30得票数 1

回答已采纳

1回答

Sklearn或Pandas，用简单的线性回归计算缺失值

、、、

我有数据，时间序列数据，我想计算丢失的数据。我不能用这个专栏的平均值，因为我认为它对时间序列数据不好。所以我想用简单的线性回归来计算 Day, Price 1 , NaN 2, NaN 3, 1800 4, 1900 5, NaN 6, NaN 7, 2000 8, 2200 怎么做？我更喜欢使用Pandas来做这件事，但是如果没有其他方法，我可以使用sklearn :)

浏览 1提问于2018-10-22得票数 3

回答已采纳

1回答

如何匹配除年度以外的所有数据时间索引？

、、、、

我有一个缺少值的数据集和一个Datetimeindex。我想用在同一个月、一天和同一小时报告的其他值的平均值来填充这个值。如果在这个特定的月份/日/小时没有报告所有年份的值，我希望得到所报告的最近小时的内插平均值。我怎样才能做到这一点？现在我的方法是： df_Na = df_Na[df_Na['Generation'].isna()] df_raw = df_raw[~df_raw['Generation'].isna()] # reduce to month same_month = df_raw[df_raw.index.month.isin(df_Na.i

浏览 5提问于2022-05-13得票数 1

回答已采纳

2回答

如何在特征工程中填充对象属性中的空值？

、、、

我研究了特征工程中Kaggle的fill null方法。一些玩家用另一个对象值填充NA。例如，在性别列中有‘男性’、‘女性’和NA值。该方法是用另一个对象值填充NA，比如“中间”。在此之后，它处理没有任何null的性别属性，pandas也不会找到null。我想知道这种方法对机器学习模型的性能有很好的影响，还是对特征工程有很好的影响？除此之外，在数据集中没有知识发现的情况下，有没有其他好的方法来填充NA？

浏览 0提问于2016-12-05得票数 1

2回答

使用np.nan而不导入numpy

、、

我习惯于用NaN替换空字符串，并删除空数据。 import pandas as pd import numpy as np df.replace('', np.nan).dropna() 但是，我希望我的函数使用无服务器框架运行。我需要import numpy只是为了使用np.nan，它占用了我宝贵的250 my的包大小限制。导入pd.np.nan是可行的，但有人警告说，pandas.np模块已被废弃，并将从未来版本的熊猫中删除。是否有不导入numpy np.nan 而使用的解决方案？

浏览 5提问于2020-07-22得票数 2

回答已采纳

2回答

熊猫- iloc与下面的细胞进行比较

、、、

下表：使用Pandas -我希望实现desired_output列，当当前单元格下的值i不同时，这是正确的-否则为FALSE。我已经尝试了以下代码--但是会发生错误。 df['desired_output']=df.two.apply(lambda x: True if df.iloc[int(x),1]==df.iloc[int(x+1),1] else False)

浏览 4提问于2020-08-16得票数 0

回答已采纳

1回答

在Pandas中将分类要素转换为数值要素时出错

、、

我的数据帧包含一个分类特征'Street‘，它可以接受两个可能的值'Grvl’或'Pave‘中的一个。我正在尝试在拟合ML算法之前将这个分类特征转换为数值。我的代码如下所示 dataset['Street']=dataset['Street'].map({'Grvl':0,'Pave':1}).astype(int) 我已经用数据帧中出现次数最多的值填充了缺少的值 dataset['Street'].isnull().sum() 我收到以下错误 ValueError

浏览 6提问于2017-07-25得票数 1

1回答

在过滤操作中导致崩溃的带有类标签均值的数据集

、

我有一个包含数值的csv文件。 val row = withoutHeader.map{ line => { val arr = line.split(',') for (h <- 0 until arr.length){ if(arr(h).trim == ""){ val abc = avgrdd.filter {case ((x,y),z) => x == h && y == arr(dependent_col_index).toDouble} //crashing here

浏览 2提问于2015-03-13得票数 1

2回答

包含字符串和数字重复项的pandas对象列

、

我有过 import pandas as pd import numpy as np a = pd.DataFrame({'A':['1', '0', '1.0', '0.0', 1.0, 0.0, 'not_ind', np.nan]}).astype('O') print(a['A'].unique()) 该值集为： array(['1', '0', '1.0', '0.0', 1.0, 0.0,

浏览 42提问于2020-12-02得票数 1

回答已采纳

2回答

如何用mean by分组推算缺失值并替换现有值

我有一个纵向数据集，其中包含一个人首次就诊时的身高数据。其他行是空的。但有时一个人有两种价值观和两种不同的价值观。我想用组的平均值替换缺少的值，并用平均值替换现有的值。我试过了： data$variable <- ave(data$variable, data$group, FUN = function(x) ifelse(is.na(x), mean(x, na.rm = TRUE), x)) 此代码用平均高度替换缺少的值，但仍保留现有高度。

浏览 0提问于2019-08-13得票数 0

2回答

不同栏大熊猫不同条件下的过滤

、、

Python 3.9和Pandas 1.3.4 这里是df： 1 First Name Last Name fullname 2 Freddie Mercury Freddie Mercury 3 John Lennon John Lennon 4 David Bowie David Bowie 5 John Doe 6 Joseph Joseph 7 Jovi Jovi 我的代码目前只发现f

浏览 7提问于2021-11-23得票数 1

回答已采纳

1回答

用熊猫组的平均值替换坏的值

、、、

我想用分组或聚合平均值替换熊猫系列中的坏值negative values(-666)和NaNs。样本DataFrame： import pandas as pd import numpy as np df = pd.DataFrame({ 'cat': ['A','B','C','A','B','C','A','B','C'], 'val':

浏览 3提问于2022-03-16得票数 0

2回答

数据分析中的缺失值

、、、

我有一个数据集，其中包含两个级别的可变性别-男性(M)和女性(F)-有许多缺失值。如何处理丢失的价值？处理这些缺失值的不同方法是什么。任何帮助都将不胜感激。

浏览 3提问于2016-02-28得票数 5

2回答

R重新定义base::mean()函数以包含is.finite()功能

、、

我想重新定义平均值函数(将其应用于tabular()表中)，以省略某个变量的所有NA、NaN和Inf观测。我不想删除整行(观察)，而是使用平均值公式来计算所有不是NA、NaN、Inf的值的平均值。 Mean.new <- function(x) base::mean(x, na.rm=TRUE) 据我所知，标准平均值()中的na.rm=TRUE只删除NAs，而不是NaN和Inf。因此，如何在上面的代码中添加检查is.finite() (这将排除所有NA、NaN、Inf)的功能？谢谢你和最好的，软木

浏览 4提问于2021-02-27得票数 2

回答已采纳

1回答

合并python中一列中的多列

、、、

我有一个熊猫数据框架，第一列的总数在第二列中完成，第二和第三列的总数相同： Column1 Column2 Column3 0 3 1 2 2 1 6 3 7 13 我现在要做的是将所有列(1,2,3)合并为A列(忽略总价值)，如下所示： Column A 0 3 1

浏览 3提问于2021-12-16得票数 1

回答已采纳

1回答

基于数据帧中的列变量或多索引删除异常值

、、、、

这是另一个IQR异常值问题。我有一个数据帧，看起来像这样： import numpy as np import pandas as pd df = pd.DataFrame(np.random.randint(0,100,size=(100, 3)), columns=('red','yellow','green')) df.loc[0:49,'Season'] = 'Spring' df.loc[50:99,'Season'] = 'Fall' df.loc[0:24,'

浏览 9提问于2020-05-29得票数 1

回答已采纳

2回答

如何测量一种估算技术的性能

、、

我想知道怎样才能衡量一种归责技术的表现。我读过很多关于这个的书。网络上的大多数文献都是在数据完成后应用分类器。因此，这个分类器将被用来进行预测。然而，我对使用这类分类器进行预测并不感兴趣。我想知道计算方法在dataset上执行得有多好。我们可以测量，例如，我的方差，平均值，均方误差等等。我想知道是否有类似的技术来衡量数据的质量。我将使用数据集进行描述性分析(而不是预测分析，例如培训分类器)。如果我在错误的环境/角落里思考，请纠正我。提前谢谢。诚挚的问候

浏览 0提问于2016-03-10得票数 4

1回答

用平均值计算多列NaN值的最佳方法

、、

我对Python还不熟悉我需要编写一个函数，将2+ df列的2+值与它们的平均值相加。我已经尝试过几种在单列上工作的方法，但是合并后就不能工作了。 import pandas as pd import numpy as np example = {'one':[1,2,3,np.nan], 'two':[np.nan,2,3,np.nan], 'three':[1,2,3,4]} df = pd.DataFrame(example) 我需要的是用本系列的平均值计算NaN值。我已经试过了计算每列

浏览 3提问于2021-07-02得票数 0

回答已采纳