用Pyspark中的平均值处理异常值

、、

我的数据框看起来像- id gender age2 m 39df = df.withColumn("new_age", when(condition, (col(&

浏览 28提问于2020-01-28得票数 0

1回答

如何在pyspark中用均值替换异常值？

、、、、

我想知道如何用均值替换异常值。我有了dataframe，我可以找到离群值并过滤行，现在我想用平均值替换它。我该怎么做呢？27 03 80 25 46 42 10 16 1

浏览 24提问于2021-03-29得票数 0

回答已采纳

1回答

如何在pyspark中获得均值？

、、、、

alpha") ,(70,'Audio'), (1000,'benz'), (50,'Suzuki'),(60,'Lambo'),(30,'Bmw')],["Cars", "Brand"]) 现在我想找出异常值，为此我使用了IQR，得到了如下的上下值，并找到了异常值： lower, upper = -55.0 145.0 outliers= df.filter((df['Cars&#

浏览 17提问于2021-03-30得票数 0

回答已采纳

3回答

R函数在列中寻找离群值的百分比？

、、

我需要创建一个函数来计算数据帧列中异常值的百分比。对于离群点，我指的是任何数据点与平均值的3个以上的标准差。我查看了包，但这并没有将我分类，因为所有的函数似乎都面向查找异常值，而不是计算异常值。有我可以用的函数吗？

浏览 4提问于2015-09-05得票数 2

回答已采纳

1回答

函数替换Python中的异常值。

我需要创建一个函数，用该列的平均值+/- 3* StandardDeviation替换数据集中列中的离群值。例如，如果值大于/小于平均值+/- 3* StandardDeviation，则识别异常值。因此，如果A中的值假设285是上部的一个异常值，则需要用Mean+ 3* StandardDeviation替换。如果离群点在较低的一侧，则需要用均值-

浏览 2提问于2020-04-26得票数 0

回答已采纳

1回答

如何对R中的数据进行规范化

、、

这是我的数据： a b c d e f g <dbl> <dbl> <dbl> <dbl> <dbl但是，由于变量不在可比较的范围内，我需要重新调整它们的比例。变量的分布不是正态的，归一化过程也应该对异常值具有鲁棒性。那么，对数据进行规范化的最佳方法是什么，以便我可以对变量求和，以便为我的数据创建

浏览 20提问于2020-08-10得票数 0

3回答

C#中的单应性、内部性/ Emgu CV/ SURF

、、

如何使用C#中的单应性或其他方法获取匹配眼点的内值/异常值？我找到matchedFeature了。代码使用HomographyMatrix (单应性)。我想区分内部和异常值。在C++中： int cvFindFundamentalMat(const CvMat* points1, const CvMat* points2同样，我只需要分离异常值&#

浏览 0提问于2011-01-10得票数 4

回答已采纳

2回答

确定数组中特定元素的和

、、、、

我有一个数组，它存储由用户输入的一系列双倍。数组的长度是用户的选择，因此会发生变化。我将数字放入一个循环中，循环计算平均值，并将异常值转换为数组的最后一个索引。在不存在异常值的情况下，计算一个新的平均值，并将新的异常值交换到数组的第二个最后一个索引。这个循环会被重复，直到剩下一个元素为止。然而，离群点并没有从数组中移除，所以我需要在没有异

浏览 0提问于2015-05-12得票数 2

回答已采纳

1回答

如何根据一列中所有其他数字的平均值重置一些异常值？

、、

我需要用平均值替换大于平均值2倍或小于列中所有其他数字平均值的1/2的异常值。其中包括两列：我需要将异常值(此处为28和20 )替换为Price列中所有其他值的平均值。请任何人给我一个如何处理这件事的建议。谢谢

浏览 1提问于2019-10-09得票数 0

1回答

大熊猫巨蟒中ApplicantIncome、CoapplicantIncome、LoanAmount、Loan_Amount_Term列识别和替换异常值的最佳方法是什么。我尝试使用海运盒图的IQR，并试图确定出口和填充NAN记录后，采取了ApplicantIncome的手段，并填充了NAN记录。试着采取以下组合列(前)组:性别、教育、自营职业、Property_AreaLoan_ID LP001357 Gender

浏览 1提问于2019-02-27得票数 0

1回答

如何在使用python时拒绝包含有条件的异常值的窗口？

、、、、

我面临的问题是，如何拒绝一个10行的窗口，如果其中一个或多个行包含一个离群点，同时使用python大熊猫计算滚动平均值？我需要的帮助是基于以下场景的条件逻辑异常值的上界为15，下界为0，如果窗口中出现异常值的频率大于10%，则拒绝该特定窗口，然后移动；如果窗口中出现异常值的频率小于10%，则接受以下更改: 1)用从非异

浏览 3提问于2020-05-10得票数 0

2回答

熊猫-用平均群代替离群人

、

我有一个熊猫数据，我想把它分成几组，计算平均值和标准差，然后用组的平均值替换所有的异常值。离群值的定义是这样的，如果它们离群平均值超过3个标准差。pandas.DataFrame({'a': ['A','A','A','B','B','B','B'], 'b': [1.1,1.2,1.1,3.

浏览 2提问于2014-12-24得票数 3

回答已采纳

2回答

如何用最大非异常值替换离群值？

、、、、

当我检测到变量的异常值时，我知道值应该是最高的非异常值(即，如果没有异常值，则是最大值)。第二，这是个坏主意吗？我看到其他人完全删除了离群点，或者用平均值或中间值代替。我想知道我的做法是否错误。

浏览 0提问于2019-09-24得票数 0

回答已采纳

1回答

将timeseries中的离群值重置为3 SD

、、

域: Python & Pandas列是：异常值大于3SD =平均值+3S.D。

浏览 4提问于2018-11-21得票数 0

2回答

创建一个确定异常值影响的函数

、

我的总体目标是演示离群值在数据集平均值上的差异。我正在尝试创建一个使用异常值"k“的大小作为输入并输出平均值的函数。基本上，函数需要接受任何值" k“(这是异常值)，如果x的第一个值被替换为k，则返回向量x的平均值。例如，假设数据集是学生总数的高度。第一个值应该是71.3厘米，但是孩子不小心放了713厘米。在本例中，我希望我的

浏览 26提问于2020-09-03得票数 0

回答已采纳

1回答

如何用平均值替换异常值

我的问题是将列中的所有"True“替换为average。我已经确定了如下异常值： high <- mean(df$variable1) + sd(df$variable1) * 3df$Outlier <- (df$variable1 < low | df$variable1 > high) 因此，结果是一个包含一些"True“和"False”的列

浏览 23提问于2020-03-18得票数 0

1回答

删除异常值，通过方格图计算一个序列/数据的平均值？

、、、、

我试图在没有异常值的情况下计算数据中每列(序列)的平均值。在此任务中，我使用了“海运”的框图：sns.boxplot(x='Unit_Code',y='Leadtime',hue='Has_Weekend,data=df ,palette='winter')这就是我得到<em

浏览 0提问于2020-11-16得票数 1

回答已采纳

1回答

PySpark中的多重滤波

、、

我已经将数据集导入到Juputer笔记本/ PySpark中，以便通过电子病历进行处理，例如：删除统计异常值的行，即从平均值中移除3个标准差。因此，在这里，单元格C4显然需要删除，但我不确定如何将此逻辑合并到过滤

浏览 5提问于2017-10-05得票数 0

回答已采纳

1回答

我们如何用平均值和中值来检测异常值的存在？

、

我们如何用平均值和中值来检测异常值的存在？假设我有一个数据集，手里有八个特性。我把他们的手段和中间的人一排排地并列起来。median 2.5000 0.1826 0.0001 0.0002 0.0000 -0.0000 0.0000 -0.0000数据是如何分布的</em

浏览 0提问于2016-11-26得票数 0

1回答

使用重复循环查找多个异常值？

、

我有一个大但不可靠的矩阵形式的数据集。我使用包异常值来搜索数据集中的异常值，特别是在我的数据矩阵的每一行中，但是每一行都有多个异常值。为了寻找一个以上的异常值，我尝试使用一个重复循环来替换异常值(用行平均值)，直到该行的标准偏差低于某个指定值为止。standarddeviationthreshold) {

浏览 4提问于2014-06-21得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在pyspark中用均值替换异常值？

如何在pyspark中获得均值？

R函数在列中寻找离群值的百分比？

函数替换Python中的异常值。

如何对R中的数据进行规范化

C#中的单应性、内部性/ Emgu CV/ SURF

确定数组中特定元素的和

如何根据一列中所有其他数字的平均值重置一些异常值？

python中薪资列异常值识别和替换的最佳方法

如何在使用python时拒绝包含有条件的异常值的窗口？

熊猫-用平均群代替离群人

如何用最大非异常值替换离群值？

将timeseries中的离群值重置为3 SD

创建一个确定异常值影响的函数

如何用平均值替换异常值

删除异常值，通过方格图计算一个序列/数据的平均值？

PySpark中的多重滤波

我们如何用平均值和中值来检测异常值的存在？

使用重复循环查找多个异常值？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐