从dataframe中移除不遵循平均趋势的行

，可以通过以下步骤实现：

首先，需要计算每行数据的平均值。可以使用dataframe的mean()函数来计算每列的平均值，然后使用axis=1参数来计算每行的平均值。
接下来，可以计算每行数据与平均值的差异。可以使用dataframe的sub()函数来计算每个元素与对应行的平均值的差异。
然后，可以计算每行数据与平均值的绝对差异。可以使用dataframe的abs()函数来计算每个元素的绝对值。
接着，可以计算每行数据与平均值的标准差。可以使用dataframe的std()函数来计算每列的标准差，然后使用axis=1参数来计算每行的标准差。
最后，可以根据设定的阈值来判断哪些行不遵循平均趋势。可以使用dataframe的loc[]函数来选择不符合条件的行，并使用dataframe的drop()函数来移除这些行。

下面是一个示例代码：

import pandas as pd

# 假设df是一个包含数据的dataframe

# 计算每行数据的平均值
row_means = df.mean(axis=1)

# 计算每行数据与平均值的差异
diff = df.sub(row_means, axis=0)

# 计算每行数据与平均值的绝对差异
abs_diff = diff.abs()

# 计算每行数据的标准差
row_stds = df.std(axis=1)

# 设置阈值，例如标准差的两倍
threshold = 2 * row_stds

# 选择不符合条件的行
outliers = df.loc[abs_diff > threshold]

# 移除不符合条件的行
df = df.drop(outliers.index)

以上代码中，我们假设df是一个包含数据的dataframe。首先计算每行数据的平均值，然后计算每行数据与平均值的差异，并计算绝对差异。接着计算每行数据的标准差，并设置阈值。最后选择不符合条件的行，并移除这些行。

对于腾讯云相关产品和产品介绍链接地址，可以根据具体需求和场景选择适合的产品，例如腾讯云的云服务器、云数据库、云存储等。具体的产品介绍和链接地址可以参考腾讯云官方网站。

查找多个系列中低于阈值的元素

python-3.x

我有许多时间序列(10,000个数据点各有3到10,000个数据点)，每个时间序列都有一个不同的阈值。我需要知道哪些值包含低于或超过某个阈值的值。示例： threshold_data = [ # Name Threshold data-points.. ['ds1', 90, 91, 92, 95], ['ds2', 85, 91, 84, 95], ] 如果操作是<，我希望ds2作为输出，因为它有低于85阈值的84。对于>操作，应该返回两个数据集。对于==无。我知道我可以将数据加载到Pandas DataFr

浏览 6提问于2022-11-15得票数 0

2回答

Pandas仅在整个数据帧的子集上运行函数

pandas、dataframe

假设我有Dataframe，它有200个值，产品的价格。我想在这个数据框上运行一些操作，比如计算最近10个价格的平均价格。据我所知，现在熊猫会遍历每一行，并计算每一行的平均值。即前9行将是Nan，然后从10-200，它将计算每行的平均值。我的问题是，我需要做很多这样的计算，性能是一个问题。出于这个原因，我只想对所有值中的最后10个值(不需要更多)运行平均值，而我想将这些值保留在数据框中。即我不想摆脱这些值或创建新的Dataframe。我本质上只是想在更少的数据上进行计算，所以它更快。这样的事情有可能发生吗？希望问题是明确的。

浏览 45提问于2021-07-23得票数 0

回答已采纳

3回答

查找四行的均值、计数和标准差

python、pandas、dataframe

我正在计算pandas数据帧中4行的平均值、观察值和标准差。现在，我正在制作一个新的数据帧，但肯定有比使用四行更简单的方法？我想我可以使用groupby，然后使用agg，但是我一直无法使它工作。 stats = pd.DataFrame() stats["mean"] = df.mean(axis=1) stats["count"] = df.count(axis=1) stats["std"] = df.std(axis=1)

浏览 2提问于2019-10-22得票数 0

1回答

列表中字符串的平均长度

python、python-3.x、pandas

我有一个带有DataFrame行的大型50,000+ df： >> df words 0 ["hello","world"] 1 ["what","is","it"] 2 ["yes","dear"] ... 我试图得到每一行的平均长度，然后计算它的平均长度。因此，对于上面的例子，每行的平均值是： 0 5 1 2.67 2 3.5 这些数据的平均值将是3.72。有没有办法有效地做到这一点？

浏览 6提问于2021-03-10得票数 1

回答已采纳

4回答

保持NaNs与熊猫的数据不平等

python、pandas

我有一个pandas.DataFrame对象，它包含大约100列和200000行数据。我正在尝试将其转换为bool dataframe，其中True表示值大于阈值，False表示值较少，NaN值被维护。如果没有NaN值，则需要大约60 ms才能运行： df >= threshold 但是当我试图处理NaNs时，下面的方法可以工作，但是非常慢(20秒)。 def func(x): if x >= threshold: return True elif x < threshold: return False else:

浏览 8提问于2015-11-18得票数 16

回答已采纳

2回答

完整熊猫数据的标准差和均值

python、pandas、numpy、dataframe

我有一个相当大的数据集，希望计算所有列和行的平均值和标准差。不幸的是，我还没有找到合适的解决方案。我的数据集看起来有点像那样(总共600行)：当我使用熊猫函数weekl_rtr.mean()时，我只计算每一列的平均值。可能适用于平均值的解决办法应该是weekl_rtr.mean().mean()，但这不适用于标准偏差。你有什么主意，怎么解决这个问题？谢谢你和亲切的问候马库斯

浏览 0提问于2019-11-23得票数 1

回答已采纳

2回答

计算平均值和数据点之间的欧几里得距离

python、pandas、numpy、dataframe

我有一个数据帧，每行都是我的样本，列是我的特征，我想计算我的数据帧行的平均值，然后计算数据帧样本到平均值的欧几里德距离。例如： df = pd.DataFrame(np.random.randn(10, 5), columns=list([1, 2, 3])) 对于上面给定的数据帧，首先我想计算平均行值，在本例中是一个(1, 3) mean_array。接下来，我想将10个样本之间的距离返回到我的数据帧中的平均值，这将是一个(10, 3)输出。我如何才能以一种简单的方式做到这一点？

浏览 47提问于2020-12-12得票数 0

4回答

仅使用pandas中的某些列计算行的平均值

python、pandas、dataframe

我有一个pandas数据帧，每行包含5个分数，然后是这5个分数的标准差。使用df['std'] = df.std(axis=1, ddof=0)可以很容易地计算出这一点。但是，当我还想添加这5个分数的平均值时，我不知道如何在计算中排除std列？使用df['mean'] = df.mean(axis=1)会导致pandas在计算平均值时使用5分和stddev，这显然不是我想要的。总而言之，当前的df.head如下所示，我想添加一个列，表示5个分数的平均值： score1 score2 score3 score4 score5 std 0

浏览 255提问于2021-10-27得票数 0

回答已采纳

2回答

试图得到平均值，基数和标准差(潘达斯)

python、pandas

我试图得到数据数据中每一行列的平均值、基数和标准差。我也试着用一行来做这件事。我在这个问题上被困了很久了。谢谢

浏览 4提问于2022-10-01得票数 1

1回答

Pandas -跨多列扩展Z-Score

python、pandas、pandas-groupby

我想要为DataFrame中的一些时间序列数据计算扩展的z得分，但我想使用多列的平均值和标准差来标准化数据，而不是使用每列中单独的平均值和标准差。我相信我想要使用groupby和DataFrame.expanding的组合，但我似乎无法弄清楚。以下是一些示例数据： import pandas as pd import numpy as np np.random.seed(42) df = pd.DataFrame(np.random.rand(5,5), columns=list('ABCDE'), in

浏览 2提问于2017-07-12得票数 0

1回答

如何计算与R中平均值的偏差？

我不是在说标准差。例如，如果我有一列数据： 3.600 1.800 3.333 2.283 4.533 我想要计算每一行与平均值的偏差，并将这些偏差保存在一个变量中。我该怎么做？

浏览 4提问于2020-04-15得票数 0

1回答

将Pandas DataFrame保存为JSON字符串

python、json、pandas、dataframe

我意识到这似乎是一个已经在这里被问到的问题，但似乎没有一个解决方案有效。我从一本字典开始，看起来大致是这样的： {'2016-05-08': 1, '2016-05-09': nan, '2016-05-05': nan, '2016-05-06': nan, '2016-05-07': nan, '2016-05-11': nan, 'address': '<email address>, '2016-05-12': nan, '2016

浏览 0提问于2016-06-23得票数 1

1回答

计算2只熊猫数据的%CV (或仅为标准差和平均值)

python、pandas、dataframe、standard-deviation

我有两只同样长和宽的熊猫数据。我想要找到两个数据的每个单元之间的%CV (或者标准的dev和平均值，然后我可以手工计算CV )。例如，如果我有这样的东西： A B C 0 1 2 3 1 4 5 6 2 7 8 9 和 A B C 0 3 2 1 1 6 5 4 2 9 8 7 我想返回一个数据，其中包含第一个数据中的A1和第二个数据中的A1之间的标准差/平均值/CV。例(平均数)： A B C 0 2 2 2 1 5 5 5 2 8 8 8 我想要相同的标准差，然后通过标准偏差/平均值计算%CV。我已经尝试将数据格式转换为numpy。 sta

浏览 15提问于2022-06-20得票数 2

回答已采纳

2回答

计算pandas数据框中选定列的选定行的平均值

python、pandas

我有pandas df，比如说，100行，10列，(实际数据很大)。我也有row_index列表，其中包含，哪些行被认为是采取均值。我想要计算第2,5,6,7和8列的平均值。我们可以用dataframe对象的一些函数来计算吗？我所知道的是做一个for循环，获取row_index中每个元素的row的值，并继续执行mean。我们有没有一些直接的函数，可以为ex df.meanAdvance(row_list,column_list,axis=0)传递row_list、column_list和axis？我看过DataFrame.mean()，但我猜它没有帮助。 a b c d q 0 1

浏览 0提问于2016-04-06得票数 22

回答已采纳

2回答

计算Spark DataFrame中分组数据的标准差

scala、apache-spark、apache-spark-sql

为了利用SparkSQL查询功能，我从csv中获取了用户日志，并将其转换为DataFrame。单个用户每小时将创建多个条目，我想为每个用户收集一些基本的统计信息；实际上只是用户实例的计数、平均值和许多列的标准差。我能够通过使用groupBy($"user")和带有用于计数和平均的SparkSQL函数的聚合器快速获得平均值和计数信息： val meanData = selectedData.groupBy($"user").agg(count($"logOn"), avg($"transaction"), avg($"sub

浏览 1提问于2015-08-03得票数 22

回答已采纳

2回答

熊猫群-适用于特定群体的条件

python、pandas、group-by、statistics

我必须实施熊猫群操作，这比我通常做的简单的集合要困难得多。我正在使用的表具有以下结构： category price 0 A 89 1 A 58 2 ... ... 3 B 75 4 B 120 5 ... ... 6 C 90 7 C 199 8 ... ... 如上所示，我的示例DataFrame由3个类别A、B和C组成(我正在处理的实际DataFrame有1000个类别)。我们假设类别A有20行，类别B和C有超过100行。这些点

浏览 2提问于2022-07-28得票数 0

回答已采纳

2回答

新的Dataframe列作为其他行的通用函数(熊猫)

python、pandas、dataframe、vectorization

是在 DataFrame 中创建一个新列的最快(也是最有效)的方法，它是 pandas 中其他行的函数。请考虑以下示例： import pandas as pd d = { 'id': [1, 2, 3, 4, 5, 6], 'word': ['cat', 'hat', 'hag', 'hog', 'dog', 'elephant'] } pandas_df = pd.DataFrame(d) 产生的结果： id word 0 1 ca

浏览 2提问于2018-01-09得票数 4

回答已采纳

8回答

如何计算Pandas dataframe中每行缺失值的数量？

python、pandas

如何获得Pandas dataframe中每行中缺失值的数目。我希望将dataframe拆分为不同的数据格式，它们在每一行中都有相同数量的缺失值。有什么建议吗？

浏览 0提问于2016-07-07得票数 31

回答已采纳

2回答

在跟踪当前索引的同时迭代数据帧的替代方案

python、pandas、dataframe、iteration

我正在处理大型数据帧，并注意到使用df.iterrows()遍历每个数据帧需要很长时间。目前，我迭代数据帧中的行，提取数据帧中某些行的值，并将它们乘以一些预定义的权重。然后创建一个置信度级别，如果它大于某个阈值，则将该索引添加到列表indices中。这里有一个简单的例子来说明我的意思： import pandas as pd attributes = ['attr1', 'attr2', 'attr3'] d = {'attr1': [1, 2], 'attr2': [3, 4], 'attr3'

浏览 19提问于2021-11-12得票数 0

回答已采纳

2回答

循环根据条件Pandas删除行。

python、pandas、dataframe

我得到了大量数据样本(每行160万行)，希望删除不符合某些条件的所有行。我确实有超过1400个不同的条件，它们是否应该应用测试，一旦应用，我就使用下面的代码来删除它们(提供了数据示例的随机示例)： import pandas as pd import numpy as np df = pd.DataFrame(np.random.randint(1,100,size=(1600000, 13)), columns=list('ABCDEFGHIJKLM')) cols = ['A','B','C','D',&

浏览 4提问于2022-07-22得票数 1

回答已采纳

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

从dataframe中移除不遵循平均趋势的行

相关·内容

查找多个系列中低于阈值的元素

Pandas仅在整个数据帧的子集上运行函数

查找四行的均值、计数和标准差

列表中字符串的平均长度

保持NaNs与熊猫的数据不平等

完整熊猫数据的标准差和均值

计算平均值和数据点之间的欧几里得距离

仅使用pandas中的某些列计算行的平均值

试图得到平均值，基数和标准差(潘达斯)

Pandas -跨多列扩展Z-Score

如何计算与R中平均值的偏差？

将Pandas DataFrame保存为JSON字符串

计算2只熊猫数据的%CV (或仅为标准差和平均值)

计算pandas数据框中选定列的选定行的平均值

计算Spark DataFrame中分组数据的标准差

熊猫群-适用于特定群体的条件

新的Dataframe列作为其他行的通用函数(熊猫)

如何计算Pandas dataframe中每行缺失值的数量？

在跟踪当前索引的同时迭代数据帧的替代方案

循环根据条件Pandas删除行。

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐