numpy -为什么mean和SD对于相同的值是不稳定的？

numpy是一个开源的Python科学计算库，提供了丰富的数学函数和数组操作功能。在numpy中，mean表示计算数组的平均值，SD表示计算数组的标准差。

对于相同的值，mean和SD在numpy中可能是不稳定的，这是由于以下几个原因：

浮点数精度：在计算机中，浮点数的表示是有限的，无法精确表示所有的实数。当计算大量浮点数的平均值或标准差时，由于浮点数的精度限制，可能会导致结果的微小差异。
算法实现：numpy中的mean和SD函数采用了特定的算法来计算平均值和标准差。这些算法可能对输入数据的分布和规模敏感，对于不同的数据集，可能会选择不同的算法来进行计算，从而导致结果的差异。
数值计算误差：在计算过程中，存在数值计算误差的问题。例如，对于大量数据的累加操作，可能会出现舍入误差累积的情况，进而影响最终的平均值和标准差的计算结果。

为了解决这些不稳定性问题，可以采取以下措施：

使用更高精度的数据类型：numpy提供了不同精度的数据类型，可以选择使用更高精度的数据类型来进行计算，以减小浮点数精度带来的影响。
考虑使用其他统计函数：除了mean和SD，numpy还提供了其他统计函数，如median（中位数）、var（方差）等。根据具体需求，可以选择合适的统计函数来计算数据的集中趋势和离散程度。
数据预处理：在进行统计计算之前，可以对数据进行预处理，如去除异常值、归一化等，以减小数据的波动性，从而提高计算结果的稳定性。

腾讯云相关产品和产品介绍链接地址：

腾讯云计算服务：https://cloud.tencent.com/product/cvm
腾讯云对象存储（COS）：https://cloud.tencent.com/product/cos
腾讯云数据库（TencentDB）：https://cloud.tencent.com/product/cdb
腾讯云人工智能（AI）：https://cloud.tencent.com/product/ai
腾讯云物联网（IoT）：https://cloud.tencent.com/product/iot
腾讯云移动开发（移动推送、移动分析）：https://cloud.tencent.com/product/mps

同时使用宽度和道奇时geom_bar的位置问题

、、

我有以下数据框架 group1 = c('a', 'b') group2 = c('1', '1', '2', '2') mean = 1:4 sd = c(0.2, 0.3, 0.5, 0.8) df = data.frame(group1, group2, mean, sd) 我想在图上绘制sd，或者用geom_errorbar()绘制。这是非常有效的： ggplot(data = df, aes(x=group1, y = mean))+ geom_col(position = '

浏览 0提问于2019-03-25得票数 1

回答已采纳

1回答

为什么geom_density和stat_density(geom = "line")给出了不同的结果？

、

在下面的例子中，为什么geom_density和stat_density(geom = "line")给出了不同的结果？ library(ggplot2) df <- data.frame( x.values = c( rnorm(100, mean = 1, sd = 1), rnorm(100, mean = 4, sd = 1), rnorm(100, mean = 7, sd = 1), rnorm(100, mean = 10, sd = 1) ), mean.values = sort(rep(c(1, 4, 7,

浏览 10提问于2017-03-07得票数 13

回答已采纳

2回答

图像变暗

、、、、

我在python中编写了一个程序，将高斯噪声应用于图像，如下所示。输入图像是： from PIL import Image from math import * import numpy list1 = [] list2 = [] im = Image.open("313.JPG") im.show() list1 = list(im.getdata()) length = len(list1) total = 0 for i in list1: total = total + i mean = total /length #mean sd = nu

浏览 2提问于2014-03-30得票数 0

回答已采纳

1回答

两个高斯混合值互换。全局优化

、

我想用两个高斯分布来拟合数据，同时保持一个全局均值。我已经使用scipy、lmfit、numpy库用Python编写了程序。这是我已经拟合的数据结果(最小二乘)： mean1 sd1 A1 mean2 sd2 A2 y0 12.24 10.20 27526 25.50 20.42 30642 499.93 21.43 10.20 27529 25.51 20.39 30616 500.32 25.51 20.40 30599 30.61 10.21 27552 500.16 39

浏览 1提问于2014-10-15得票数 1

2回答

如何使用dplyr按单个列缩放data.frame中的列

、

我有以下data.frame： dat <- data.frame(bifpar = c(0.5, 0.75, 1.0), sd_distfeed = rep(2,3), sd_nodist = rep(3,3), mean_distfeed = rep(10,3), mean_nodist = rep(20,3)) dat bifpar sd_distfeed sd_nodist mean_distfeed mean_nodist 1 0.50 2 3 10 20 2 0.75 2

浏览 1提问于2020-12-03得票数 0

3回答

numpy和R标准差的不同结果

、、、

当我试图用numpy和R计算标准差时，我得到了两个不同的结果。我可能错过了一些愚蠢的东西，但又是什么？ R码 x1=matrix(c(1,7,5,8,9,5,4,5,4,3,76,8),nrow=4) std=sd(x1[,1]) mean=mean(x1[,1]) std=apply(X=x1,MARGIN=2,FUN=sd) std > x1=matrix(c(1,7,5,8,9,5,4,5,4,3,76,8),nrow=4) > std=sd(x1[,1]) > std=apply(X=x1,MARGIN=2,FUN=sd) > std [1] 3.095

浏览 2提问于2013-12-20得票数 4

回答已采纳

1回答

图曲线函数

、

为什么红色曲线不重叠绿色curve() 我注意到，如果将操作保存在中间对象上，然后将这些对象传递给curve()函数，它就能正常工作。我感兴趣的是通过在curve()中执行操作来理解为什么它不能工作。我觉得很好奇。 set.seed(1L) x <- rnorm(n = 1e3L, mean = 200, sd = 30) hist(x, probability = TRUE, ylim = c(0, 0.015)) curve(dnorm(x = x, mean = 200, sd = 30), col = "black", lty = 1, lwd = 2, add

浏览 3提问于2019-08-02得票数 1

回答已采纳

1回答

Python Numpy可加白高斯噪声函数

、

从这个开始，我需要一个对输入信号执行的函数。这是我的问题：无法扩展到多个通道无法缩放到多批 scale不在单个信号级别上重要条件：接受任意维的numpy数组，只要最后一个轴是time 在numpy.random.normal中，scale或标准差( SD )不是全局的，而是依赖于每个信号的SD。除非我对AWGN的预期实现是错误的，否则SD应该设置为整个数据集的SD，还是硬编码的？我到目前为止所做的事： import numpy as np import matplotlib.pyplot as plt def add_noise(data):

浏览 2提问于2021-01-09得票数 3

回答已采纳

1回答

不使用多项式均值的位置尺度估计函数

、、、

我正在构建我自己的最大似然估计器，它估计与均值和标准差相关的参数。在模拟数据上，当真实均值为线性函数，标准差为常数时，我的函数工作。但是，如果平均结构是多项式，则我的函数不能恢复真正的参数。有人能给我找个解决办法吗？我知道有很多现有的函数用于估计means和SDs。我对它们不感兴趣，我感兴趣的是为什么我的功能不起作用。下面是一个可重复的示例，其中我的模型没有恢复真正的标准差(真sd = 1.648，mysd = 4.184123) *编辑:添加库() library(tidyverse) my_poly_loglik <- function(pars, #parameters

浏览 3提问于2022-03-28得票数 2

3回答

R和Python的输出值不同吗？

、、、、

也许我做错了什么，而我的数组。有人能看看这个并建议发生了什么事吗？ R：： > data <- c(2.02, 2.33, 2.99, 6.85, 9.20, 8.80, 7.50, 6.00, 5.85, 3.85, 4.85, 3.85, 2.22, 1.45, 1.34) > data.mean <- mean(data) > data.sd <- sqrt(var(data)) > data.norm <- (data - data.mean) / data.sd > print(data.norm) [1] -0.9796808

浏览 7提问于2012-06-28得票数 7

回答已采纳

2回答

使用TBB的并行性-在我们的检查列表中应该是什么？

、、

直到最近，并行编程的前景才引起我的注意。从那以后，我使用了各种各样的并行编程库。也许我的第一站是英特尔线程积木(TBB)。但是，经常成为瓶颈的是由诸如圆环和这些程序在不同处理器体系结构中不可预测的行为等因素造成的错误。下面是一个计算两组值的Pearson相关系数的代码。它使用TBB的非常基本的并行模式-- *parallel_for*和*parallel_reduce*： // A programme to calculate Pearsons Correlation coefficient #include <math.h> #include <stdlib.h

浏览 7提问于2012-09-19得票数 4

回答已采纳

2回答

如何在numpy Nd-数组的层上动态循环并保存到熊猫数据中

、、、、

我有一个NumPy Nd-array，数组的形状是(3, 3, 2)。我想计算每个mean和sd数组的每个set/layer，并希望将它们保存在熊猫dataframe中。我可以使用以下代码来完成这一任务 import pandas as pd import numpy as np data_array = np.ndarray(shape=(2,3,2)) final_result = pd.DataFrame( { "Mean": np.array(data_array).mean(), "Mean_sd": np.a

浏览 3提问于2022-04-15得票数 1

回答已采纳

1回答

用Python表示均值标准差的转换表

、、

我有一个dataframe，df，其中我想按ID分组，显示给定时间段的平均值以及标准偏差的列表(1sd，2sd，3sd)。 id start end diff percent date a 4/1/2019 5/1/2019 160 11 04-01-2019 to 05-01-2019 a 5/1/2019 6/1/2019 136 8 05-01-2019 to 06-01-2019 a 6/1/2019 7/1/2019 174 9 06-01-2

浏览 3提问于2020-11-17得票数 0

回答已采纳

1回答

按R组汇总数据

、、

我试图得到平均，sd，cv的样本，有3个副本。数据如下： Sample Titer 1 1000 1 1002 1 1006 2 2003 2 2090 2 NA 3 3020 3 3020 3 3498 我要以excel格式输出。 Sample mean sd cv 1 2 3 我写了这个： cv <- function(x) 100*( sd(x)/mean(x)) Re <- aggregate(titer ~ Samp

浏览 4提问于2021-01-09得票数 0

回答已采纳

1回答

在ggplot中绘制断开的线

、

我想用ggplot创建一个带有不连线的图表。 # Sample data x <- seq(1:100) y <- c(rnorm(25, mean = 1, sd = 1), rnorm(25, mean = 2, sd = 1), rnorm(25, mean = 3, sd = 1), rnorm(25, mean = 4, sd = 1)) z <- rep(1:4, each = 25) tempdf <- data.frame(cbind(x,y,z)) 使用代码 ggplot(data=tempdf, aes(x = x)) + geom_line

浏览 0提问于2021-01-14得票数 1

1回答

从截断正态分布中绘制会产生错误的R标准差

、、、

我从一个截断的正态分布中抽取随机数。假设截断正态分布在左侧0处截断后的平均值为100，标准差为60。我计算了一个算法，在截断之前计算正态分布的均值和sd (mean_old和sd_old)。函数vtruncnorm给出了(想要的)方差60^2。然而，当我从分布中抽取随机变量时，标准差约为96。我不明白为什么随机变量的sd与60的计算值不同。我试着增加抽取量-- sd仍然在96左右。 require(truncnorm) mean_old = -5425.078 sd_old = 745.7254 val = rtruncnorm(10000, a=0, mean = mean_o

浏览 10提问于2019-05-16得票数 1

回答已采纳

1回答

ML模型在训练后给了我巨大的结果

、、、

我有一个非常小的数据集来训练，我正在训练这个模型，如下所示： import numpy as np import pandas as pd from sklearn import preprocessing data = pd.read_csv("house.csv") x=data.iloc[:,0:3] y=data["price"] sd=preprocessing.scale(x) #print(sd) #print(data.head()) # from keras.models import Sequential from keras.layer

浏览 16提问于2020-03-13得票数 0

8回答

求峰值的全宽度半最大值

、

我一直在试图计算出蓝峰的半高宽(FWHM) (见图)。绿色峰和洋红色峰结合在一起就构成了蓝峰。我一直使用下面的方程式来求绿色峰和品红色峰的半高宽：fwhm = 2*np.sqrt(2*(math.log(2)))*sd，其中sd =标准差。我创建了绿色和品红色的峰，我知道标准差，这就是为什么我可以使用这个方程。我用下面的代码创建了绿色和洋红色的峰： def make_norm_dist(self, x, mean, sd): import numpy as np norm = [] for i in range(x.size): norm += [1

浏览 6提问于2012-05-14得票数 27

回答已采纳

1回答

从未出现在数组中的列中删除数字

、、

取一个大型数据集，从特定的列中删除所有不在2SD内的数字，并创建一个数组，现在我希望从列中删除任何不在数组中的数字，而不会扰乱索引。最好将任何不存在的数字转换为nan。用于删除2 SD以外的值的代码： pupil_area_array = numpy.array(part_data['pupil_area']) mean = numpy.mean(part_data['pupil_area'], axis=0) sd = numpy.std(part_data['pupil_area'], axis=0) final_list = [x f

浏览 0提问于2019-07-10得票数 0

1回答

在R中添加输出向量作为矩阵的新行

、、

我有以下代码来测试for循环以生成给定pdf的多个样本值： library(EnvStats) mvfy <- matrix(, nrow = 0, ncol = 1) for (i in 1:1 ) { meanmean = 400 sdmean = 5 lsup <- 1 - pnorm(420, mean = meanmean, sd = sdmean) linf <- pnorm(380, mean = meanmean, sd = sdmean) meanfy <- simulateVector(2, distribution = "

浏览 3提问于2014-09-01得票数 0

回答已采纳

1回答

Python ()和random.seed()实现有区别吗？

、、、、

我正在实验实现CLT (中央极限定理)时数据分布的差异，比较两种方法:一种使用纯Python，另一种使用Numpy。这是我的密码： from numpy.random import seed from numpy.random import randint from numpy import mean import matplotlib.pyplot as plt import random # [With Numpy] # # Generate 1000 samples of 50 men, from 60 to 90 Kilos and calculate the mean # of

浏览 2提问于2020-06-02得票数 1

回答已采纳

2回答

一组一组地标准化变量--为什么平均值总是零？

、、

我有以下数据： df = pd.DataFrame({'sound': ['A', 'B', 'B', 'A', 'B', 'A'], 'score': [10, 5, 6, 7, 11, 1]}) print(df) sound score 0 A 10 1 B 5 2 B 6 3 A 7 4 B 11 5 A 1 如

浏览 0提问于2018-10-12得票数 0

回答已采纳

3回答

R.scale()和sklearn.preprocessing.scale()之间的区别

、、、

我目前正在将数据分析从R移到Python。在R中缩放数据集时，我将使用R.scale()，据我理解，这将执行以下操作：(X-均值(X))/sd(X) 为了替换该函数，我尝试使用sklearn.preprocessing.scale()。根据我对描述的理解，它也是一样的。尽管如此，我还是运行了一个小测试文件，发现这两种方法都有不同的返回值。很明显标准偏差是不一样的。有人能解释为什么标准差“偏离”彼此吗？ MWE： # import packages from sklearn import preprocessing import numpy import rpy2.robjects.numpy2

浏览 1提问于2014-12-04得票数 7

回答已采纳

1回答

使用scipy.stats的分布均值和标准差

、、

我试图得到对数正态分布的均值和标准差，其中mu=0.4104857306和sigma=3.4070874277012617，我期待着mean=500和std=600。我不知道我做错了什么。以下是代码： import scipy.stats as stats import numpy as np a = 3.4070874277012617 b = 0.4104857306 c = stats.lognorm.mean(a,b) d = stats.lognorm.var(a,b) e = np.sqrt(d) print("Mean =",c) print("std =

浏览 0提问于2018-08-18得票数 3

回答已采纳

1回答

R- ddplyr未按预期工作-按类别对长格式数据执行shapiro.test

、

我有一个长格式的数据集，值在" values“列，类别在"ind”列。数据如下所示： values ind 1 42.58666667 le_mean 2 52.35666667 le_mean 64 78.7 le_mean 65 95.49666667 le_mean 66 88.91 le_mean 67 1.295234856 le_sd 68 4.294139417 le_sd 69 0 le_sd 70 7.327416552 le_sd 71 4.007322464 le_sd 72 0 le_sd

浏览 14提问于2021-10-23得票数 0

回答已采纳

3回答

知道为什么R和Python的向量的NumPy缩放不匹配吗？

、、、

我有以下Python代码和输出： >>> import numpy as np >>> s = [12.40265325, -1.3362417499999921, 6.8768662500000062, 25.673127166666703, 19.733372250000002, 21.649556250000003, 7.1676752500000021, -0.85349583333329804, 23.130314250000012, 20.074925250000007, -0.29701574999999281, 17.078694250000

浏览 3提问于2013-10-04得票数 9

回答已采纳

1回答

为什么numpy.std()使用abs()？

、、

我检查了numpy库，并在numpy中找到了标准偏差的以下定义 std = sqrt(mean(abs(x - x.mean())**2)) 为什么使用abs()函数？-因为在数学上，每个定义的数字的平方都是正数。所以我想： abs(x - x.mean())**2 == (x - x.mean())**2

浏览 0提问于2017-12-04得票数 2

回答已采纳

2回答

python熊猫申请不接受numpy.float64 args

、、、、

我遇到了将numpy.float64变量作为参数传递给pandas.Series.apply()的问题。有没有办法强制使用.mean()和.std()函数的熊猫版本来满足熊猫的需求？代码 def normalization(val_to_norm, col_mean, col_sd): return (val_to_norm - col_mean) / col_sd voting_df['pop_estimate'].info() pop_mean, pop_sd = voting_df['pop_estimate'].mean(), voting

浏览 24提问于2022-09-29得票数 1

回答已采纳

1回答

NetBSD web服务器性能

、、、

我对Linux、FreeBSD和NetBSD之间web服务器性能的差异很感兴趣，因为我听说NetBSD和FreeBSD具有良好的TCP/IP实现。因此，我在KVM上设置了具有相同硬件功能( CPU、RAM:2G、HDD:16G、NIC:virtio)的VM，然后分别为Nginx安装必要的软件包。我只是在ramdisk上运行带有静态主页的简单Nginx (为了防止磁盘I/O因素)。我发现NetBSD的性能很差。我怀疑NetBSD的基本设置是保守的，所以我尝试调优一些系统参数。但是，很少有关于NetBSD系统调优的资源。虽然与FreeBSD相比，我调优了一些sysctl参数，但仍然不是更

浏览 0提问于2015-10-30得票数 3

回答已采纳

1回答

在r中模拟单样本t检验

我正试着在R中进行单样本t检验。根据我这里的代码，t应该是-4.979296： sample.mean = 20 population.mean = 40 sd = 11 n = 30 t <- (sample.mean-population.mean)/(sd/sqrt(n)) 但是，当我运行 test <- c(rnorm(30, mean = 20, sd = 11)) t.test(test, mu = 40) 它没有给我提供相同的t分数。你能告诉我我哪里做错了吗？

浏览 2提问于2017-04-11得票数 0

2回答

Kullback-莱布勒发散

我编写了一个函数，计算从N(mu2，sigma2)到N(0，1)的Kullback-Leibler发散。 mu1 <- 0 sigma1 <- 1 f <- function(mu2, sigma2) { g <- function(x) { (dnorm(x, mean=mu1, sd=sigma1, log=TRUE) - dnorm(x, mean=mu2, sd=sigma2, log=TRUE)) * dnorm(x, mean=mu1, sd=sigma1)

浏览 1提问于2011-02-01得票数 3

回答已采纳

2回答

使用PythonandRpy2的统计测试(Kolmogorov和T-test)

、、、

我已经运行了一些算法，并希望对结果进行一些统计分析。我有两个向量，平均误差率。用R，用下面的线，我就能得到一切。 t.test(methodresults1,methodresults2,var.equal=FALSE,paired=FALSE,alternative="less") 因为我使用Python，所以我想使用Rpy2项目。我试过了： import rpy2.robjects as R # methodresults1 and methodresults2 are numpy arrays. # kolmogorov test normality_res =

浏览 8提问于2012-03-07得票数 3

回答已采纳

3回答

我应该在我的C++标准随机分发版本上调用reset()来清除隐藏状态吗？

、、、

我想用简单的函数包装C++11标准库中的随机数分布，这些函数以分布的参数和生成器实例为参数。例如： double normal(double mean, double sd, std::mt19937_64& generator) { static std::normal_distribution<double> dist; return dist(generator, std::normal_distribution<double>::param_type(mean, sd)); } 我希望避免分布对象中的任何隐藏状态，以便对此包装函数的每次调

浏览 0提问于2013-02-13得票数 11

回答已采纳

1回答

使用ggplot对图例进行奇怪的重新排序

、、

我有一个data.frame (汇总表)： head(hejALLA) variable År N Sum Mean sd Variance Median Min Max 1 N_kvinnor 1944 28 2419650 86416.07 223776.7 50076008602 54003.0 413 1209825 2 N_kvinnor 1945 28 2595794 92706.93 240100.4 57648222451 58040.0 459 1297897 3 N_kvinnor 1946 29 2752518 94

浏览 1提问于2013-03-19得票数 1

回答已采纳

1回答

Python- -我怎样才能把“胡须”添加到点情节中呢？

、、

The issue 我用导入的数据绘制了一个圆点图。一组数据显示数据集的不同成员之间的均值时间序列，另一组数据显示这些成员在每个时间步骤中的标准偏差(SD)，然后才采取这些方法。我的顾问要我添加“胡须”，显示+/- 1 SD的点代表手段。下面我将提供一个简化的工作示例。代码(示例) import numpy as np import matplotlib.pyplot as plt %matplotlib inline #Generate some data x = np.empty((7,9)) for i in range(7): x[i,:] = np.arange(1,10

浏览 0提问于2016-12-01得票数 0

回答已采纳

1回答

在一定置信水平下计算置信区间

、

def get_ci(mean, cl, sd): loc = stats.norm.ppf(1 - cl/2) rng_val = stats.norm.cdf(loc - mean/sd) lwr_bnd = value - rng_val upr_bnd = value + rng_val return_val = (lwr_bnd, upr_bnd) return(return_val) 该函数包含以下三个参数： mean --> It is the mean cl --> Confidence Level sd --> Standard

浏览 0提问于2019-04-15得票数 0

回答已采纳

2回答

numpy的参数'a‘是如何工作的？

、

我对python和numpy很陌生，很难理解平均值函数的参数。我这样定义了我的数据。 mean = [2, 0.5] cov = [[0.8, 0.1],[0.1, 0.5]] np.random.seed(17) C1 = np.random.multivariate_normal(mean, cov,50).T 现在我想要近似于平均值。我这样做： C1.mean(1) // returns array([ 1.81203223, 0.45002797]) 我对这个解决方案感到困惑，因为我不能把我的头脑围绕参数概念。用于numpy.mean状态的Docs： A: array_like

浏览 3提问于2017-01-26得票数 1

回答已采纳

1回答

为什么r中的for循环函数不起作用(尝试截断数据集中的异常值)

、

我正在尝试用数据集中最接近的值替换极值。我知道ifelse ()能更好地工作，但我想知道为什么for循环不能工作。 truncate <- function(a){ m <- mean(a) sd <- sd(a) up <- m+3*sd low <- m-3*sd a1 <- c() for (i in 1:length(a)){ if (a[i] > up) { a1[i] = up } if (a[i] < low){ a1[i] = low }

浏览 2提问于2017-08-20得票数 0

1回答

为什么R在这种情况下绘制错误的分布？

、、

我对R比较陌生，我一直在尝试模拟一个正态分布，用R的内建函数，rnorm和dnorm，然后绘制它。为什么当我的代码是这样的时候，它绘制了错误的密度函数 x <- rnorm(1000, mean=5, sd=2) hist(x, border='red',freq=F) y <- curve(dnorm(x,mean(x), sd(x)), add=T) 但是当我的代码是这样的时候，它确实绘制了正确的密度函数。 x <- rnorm(1000, mean=5, sd=2) hist(x, border='red',freq=F) m

浏览 8提问于2020-11-09得票数 3

回答已采纳

3回答

用泰勒展开式估计比率的标准差

、、

我有兴趣构建一个R函数，我可以用它来测试泰勒级数近似的极限。我意识到我所做的事情是有局限性的，但这正是我想要调查的那些局限性。我有两个正态分布的随机变量x和y。x的平均值为7，标准差( sd )为1。y的平均值为5，sd为4。 me.x <- 4; sd.x <- 1 me.y <- 5; sd.y <- 4 我知道如何估计y/x的平均比率，如下所示 # E(y/x) = E(y)/E(x) - Cov(y,x)/E(x)^2 + Var(x)*E(y)/E(x)^3 me.y/me.x - 0/me.x^2 + sd.x*me.y/me.x^3 [1] 1.3281

浏览 1提问于2016-02-09得票数 4

1回答

包含多个元素的数组的真值是不明确的“错误[Python]

、

index = np.where(slopes > mean - 2 * sd and slopes < mean + 2 * sd)[0] 返回此错误： ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all() 如果我写的是idx = np.where(slopes < mean + 2 * sd)[0]或idx = np.where(slopes > mean - 2 * sd)[0]，我就会得到正确的索引。为什么我不

浏览 4提问于2021-04-19得票数 1

回答已采纳

2回答

使用汇总()函数时出现NA的标准差

、、

我试图为在birthwt中找到的出生体重数据集( RStudio )计算描述性统计数据。然而，我只对几个变量感兴趣：age、ftv、ptl和lwt。这是我到目前为止掌握的代码： library(MASS) library(dplyr) data("birthwt") grouped <- group_by(birthwt, age, ftv, ptl, lwt) summarise(grouped, mean = mean(bwt), median = median(bwt), SD = sd(bwt))

浏览 2提问于2018-01-04得票数 5

回答已采纳

1回答

R代码:在绘制分层聚类时对x，y轴的rnorm的调用

这是一个随机生成的数据集，用于理解和绘制R中的层次聚类。我需要知道为什么在曲线图的x轴和y轴上调用rnorm的差异背后的逻辑。为什么y<-rnorm(12，mean=rep(c(1,2,1) )，而我本应该期望mean=rep(c(1,2,3).也许直译会对我有帮助。 set.seed(1234); par(mar=c(0,0,0,0)) ## par sets parameter mar (sets margin) x<-rnorm(12, mean=rep(1:3,each=4),sd=0.2) ## repeat the vector 3 times y<-rnor

浏览 2提问于2013-02-12得票数 0

1回答

在r中翻译stata代码，但结果不同

、

我目前正在写一篇论文的复制品。作者使用Stata，我对它知之甚少，所以我必须将它翻译成R。我有一个关于以下代码的问题： use "${directory_data}/income_dataset.dta", clear reghdfe log_income post61_sc post65_sc male std_score mean_score_class privatista non_bocciato if tipo_scuola2==1 & laureato==1, vce(cluster liceo_anno) absorb(liceo anno_matur

浏览 27提问于2020-11-23得票数 1

回答已采纳

1回答

stats.ttest_ind()与“手动”计算学生的独立t检验:不同的结果

、、

我比较了stats.ttest_ind()和相同测试的“手动”计算，得到不同的结果。 import numpy as np import pandas as pd import scipy.stats as stats import math stats.ttest_ind()方法： #generate data np.random.seed(123) df = pd.DataFrame({ 'age':np.random.normal(40,5,200).round(), 'sex':np.random.choice( ['male

浏览 131提问于2021-02-07得票数 2

回答已采纳

2回答

在ggplot2中位于另一个顶部的地块

、、

如何在ggplot2的同一绘图中绘制引用Y1的线条和引用Y2的条形图这是我的数据： year partbuild mean.t sd.t n.t se.tr ci1 ci2 1 2003 Assets 6.072719 11.109798 173 0.8446623 4.417181 7.728257 2 2003 Non-opportunity 3.793043 59.377032 4394 0.8957534 2.037366 5.548720 3 2003 Op

浏览 0提问于2013-01-31得票数 4

回答已采纳

2回答

样本的对数正态分布到精确的平均值和sd

我准备了一个向量，通过设置mean和sd的参数来采样对数正态分布(通过试验和错误)，这样rlnorm()返回任何指定的随机set.seed()的平均值为20，sd为6 (至小数位)，如下例所示. # 10,000 samples from log-normal distribution set.seed(7) HcT <- rlnorm(n = 10000, log(19.147), log(1.33832)) # Report mean and sd paste('The mean of HcT is',round(mean(HcT),3),'and th

浏览 0提问于2019-06-30得票数 4

回答已采纳

1回答

提取mean+1SD内的值和R中的mean-1SD

我想从数据帧' data‘中提取mean-1SD和mean+1SD，mean-2SD和mean+2SD范围内的值，总而言之，提取的值应该等于最终样本大小，但我的以下代码没有给出正确的值。有什么建议吗？ within1sd <- data[!(data$values < mean-SD & data$values > mean ), ] within1sd <- data[!(data$values < mean-SD & data$values > mean ), ]

浏览 0提问于2019-08-16得票数 0

2回答

numpy标准差不能给出与give统计量标准差相同的结果。

、、、

Scipy和numpy标准差法给出的结果略有不同。我不明白为什么。有人能跟我解释一下吗？下面是一个例子。 import numpy as np import scipy.stats ar = np.arange(20) print(np.std(ar)) print(scipy.stats.tstd(ar)) 返回 5.766281297335398 5.916079783099616

浏览 10提问于2022-11-01得票数 2

回答已采纳

2回答

为什么我的总结功能在某几年不起作用？

、、

这是我第一次使用R，所以我得到了一个项目的初始代码。为2000年提供的摘要职能是： summaries <- data_south_west %>% group_by(Region) %>% summarize(mean00 = mean(`2000`), sd00 = sd(`2000`), median00 = median(`2000`), iqr00 = IQR(`2000`)) 我按照指示复制了该函数，并编辑了该函数： summarize(mean05 = mean(`2005`), sd05 = sd(`2005`), median05 = median(`

浏览 11提问于2022-07-04得票数 0