开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

在R中模拟为达到真实标准差所需的样本数

，可以使用以下步骤：

首先，确定所需的真实标准差（population standard deviation）的值。
然后，使用R中的rnorm函数生成一个具有所需标准差的随机样本。可以指定样本的大小（sample size）。
接下来，计算生成的样本的标准差（sample standard deviation）。
重复步骤2和步骤3多次，直到生成的样本的标准差接近所需的真实标准差。
记录每次生成样本时所使用的样本大小。
最后，分析记录的样本大小数据，以确定达到所需真实标准差所需的样本数。

这个过程可以通过编写R代码来实现。以下是一个示例代码：

# 设置所需的真实标准差
true_sd <- 2

# 初始化样本大小和样本标准差的向量
sample_sizes <- c()
sample_sds <- c()

# 循环生成样本并计算标准差
while (TRUE) {
  # 生成一个具有所需标准差的随机样本
  sample <- rnorm(n = 100, mean = 0, sd = true_sd)
  
  # 计算样本标准差
  sample_sd <- sd(sample)
  
  # 记录样本大小和样本标准差
  sample_sizes <- c(sample_sizes, length(sample))
  sample_sds <- c(sample_sds, sample_sd)
  
  # 判断样本标准差是否接近所需的真实标准差
  if (abs(sample_sd - true_sd) < 0.01) {
    break
  }
}

# 分析记录的样本大小数据
required_sample_size <- max(sample_sizes)

# 输出结果
print(paste("为达到真实标准差所需的样本数为:", required_sample_size))

在这个例子中，我们假设所需的真实标准差为2。代码中使用了一个while循环来生成样本并计算标准差，直到生成的样本标准差接近所需的真实标准差。然后，记录每次生成样本时所使用的样本大小。最后，分析记录的样本大小数据，找到达到所需真实标准差所需的样本数。

请注意，这只是一个示例代码，实际情况中可能需要根据具体需求进行调整。另外，腾讯云提供了一系列云计算相关产品，可以根据具体需求选择适合的产品。具体产品介绍和链接地址可以在腾讯云官方网站上查找。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

R语言系列第四期（番外篇）：样本容量和把握度计算

专业角度来讲，当样本容量相对于检验的差异过小时，统计检验将无法甄别出其中的真实差异。因此，在设计试验时，试验设计者必须收集足够多的样本数据，以能保证我们有充分的理由甄别出一个特定大小的差异。...，sd表示真实标准差。...在数据原文献里，是通过诺模图（一种绘图技术，在最后一个系列绘图相关内容我们会为大家重点介绍）的方法计算，从诺模图上读取数据时难度较大，难以精确。...在研究配对数据时，通常在表述上会遇到一个陷阱：人们通常把个体间的方差认为是对“相同样本重复测量得到的方差”，对样本进行多次测量，并计算出个样本间的标准差即可。...计算比例比较试验所需要的样本数量和其他指标，可以使用power.prop.test()。

2.8K2 0

VM系列振弦采集模块频率计算与质量评定

河北稳控科技VM系列振弦采集模块频率计算与质量评定运用采集到的若干信号样本数据，首先估算得到一个频率值，称为“ 伪频率值” ；然后在模块异常数据剔除算法模型中，以寄存器 CAL_PAR1 的值作为主要判定参数...[7:0]中，优质样本数量更新到寄存器 HQ_COUNT 中，优质样本质量评定值保存于寄存器 SMP_QUA 中，最终的传感器频率值和频模值分别更新到寄存器 S_FRQ 和寄存器 F_REQM。...图片图片信号综合质量：样本质量用百分数表示，一般情况下，样本质量为 50%及以上时的频率值能够代表传感器真实的频率，低于 50%则认为频率值可信度较差或不可信，在模块使用过程中，尽量使用样本质量在...图片S_FRQ 寄存器频率和 SFC 频率的区别S_FRQ 寄存器频率是推荐读取并使用的频率值，精度较高，但当信号未达到预定要求时会强制为0，另外， S_FRQ 频率计算过程中无法区分出传感器信号中夹杂的幅值较大的干扰杂散信号...，在一些极端条件产生时可能计算得到错误频率（概率很低）； SFC 频率值是一个信号分析预估值，抗干扰能力很强，通常情况下总能代表传感器的正确频率，但相对于 S_FRQ 寄存器中的频率值而言，这个值有一定的误差

2952 0

盘一盘 Python 系列 9 - Scikit-Plot

569 个样例分成含 455 个的训练集和含 114 个的测试集，而且 X 有 30 个特征，X 和 y 的形状为 X = (样本数，特征数) y = (样本数，) 3.2 学习曲线 Scikit-Plot...本例中随机森林是由 5 棵决策树组成，在每棵树上都可以计算出一组特征重要性，因此也可以在 5 棵树上计算特征重要性的标准差。...大于阈值的放深蓝色 + 白字小于阈值的放浅蓝色 + 黑字用 Matplotlib 画的图如下，是不是和上面的一模一样？...用 fill_between() 在两条线 (准确率±标准差) 中涂色，形成块状图。为了增加透明感，设置 alpha。细节 2 - 第 8-9 行。...在画图之前，需要执行一些有用的操作：获取 RF 中的特征重要性存入 importances 计算特征重要性的标准差 std 去除两者中的零值并记录非零值对应的索引 nonzero_idx，获取该索引下的

1.5K4 1

大数据时代的网络分析，如何全盘挖掘大数据？

这些数据集将实体（entities）模拟为节点、节点之间的连接被模拟为边（edges），从不同且互补的角度描述着复杂的真实世界系统。...本期《科学》中， Benson 等人[2] 往这一方向迈出了重要的一步——提出了一种可升级( scalable)的启发式框架：用于基于连接模式的实体（entities）分组，以及用发现的模式揭示出几个真实世界网络化系统的高位阶组织原则...相反，Benson 等人使用了叫做图元 (graphlets, 例如三角形) 的高阶描述符，它建立在小型子网络基础上，这些小型子网络来自一个数据中的节点子集，这个节点子集包含了出现在数据中的所有交互作用...因此，个性化医疗的目的在于基于单个病人基因和分子特征，为病人提供个性化疗法，这可能涉及到根据不同病患分组，改变已知药物用途，进而缓解开发新药所需成本和时间给制药行业带来的瓶颈 [11,12]。...图三：加拿大和美国机场网络的高阶谱分析。（A）在我们的分析中使用的三种高阶结构。每一个模体。每一个模体都「挂靠」于蓝色的节点 i 和 j，这意味着我们的框架只能寻找将蓝色节点聚类在一起。

6266 0

开发 | GAN很复杂？如何用不到 50 行代码训练 GAN

它把平均数（mean）和标准差（standard deviation）作为输入，然后输出能提供样本数据正确图形（从 Gaussian 用这些参数获得）的函数。...在我们的代码例子中，我们使用 4 的平均数和 1.25 的标准差。 2.) I：生成器的输入是随机的，为提高点难度，我们使用均匀分布（uniform distribution ）而非标准分布。...它会从 R 或 G 那里获得样本，然后输出 0 或 1 的判别值，对应反例和正例。这几乎是神经网络的最弱版本了。 5.) 最后，训练环在两个模式中变幻：第一步，用被准确标记的真实数据 vs....在第一部分（绿色），我们让两种类型的数据经过 D，并对 D 的猜测 vs. 真实标记执行不同的评判标准。...同样的，标准差一开始在错误的方向降低，但随后攀升至理想中的 1.25 区间（右图），达到 R 的层次。所以，基础数据最终会与 R 吻合。那么，那些比 R 更高的时候呢？数据分布的形状看起来合理吗？

7776 0

AI 时代下的海量业务智能监控实践

海量业务的挑战互联网业务讲究“极致、口碑、快”，经历过长时间的演进，腾讯SNG社交平台产品用户访问量已经达到亿级、十亿级，我们的业务监控、业务分析等数据也显示：业务前、后端成功率都已经达到99%...业务模块众多，在全局监控数据中，体现的监控组合维度成千上万（如省份、运营商、客户端版本、命令字等）、不可能为每一种业务设定阈值，如何实现无阈值告警？并且能准确定位到相关故障的表现维度？...因此，这里将数据输入决策树后，获取树的划分结果，然后我们根据需要从这个树中解析到所需的信息。...节点异常聚集率rate_unormal=（节点负样本数量）/(节点正样本数量+节点负样本数量) 哪个维度（节点）上异常检出率（图中rate_recall）最高，也即负样本最多的节点。...并且事实上，从DLP中模调获取的有效关联规则，真实置信度基本都是1.即A告警，B一定会告警。

3.9K11 0

AI 时代下腾讯的海量业务智能监控实践

海量业务的挑战互联网业务讲究“极致、口碑、快”，经历过长时间的演进，腾讯SNG社交平台产品用户访问量已经达到亿级、十亿级，我们的业务监控、业务分析等数据也显示：业务前、后端成功率都已经达到99%...3.业务模块众多，在全局监控数据中，体现的监控组合维度成千上万（如省份、运营商、客户端版本、命令字等）、不可能为每一种业务设定阈值，如何实现无阈值告警？并且能准确定位到相关故障的表现维度？...因此，这里将数据输入决策树后，获取树的划分结果，然后我们根据需要从这个树中解析到所需的信息。...节点异常聚集率rate_unormal=（节点负样本数量）/(节点正样本数量+节点负样本数量) 哪个维度（节点）上异常检出率（图中rate_recall）最高，也即负样本最多的节点。...并且事实上，从DLP中模调获取的有效关联规则，真实置信度基本都是1.即A告警，B一定会告警。

4.9K10 0

论文拾萃 | 紧致化智能机器人存取系统的运行策略研究

在该系统中，存储策略会显著影响系统所需的存储空间和系统吞吐时间。具体来说，每个存储堆叠中存储一种货物（即指定存储策略）可以消除不必要的翻箱作业，从而提升吞吐能力，但系统将需要更多的存储空间。...在一个使用高位存储堆叠的系统中，存储策略决定了该系统所需要的存储空间和吞吐时间。在制定存储策略下，每个堆叠只存储一种货物，其优势在于避免了取货过程中的翻箱过程。劣势在于系统需要更多的存储空间。...到达系统的订单首先在Q_o中等待小车，闲置的小车则在Q_r中等待订单的到达。其中，除工作站以外，其余服务站点的服务都不需要等待资源，所以，它们被模拟为无限能力服务者(IS)。...该模型通过变化服务点u_s和u_r的结构来刻画不同的存储策略与翻箱策略。小车首先从其待命位点移动至取货料箱所在的堆叠处，该过程被模拟为服务点 u_d,r(IS)。...到达取货点后，小车从堆叠中提取取货料箱，该过程模拟为服务点u_r。然后，小车以概率 ? 行走至工作站w_i，该过程模拟为服务点u_r,wi。

1.2K2 0

深度学习基础入门篇：模型调优，学习率设置（Warm Up、loss自适应衰减等），batch size调优技巧，基于方差放缩初始化方法。

在小样本数的数据库中，不使用Batch Size是可行的，而且效果也很好。但是一旦是大型的数据库，一次性把所有数据输进网络，肯定会引起内存的爆炸。所以就提出Batch Size的概念。...我们假设样本真实的标准差为 \sigma ，则 n个样本均值的标准差为 \frac{\sigma}{\sqrt{n}} , \sqrt{n} 表明使用更多样本来估计梯度的方法回报是低于线性的。...2）随着batchsize增大，处理相同的数据量的速度越快。 3）随着batchsize增大，达到相同精度所需要的epoch数量越来越多。...跑完一次 epoch（全数据集）所需的迭代次数减少，要想达到相同的精度，其所花费的时间大大增加了，从而对参数的修正也就显得更加缓慢。...但也不是说权重值越小越好，如果权重值过小，会导致在反向传播时计算得到很小的梯度值，在不断的反向传播过程中，引起梯度消失。均匀分布初始化：在一个给定区间 [−r,r]内采取均匀分布进行初始化。

1.2K4 0

深度学习基础入门篇：模型调优，学习率设置（Warm Up、loss自适应衰减等），batch size调优技巧，基于方差放缩初始化方法。

在小样本数的数据库中，不使用Batch Size是可行的，而且效果也很好。但是一旦是大型的数据库，一次性把所有数据输进网络，肯定会引起内存的爆炸。所以就提出Batch Size的概念。...我们假设样本真实的标准差为$\sigma$，则 n个样本均值的标准差为$\frac{\sigma}{\sqrt{n}}$,$\sqrt{n}$表明使用更多样本来估计梯度的方法回报是低于线性的。...跑完一次 epoch（全数据集）所需的迭代次数减少，要想达到相同的精度，其所花费的时间大大增加了，从而对参数的修正也就显得更加缓慢。...随着 Batch_Size 增大，处理相同数据量的速度越快。随着 Batch_Size 增大，达到相同精度所需要的 epoch 数量越来越多。...但也不是说权重值越小越好，如果权重值过小，会导致在反向传播时计算得到很小的梯度值，在不断的反向传播过程中，引起梯度消失。均匀分布初始化：在一个给定区间 −r,r内采取均匀分布进行初始化。

3.6K3 2

R语言和医学统计学系列：样本量计算

，但是在课本中并没有详细介绍，今天我们说一下常见的研究设计的样本量计算。...在功效分析中，我们通常关注4个值：样本量显著性水平，也称为α值，一类错误的概率功效（power），1 - 二类错误的概率，也就是1-β 效应值（effect size）计算样本量就是解方程的过程...在R语言中一般使用pwr包进行功效分析，没安装的小伙伴自行安装一下即可。...若要求以α=0.05，β=0.1的概率，达到能辨别出两者增加的差别是其标准差的60%，需要多少实验动物？感觉和小学做应用题差不多......但是，在R里面计算种类型的样本量非常困难，原因在于效应量effect size很难计算出来，最终结果也和课本上面的公式计算出来的样本量不一样，所以我推荐用PASS软件，点点点即可！

2K4 0

深度学习500问——Chapter02：机器学习基础（3）

（MAE，RAE）绝对误差 R-Squared R平方值 2.11.2 误差、偏差和方差有什么区别和联系在机器学习中，Bias（偏差），Error（误差），和Variance（方差）存在以下区别和联系...：表示实际为正例但是预测为反例的代价。代价敏感错误率=样本中由模型得到的错误值与代价乘积之和 / 总样本。其数学表达式为：分别代表样例集的正例子集和反例子集，x是预测值，y是真实值。...2.11.19 为什么使用标准差 方差公式为： 标准差公式为：样本标准差公式为：与方差相比，使用标准差来表示数据点的离散程度有3个好处： 1、表示离散程度的数字与样本数据点的数量级一致，更适合对数据样本形成感性认知...3、在样本数据大致符合正态分布的情况下，标准差具有方便估算的特性：68%的数据点落在平均值前后1个标准差的范围内、95%的数据点落在平均值前后2个标准差的范围内，而99%的数据点将会落在平均值前后3个标准差的范围内...2.11.20 类别不平衡产生原因类别不平衡（class-imbalance）是指分类任务中不同类别的训练样例数目差别很大的情况。

1001 0

(PyTorch)50行代码实现对抗生成网络(GAN)

这些模型扮演两个截然不同的角色（字面意思是对抗性的）给定一些真实的数据集R, G是生成器，试图创建看起来像真实数据的假数据，而D是鉴别器，从真实数据集或G中获取数据并标记差异。...实际上只有5个组成部分需要考虑: R:原始的、真实的数据集 I:作为熵源进入生成器的随机噪声 G:试图复制/模拟原始数据集的生成器 D:鉴别器，用来区分G和R的输出在实际的“训练”循环中，我们教G欺骗...1.）R：在我们的例子中，我们将从最简单的R-钟形曲线开始。此函数接受平均值和标准偏差，并返回一个函数，该函数使用这些参数从高斯函数中提供正确形状的样本数据。...这里的激活函数是一个S形，没什么特别的。它将从R或G中获取样本，并输出一个介于0和1之间的标量，解释为“假的”和“真实的”。换句话说，这是神经网络所能得到的最脆弱的东西。 ?...10次运行中有8次的最终分布非常好——类似于高斯分布，均值为4，标准差在正确的范围内。

1.1K2 0

在 R 中估计 GARCH 参数存在问题（基于 rugarch 包）

一年前我写了一篇文章，关于在 R 中估计 GARCH(1, 1) 模型参数时遇到的问题。我记录了参数估计的行为（重点是 β ），以及使用 fGarch 计算这些估计值时发现的病态行为。...我在 R 社区呼吁帮助，包括通过 R Finance 邮件列表发送我的博客文章。反馈没有让我感到失望。...Santos 的评论让我想要做一个在真实世界中 GARCH 参数的估计是什么样子的元研究（metastudy）。(可能有也可能没有，我没有检查过。如果有人知道，请分享。)...正如 Vivek Rao 在 R-SIG-Finance 邮件列表中所说，“最佳”估计是最大化似然函数（或等效地，对数似然函数）的估计，在上一篇文章中我忽略了检查对数似然函数值。...我首先为固定样本量和模型创建表：所有求解器中，某个求解器达到最高对数似然的频率某个求解器未能收敛的频率基于某个求解器的解，95％置信区间包含每个参数真实值的频率（称为“捕获率”，并使用稳健标准差

4.2K3 1

拓端tecdat|Python蒙特卡罗（Monte Carlo）模拟计算投资组合的风险价值（VaR）

我们现在将使用蒙特卡洛模拟为我们的资产组合生成一组预测收益，这将有助于我们找出我们投资的风险值。...---- 在Python中计算VaR 我们将首先通过导入所需的库和函数 #导入所有需要的库import matplotlib.pyplot as pltimport numpy as npimport...sigma = pre.std()price=price.dot(sh_wt) #计算加权值在计算了投资组合的期望收益和波动率（期望收益的标准差）后，我们将设置并运行蒙特卡洛模拟。...我使用的时间是1440（一天中的分钟数），模拟运行20,000次。时间步长可以根据要求改变。我使用了一个95%的置信区间。...所得金额将标志着每天弥补你的损失所需的金额。这个结果也可以解释为你的投资组合在5%的概率下将面临的最低损失。总结上面的方法显示了我们如何计算投资组合的风险价值（VaR）。

1.5K3 0

目标检测算法之AAAI2019 Oral论文GHM Loss

所以，论文定义了一个梯度模长为： ? 直观来看，表示了样本的真实值和预测值的距离。看下论文的Figure2，表示的是一个One-satge模型收敛后画出的梯度模长分布图。Figure2如下： ?...由于梯度均衡本质上是对不同样本产生的梯度进行一个加权，进而改变它们的贡献量，而这个权重加在损失函数上也可以达到同样的效果，此研究中，梯度均衡机制便是通过重构损失函数来实现的。...在论文中，。和Smooh L1损失有相似的性质，并且梯度为： ? 论文把定义为梯度模长（gradient norm），则的梯度模长和样本部分的关系如下图所示： ?...（图上最靠右的部分）。所以使用GHM的思想来修正loss函数，可以得到： ? 以达到对离群点的抑制作用。GHM-R Loss对于回归梯度的修正效果如下图所示： ?...如果再用GHM-R代替双阶段检测器中的Smooth L1损失，那么AP值又会有提示。如表7所示。 ? 如果同时把GHM-R Loss和GHM-C Loss用到目标检测器中，AP值有1-2个点提升。

2.3K1 0

Matlab数据处理

中包含复数元素，则按模取最大值。...(2)[y,k]=max(X): 返回向量X的最大值存入y，最大值元素的序号存入k，如果X中包含复数元素，则按模取最大值。...corrcoef(X,Y):在这里，X、Y是向量，它们与corrcoef([X,Y)的作用一样,用于求X、Y向量之间的相关系数。...输出参数中，Y是排序后的矩阵，而l记录Y中的元素在A中位置。多项式计算多项式的表示在MATLAB中创建多项式向量时，注意三点：多项式系数向量的顺序是从高到低。...调用格式: P=polyfit(X,Y,m) [P,S]=polyfit(X,Y,m) [P,S,mu]=polyfit(X,Y,m) 根据样本数据X和Y，产生一个m次多项式P及其在采样点误差数据S，mu

1571 0

50行代码实现GAN | 干货演练

在实践中，Goodfellow展示了G使用真实数据集进行无监督学习，找到某种简单的方式表示该数据。正如Yann LeCun所说，无监督学习才是人工智能真正的“蛋糕”。...该函数输入均值和标准差，返回一个生成样本数据的函数，这些数据使用带参数的高斯函数生成的。我们的代码中平均值为4.0，标准差为1.25。 ?...3.）G：生成器是标准的前向传播图，两个隐藏层，三个全连接层，双曲正切激活函数。G从I中输入均匀分布的数据样本，以某种方式模仿R的正态分布，即使它没有接触过R。 ?...即使你之前没有接触过PyTorch也可以大概了解上面代码的运行过程。在绿色部分，通过向D输入真实或虚假的数据，并在D的预测结果和真实标签之间应用交叉熵函数。...同样的，标准差刚开始在较低的位置徘徊，但随后上升到正确的1.25范围（右），和数据集R相同。 ? 最终结果的统计数据和数据集R相匹配。但是分布的形状是否相同呢？

3983 0

（数据科学学习手札11）K-means聚类法的原理简介&Python与R实现

这里我们分别生成5个100x10的高维正态分布随机数，标准差均为0.8，均值分别为1,2,3,4,5，并将其拼接为500x10的矩阵，并按行打乱顺序进行聚类，鉴于维度为10大于2，为了在二维平面上进行可视化...可以看出，在k=2的时候，我们找到了对应的‘肘部’，这与真实的类数相同，下面我们进行真实类数较多时的k值选择： import numpy as np from scipy.cluster.vq import...可以看出，在各个类的真实分类较为均匀的时候，肘部法则就失去了意义，因为这时我们无法分辨代价函数的减小是得益于k选的好还是k值的增大。...R 在R中做K-means聚类就非常轻松了，至少不像Python那样需要安装第三方包，在R中自带的kmeans(data,centers,iter.max)可以直接用来做K-means聚类，其中data...二、高维当样本数据的维度远远大于3时，就需要对其进行降维至2维以进行可视化，和前面所说的TSNE类似，R中也有同样功能的降维包Rtsne，下面我们就对一个维度较高的（10维）的样本数据集进行聚类及降维可视化

2.2K7 0

LeCun 推荐！50 行 PyTorch 代码搞定 GAN

给定一些真实数据集R，G是发生器（试图创建看起来像真正数据的假数据），而D是鉴别器，从真实数据集或G中获得数据并标记差异。...1.）R：在我们的例子中，我们将从最简单的R- 一个钟形曲线开始。此函数采用平均值和标准偏差，并返回一个函数，该函数从具有那些参数的正态分布中提供样本数据的正确形状。...在我们的示例代码中，我们将使用平均值4.0和标准差1.25。 ? 2.）I：进入生成器的输入也是随机的，但是为了使我们的工作更难一点，让我们使用一个均匀分布，而不是一个正常的分布。...最后，训练循环在两种模式之间交替：首先用准确的标签（把它当成是警察学院）训练在真实数据与假数据上训练D，; 然后用不准确的标签训练G来愚弄D。这是善与恶之间的斗争。 ?...好，现在基本的统计和R匹配了。那些highermoments怎么办？分布的形状看上去正确吗？毕竟，你当然可以有一个均值分布，平均值为4.0，标准差为1.25，但那并不会真正地和R匹配。

1.3K7 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭