文章/答案/技术大牛

发布

如何从R中的特定群体中提取大量样本？

在R中，要从特定群体中提取大量样本，可以使用以下步骤：

了解数据集：首先，你需要了解你的数据集，包括数据的结构和变量的特征。确保你对数据集有足够的了解，以便能够准确选择特定群体。
选择特定群体：根据你的需求和研究问题，选择你想要从中提取样本的特定群体。这可能涉及使用逻辑运算符（例如等于、不等于、大于、小于等）来筛选出符合条件的观测值。
创建样本：使用R中的采样函数来从特定群体中提取样本。其中最常用的函数是sample()函数。你可以指定从特定群体中提取的样本大小，并设置是否允许有放回或无放回抽样。
例如，假设你有一个名为data的数据框，其中包含一个名为group的变量表示所属的群体。你想要从群体为"A"的观测值中提取100个样本。你可以使用以下代码：
例如，假设你有一个名为data的数据框，其中包含一个名为group的变量表示所属的群体。你想要从群体为"A"的观测值中提取100个样本。你可以使用以下代码：
这个代码首先通过逻辑运算符==筛选出群体为"A"的观测值，然后使用sample()函数从筛选出的观测值中提取100个样本。
检查样本：提取样本后，建议对样本进行检查，确保样本的质量和准确性。你可以查看样本的统计摘要，绘制样本的分布图等。

总之，使用R从特定群体中提取大量样本的步骤包括了解数据集、选择特定群体、创建样本和检查样本。根据具体的需求，你可以使用R中的采样函数来实现样本提取操作。

如何从R中的特定群体中提取大量样本？

、

我有这样的人口： MyPopulation <- c(1:100) 我想创建一个40列5行的数据框。每一列都必须是MyPopulation的随机样本，所以我尝试这样做： MySample <- data.frame(NoSample = c(1:5)) MySample$i <- sample(MyPopulation,5) } 结果是一个只有1列(名为i)的数据框，并以随机样本作为值。

浏览 31提问于2020-10-19得票数 0

回答已采纳

1回答

Kolmogorov-Smirnov试验的实测值

、

我已经调用python上的KS测试函数来比较两个特性:大小和持续时间，我在解释输出时有点不知所措。这是我的代码：import csv ds2=getColumn("TraceFG.csvx (0.25583333333333336，0.0039023335557401583) 我从</e

浏览 1提问于2014-08-11得票数 0

回答已采纳

1回答

包括R中性别在内的多元分布的抽样

、、

我试图从R中的一个小种群中模拟一个更广泛的种群，如下所示：M= cor(idata)sigma=cor2cov(M, sd)但问题是，对于性，代码将考虑一个连续的分布，而它必须是二进制的，而性

浏览 2提问于2017-10-23得票数 1

回答已采纳

0回答

ANOVA使用样本均值作为R中的截距

、、

许多学生首先使用一种模型形式学习ANOVA，该模型将群体均值与总体均值进行比较(在群体变异性之间)，并将个人观察与其群体均值进行比较(在群体变异性内)。样本均值自然用作总体均值的估计值。如果设计是平衡的(每个单元格中的计数相等)，则R (contr.sum)中的和为零的对比度等同于上面段落中描述的对比度。然而，对于不平衡设计，<

浏览 9提问于2018-07-19得票数 0

回答已采纳

2回答

在Python中生成具有指定边缘的copula相关样本

、、

，XN)，每个变量都分布在特定的边际上(正态，对数正态，泊松...)我想要生成这些变量Xi的p个联合实现的样本，假设这些变量与给定的Copula相关，使用Python 3。在高斯copula方法的开始，您可以从多变量正态分布中提取p个实现的样本。为了适应另一种copula，例如二元Gumbel，我的想法是从joint distribution of a bivar

浏览 115提问于2019-09-25得票数 3

回答已采纳

3回答

生成r中的大量样本

、

我有一个50行4列的数据框架。我想得到很多12行的样本数据帧，可能是其中的一百万，我不希望我的两个样本数据帧是相同的。a <- df[sample(nrow(df),12,replace=T),] rownames(df_l[[i]]) <- 1:12 但我的困惑是，这可能不是有效的方法，我也不知道两个样本数据帧是否相同。

浏览 19提问于2020-05-15得票数 1

回答已采纳

3回答

如何提取R中的样本

如何在时间点1只提取“Trt”的随机数(CD)。

浏览 3提问于2014-04-04得票数 1

回答已采纳

2回答

如何平衡数据集而不过度采样

、、

我试图平衡我的数据集，但我正在努力寻找正确的方法来做它。让我来解决这个问题。我想要做的是获得一个平衡的数据集，其中每个类都用相同的权重表示。：在这里，他们建议使用带有平衡类权重向量的不平衡数据集，但是，我需要这个平衡数据集，而不是哪种模型和权重的</

浏览 0提问于2018-11-28得票数 1

3回答

什么时候有足够的数据来泛化？

、、、

有什么一般的规则，可以用来推断什么是可以从特定的数据集中学习/概括的？假设数据集是从一个人的样本中提取的。这些规则是否可以作为样本或总人口的函数来表述？我理解上面的内容可能是模糊的，所以有一个案例:用户参与一个搜索任务，其中数据是他们的查询、点击的结果和那些结果的HTML内容(仅文本)。它们中

浏览 0提问于2014-08-04得票数 4

回答已采纳

1回答

从Python中的填充中生成具有指定属性的随机示例

、、

Germany': 0.4, 'France': 0.25, 'Greece': 0.15, 'Poland': 0.1, 'Norway': 0.05, 'Others': 0.05}sample = {'G

浏览 4提问于2022-01-22得票数 0

回答已采纳

1回答

利用SMOTE进行合成数据生成提高不平衡数据的性能

、、、、

目前，我正在使用SMOTE (合成少数群体过采样技术)来生成合成数据，但对于应该生成多大比例的合成样本以确保机器学习/深度学习模型的良好分类性能，我感到困惑。然而，我认为，主要的缺点是，在我的总体数据集(original+new)中，少数群体样本的百分比将大致保持不变，我认为这违背了过度抽样少数群体样本的目的。2.第二种选择是产生21392个新的

浏览 0提问于2019-03-13得票数 1

回答已采纳

4回答

更多样本背后的直觉是什么更适合统计？

、、、

众所周知，当我们进行统计时，我们实际上需要大量的样本.因为我在学数学之前就被教导了这个事实，所以我在这里一直没有探究原因。更多样本背后的直觉是什么更适合统计？

浏览 0提问于2019-10-03得票数 2

2回答

如何在SMOTE中找到最近的邻居

、、

我正在阅读Chawla和其他人的原稿。我正试图了解如何产生这些合成的例子，以过度抽样的少数群体。报纸上说： “合成样本的生成方法如下:取所考虑的特征向量(样本)与其最近的邻居之间的差值，乘以0到1之间的随机数，再将其添加到所考虑的特征向量中。这将导致在两个特定特征之间沿线段选择随机点。”我明白这个想法，拿你的<

浏览 0提问于2016-07-20得票数 1

回答已采纳

1回答

R‘密度’函数如何使用指定的权重？

、、

如果指定了权重，R中的density函数是如何合并权重的(假设权重之和为1，这就是函数想要的)？我是说，从数学上讲，它是如何工作的？我知道如何查看函数的底层R代码，但不知道当它只返回如下泛型方法时：function (x, ...)UseMethod("density") <bytecode: 0x00000000079ee72

浏览 4提问于2016-01-26得票数 1

回答已采纳

1回答

使用Python仅从PDF中提取特定文本

、、、

需要使用python从具有不同PDF结构的发票PDF文件中提取特定的文本，并将输出数据存储到特定的excel列中。所有PDF文件都有不同的结构，但内容值相同。试图解决这个问题，但不能只提取特定的文本值。imp

浏览 8提问于2020-10-04得票数 1

回答已采纳

2回答

让matlab以给定的概率接受状态更改

、、

我已经计算了接受的概率，并且我有两个状态(每个3个数字的列向量)。我想告诉matlab以概率Pa接受从S到S‘的变化。编辑:这是我到目前为止所做的。有一个包含所有35个可能状态(池)的矩阵。S‘在这里是Sn。我可能想多了，但我不知道如何改变它。

浏览 2提问于2012-11-03得票数 1

回答已采纳

1回答

重复随机抽样(子总体)

、

我想对样本大小为90的样本进行400次重复随机抽样(即400种不同的抽样结果)。然而，问题变得复杂起来，因为1800 (n_pop)的总群体由3个不同的子群体(300,500,1000)组成，每个子群体在(std_list)和(mean_list)中围绕各自的标准差和平均值呈正态分布此外，每个子总体在样本大小中的比例必须与总总体(n_pop)<e

浏览 4提问于2018-09-20得票数 0

3回答

如何生成具有精确矩的样本数据

、

如何生成准确的数据？这是一个简单的例子。我还感兴趣的是采用更一般的方法获取精确数据(例如，精确相关性为0.2的多元数据)。

浏览 2提问于2013-04-20得票数 3

1回答

从VCF文件中提取样本数据

、、

我有一个很大的Variant Call format (VCF)文件(> 4 4GB)，其中有几个样本的数据。我浏览了谷歌，Stackoverflow，以及尝试了R中的VariantAnnotation包，以某种方式仅提取特定样本的数据，但没有找到任何关于如何在R中执行此操作的信息。有没有人尝试过这样的东西，或者可能知道有

浏览 7提问于2014-02-06得票数 13

回答已采纳

1回答

如何从N(1,3)均值=1且R中sd =3的总体/矩阵中提取样本大小x

如何从N(1,3)均值=1且R中sd =3的总体/矩阵中提取样本大小x我可以使用滤波器或样本函数吗？

浏览 0提问于2019-02-11得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何从R中的特定群体中提取大量样本？

相关·内容

如何从R中的特定群体中提取大量样本？

Kolmogorov-Smirnov试验的实测值

包括R中性别在内的多元分布的抽样

ANOVA使用样本均值作为R中的截距

在Python中生成具有指定边缘的copula相关样本

生成r中的大量样本

如何提取R中的样本

如何平衡数据集而不过度采样

什么时候有足够的数据来泛化？

从Python中的填充中生成具有指定属性的随机示例

利用SMOTE进行合成数据生成提高不平衡数据的性能

更多样本背后的直觉是什么更适合统计？

如何在SMOTE中找到最近的邻居

R‘密度’函数如何使用指定的权重？

使用Python仅从PDF中提取特定文本

让matlab以给定的概率接受状态更改

重复随机抽样(子总体)

如何生成具有精确矩的样本数据

从VCF文件中提取样本数据

如何从N(1,3)均值=1且R中sd =3的总体/矩阵中提取样本大小x

扫码

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐