开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

如何在R中有条件的组内随机抽样

在R中，可以使用dplyr包中的group_by()和sample_n()函数来实现有条件的组内随机抽样。

首先，确保已安装并加载了dplyr包：

install.packages("dplyr")
library(dplyr)

假设我们有一个数据框df，其中包含了一个分组变量group和其他变量。我们想要在每个组内进行随机抽样，可以按照以下步骤进行操作：

使用group_by()函数按照分组变量对数据框进行分组：

df_grouped <- df %>% group_by(group)

使用sample_n()函数在每个组内进行随机抽样。该函数的第一个参数是要抽样的数据框，第二个参数是每个组要抽取的观测数量：

df_sampled <- df_grouped %>% sample_n(size)

其中，size是一个整数，表示每个组要抽取的观测数量。你可以根据需要自行指定。

以下是一个完整的示例：

# 创建示例数据框
df <- data.frame(
  group = c("A", "A", "A", "B", "B", "B", "C", "C", "C"),
  value = 1:9
)

# 按照分组变量进行分组
df_grouped <- df %>% group_by(group)

# 在每个组内进行随机抽样
df_sampled <- df_grouped %>% sample_n(2)

在上述示例中，我们将数据框df按照group变量进行分组，并在每个组内随机抽取了2个观测。你可以根据实际需求调整抽样数量。

请注意，以上答案中没有提及任何特定的云计算品牌商。如果需要了解腾讯云相关产品和产品介绍链接地址，建议访问腾讯云官方网站或咨询腾讯云官方客服。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化

综合社会调查（GSS）是由国家舆论研究中心开展的一项观察性研究。自 1972 年以来，GSS 一直通过收集当代社会的数据来监测社会学和态度趋势。其目的是解释态度、行为和属性的趋势和常量。从 1972 年到 2004 年，GSS 的目标人群是居住在家庭中的成年人（18 岁以上）。

00

抽样调查怎么做？

（本文框架） 01 输为什么要用抽样样本我们经常需要调查某一批对象的某一项情况，如果所调查对象的体量比较少时，我们可以采取去量调查统计的形式，但是如果被调查统计对象体量较大时，很显然全量统计就有点不

07

入门干货：从《权力的游戏》战斗场景中搞懂数据抽样和过滤

导读：直观来看，处理大数据的一个方法就是减少要处理的数据量，从而使处理的数据量能够达到当前的处理能力能够处理的程度。可以使用的方法主要包括抽样和过滤。两者的区别是，抽样主要依赖随机化技术，从数据中随机选出一部分样本，而过滤依据限制条件仅选择符合要求的数据参与下一步骤的计算。

01

学界 | 用生成对抗网络解决NLP问题：谷歌大脑提出MaskGAN

选自arXiv 作者：William Fedus等机器之心编译参与：Jane W、李泽南生成对抗网络（GAN）自推出以来，在计算机视觉领域中引起了一股风潮，在自然语言处理中却鲜有研究。看来，这或许需要 GAN 的提出者 Ian Goodfellow 自己来推动。谷歌大脑 William Fedus、Ian Goodfellow 和 Andrew M. Dai 共同提交的论文中，研究人员使用 GAN 和强化学习方法在 NLP 中做了自己的探索。目前，该论文已提交至 ICLR 2018 大会。前言循

06

【LLM系列之GLM】GLM: General Language Model Pretraining with Autoregressive Blank Infilling

目前，已经有各种类型的预训练架构，包括自编码模型（例如BERT），自回归模型（例如GPT）和编码器-解码器模型（例如T5）。然而，没有一个预训练框架对三个主要类别的所有任务（自然语言理解（NLU），无条件生成和有条件生成）都表现最佳。本文主要贡献：

05

周志华《机器学习》第2章部分笔记

①误差(error)：学习器的预测输出与样本的真实输出之间的差异 ②训练误差(training error)或经验误差(empirical error)：在训练集上的误差 ③测试误差(test error)：在测试集上的误差 ④泛化误差(generalization error)：学习器在所有新样本上的误差 ⑤过拟合(overfitting)：学习能力过于强大，把训练样本自身的一些特点当成所有潜在样本都会有的一般性质，导致泛化能力下降 ⑥欠拟合(underfitting)：学习能力太差，对训练样本的一般性质尚未学好在过拟合问题中，训练误差很小，但测试误差很大；在欠拟合问题中，训练误差和测试误差都比较大。目前，欠拟合问题容易克服，如在决策树中扩展分支，在神经网络中增加训练轮数；但过拟合问题是机器学习面临的关键障碍。 ⑦模型选择：在理想状态下，选择泛化误差最小的学习器。

03

数学模型的评估方法

最近在学习机器学习的一些相关的算法，在学习过程中新接触到了大量的概念和原理。为了更好地提高学习的效果，于是就把在学习的过程中接触到的新概念和遇到的问题通通写进我的博客，作为学习笔记，以提供给自己和其他朋友进行查阅和参考。

00

RNN循环神经网络、LSTM长短期记忆网络实现时间序列长期利率预测

2017 年年中，R 推出了 Keras 包 _，_这是一个在 Tensorflow 之上运行的综合库，具有 CPU 和 GPU 功能。本文将演示如何在 R 中使用 LSTM 实现时间序列预测。

03

RNN循环神经网络、LSTM长短期记忆网络实现时间序列长期利率预测

本文约1700字，建议阅读5分钟本文将演示如何在 R 中使用 LSTM 实现时间序列预测。全文链接：http://tecdat.cn/?p=25133 2017 年年中，R 推出了 Keras 包

01

统计简单学_基本概念

分为群体参数，样本参数 1. 群体参数：μ\mu，σ\sigma，PP 2. 样本参数：X¯\bar{X}，SS，P̂ \hat{P}

01

RNN循环神经网络、LSTM长短期记忆网络实现时间序列长期利率预测|附代码数据

2017 年年中，R 推出了 Keras 包 _，_这是一个在 Tensorflow 之上运行的综合库，具有 CPU 和 GPU 功能

00

Hive实现数据抽样的三种方法

在大规模数据量的数据分析及建模任务中，往往针对全量数据进行挖掘分析时会十分耗时和占用集群资源，因此一般情况下只需要抽取一小部分数据进行分析及建模操作。Hive提供了数据取样（SAMPLING）的功能，能够根据一定的规则进行数据抽样，目前支持数据块抽样，分桶抽样和随机抽样，具体如下所示：

01

python数据分析——在数据分析中有关概率论的知识

参数和统计量在数据分析中起着至关重要的作用。参数是对总体特征的描述，如均值、方差等，而统计量则是基于样本数据计算得出的，用于估计或推断总体参数的值。

01

公共选择学派 | 理性选民的神话（3）

本次介绍的是卡普兰教授所著《理性选民的神话》一书中的第三章主要思想。第三章标题为：来自美国公众与经济学家经济调查的证据。

03

ABTest中的统计学 - 基础篇

一、ABTest与统计学 ABTest的目的是为了快速验证一个版本是不是比另外一个版本要好。为了简化问题，我们假设要验证的app是手机QQ浏览器，同时假设衡量版本好坏的指标只有1个：用户日均使用时长。现在我们我们有手机QQ浏览器A版本和手机QQ浏览器B版本。我们怎么知道验证谁的用户日均使用时长更长呢？最容易想到的方法是：先让全部用户都使用A版本，统计用户日均使用时长；再让全部用户使用B版本，统计用户日均使用时长。这样得出的数据结果当然非常精确。但一来成本有点高，二来两个版本并不是同时间发布，有可能因

02

数据抽样技术全面概述

抽样是研究和数据收集中不可或缺的方法，能够从更大数据中获得有意义的见解并做出明智的决定的子集。不同的研究领域采用了不同的抽样技术，每种技术都有其独特的优点和局限性。本文将深入探讨了最常见的抽样技术，包括随机抽样、分层抽样、系统抽样、聚类抽样和便利抽样，并重点介绍了它们的应用和注意事项。

04

我们分析了最流行的歌词，教你用 RNN 写词编曲（附代码）

翻译 | 余若男李振吴章勇整理 | 凡江此文展示了基于 RNN 的生成模型在歌词和钢琴音乐上的应用。介绍在这篇博文中，我们将在歌词数据集上训练 RNN 字符级语言模型，数据集来自最受欢迎以及最新发布的艺术家的作品。模型训练好之后，我们会选出几首歌曲，这些歌曲将会是不同风格的不同艺术家的有趣混合。之后，我们将更新模型使之成为一个条件字符级 RNN，使我们能够从艺术家的歌曲中采样。最后，我们通过对钢琴曲的 midi 数据集的训练来总结。在解决这些任务的同时，我们将简要地探讨一些有关

04

我们用 RNN 分析了最流行的音乐，只想为你写首歌

RNN（Recurrent Neural Networks,循环神经网络）不仅会学习当前时刻的信息，也会依赖之前的序列，这种独特的优势非常适合用于处理时间序列和语言文本序列问题。本文数据侠就利用RNN的生成模型对最受欢迎的音乐家作品进行了训练。当艺术遇到神经网络，会擦出怎样的火花呢？一起来涨姿势吧~

00

用Python来抽奖？真挺简单的！

如果用Python来抽取的话，一般会用到标准库中的random模块，该模块实现了各种分布的伪随机数生成器，以及和随机数相关的各种实用函数。

02

指标存储: 我们如何从Graphite + Whisper迁移到Graphite + ClickHouse

之前在文章监控即服务:用于微服务架构的模块化系统我写了关于微服务架构的模块化监控系统的组织。没有什么是静止的，我们的项目在不断增长，存储的指标列表也在增长。在这篇文章中，我将告诉您我们如何组织在高工作负载下的Graphite + Whisper到Graphite + ClickHouse的迁移，关于期望和迁移项目的结果。

02

数据分析 | 数据分析必知必会：一文搞懂统计学常考定律！

http://www.woshipm.com/data-analysis/917862.html

02

概率抽样方法简介

本文介绍了抽样方法在数据科学领域的应用，包括简单随机抽样、分层抽样、整群抽样、多级抽样和特殊采样方法。这些抽样方法旨在从庞大的数据集中抽取有代表性的样本，以便进行数据分析和建模。每种抽样方法都有各自的优缺点和适用场景，需要根据数据的特点和问题需求来选择合适的抽样方法。同时，针对类不平衡问题，还可以采用过采样和欠采样方法进行处理，以增加少数类的样本数量，提高模型的性能。

00

IBM | 增强配体与靶标契合的小分子图生成模型

今天给大家介绍的是IBM研究团队发表在arxiv上的一项有关分子生成的研究。作者提出一种可以编码3D蛋白质-配体接触的图生成模型，该模型利用条件VAE从而可以预测在靶标结合口袋内的分子相互作用，从而实现特定活性的分子生成。实验结果表明，与基于配体2D生成方法相比，该方法生成的分子与多巴胺D2受体的结合口袋更契合。该研究展现了蛋白靶标的结构信息如何增强分子生成。

03

机器学习笔记——数据集分割

在模型训练之前，要首先划分训练集与测试集，如何对原始数据集进行训练集与测试集的划分？训练集与测试集的比例各占多少？如何保证各自内部标签分布平衡都会影响模型训练的最终效果。

03

计算与推断思维八、随机性

在前面的章节中，我们开发了深入描述数据所需的技能。数据科学家也必须能够理解随机性。例如，他们必须能够随机将个体分配到实验组和对照组，然后试图说明，观察到的两组结果之间的差异是否仅仅是由于随机分配，或真正由于实验所致。

03

分层抽样不按比例如何加权_按比例分层抽样和定额抽样的区别？

从宏观上，两者的目的都是为了提供更好的样本代表性，并且两者的理论基础都来自于：总体的个体的同质性越高，抽样误差越小，样本的代表性越好。

02

【综述专栏】扩散模型最新有何进展？普林斯顿伯克利最新「扩散模型」综述：应用、引导生成、统计率和优化！

在科学研究中，从方法论上来讲，都应“先见森林，再见树木”。当前，人工智能学术研究方兴未艾，技术迅猛发展，可谓万木争荣，日新月异。对于AI从业者来说，在广袤的知识森林中，系统梳理脉络，才能更好地把握趋势。为此，我们精选国内外优秀的综述文章，开辟“综述专栏”，敬请关注。

01

excel数据分析库系列|抽样设计

今天开始跟大家分享excel数据分析库系列——抽样设计！作为微软excel中一直以来隐藏的最深最上档次的功能组件，excel数据分析工具库需要用户手动调用并开启（还未开启的请参考小魔方历史文章），工

07

「R」分析之前的数据准备

paste函数可以将多个字符型向量连接成一个向量，默认向量的值是用空格分隔的，我们可以通过sep参数指定分隔符号，而collapse参数可以用来指定这些值之间的连接符号。

03

不均衡数据怎么破？对付它的七种武器！

先问大家一个问题：银行欺诈识别、市场实时交易、网络入侵检测等领域的数据集，有哪些共通点？答案是：“关键”事件在数据中的占比经常少于1%（例如：信用卡行骗者、点击广告的用户或被攻破的服务器的网络扫描

07

概率论大作业3——中心极限定理matlab验证及检验（前置知识）

一些相关知识： 1、什么是中心极限定理（Central Limit Theorem）中心极限定理指的是给定一个任意分布的总体。我每次从这些总体中随机抽取 n 个抽样，一共抽 m 次。然后把这 m 组抽样分别求出平均值。这些平均值的分布接近正态分布。 2、matlab求均值 Matlab函数：mean X=[1,2,3] mean(X)=2 3、matlab求方差 Matlab 函数：var X=[1,2,3,4] var(X)=1.6667 4、生成[-1,1]的均匀分布随机数 unifrnd (-1,1,1,n) 注：第三个1表示行，n表示列 5、随机抽样 x（1000）为一数组 b=x(randperm(100));%抽样100组 6、正态分布 [muhat,sigmahat,muci,sigmaci]=normfit(b,0.05); 7、条件检验 [h,s] = kstest(b, [b,F], alpha); 注意：b,F必须为两列，故b需要转置即b=b‘ 返回h=0表示接受假设，h=1表示拒绝假设更多检验函数可以参考假设检验

04

python实现的分层随机抽样案例

昨天写了一段用来做分层随机抽样的代码，很粗糙，不过用公司的2万名导购名单试了一下，结果感人，我觉得此刻的我已经要上天了，哈哈哈哈哈哈

02

编程之路_R

list.files(getwd(),pattern ="*.[R|v]$") ###可以匹配正则表达式

05

用Python写算法 | 蓄水池算法实现随机抽样

现在有一组数，不知道这组数的总量有多少，请描述一种算法能够在这组数据中随机抽取k个数，使得每个数被取出来的概率相等。

01

干货分享--统计学知识大梳理（第三部分-最终篇）

现实生活中，总体的数量如果过于庞大我们无法获取总体中每个数据的数值，进行对总体的特征提取进而完成分析工作。那么接下来就用到了本章节的知识。

03

评分卡模型开发-数据集准备

本文通过介绍一种信用风险评级模型的开发过程，包括数据准备、特征选择、模型训练和模型验证等步骤。在数据准备阶段，需要清洗和处理原始数据，使其适用于模型训练。在特征选择阶段，需要确定哪些特征对信用风险的影响最大，并将其纳入模型。在模型训练阶段，需要选择合适的模型和参数，并进行训练。在模型验证阶段，需要使用测试集对模型进行验证，并计算模型的区分能力。最后，通过五折交叉验证的方法，选出稳定性和区分能力最优的模型，作为最终的信用风险评级模型。

09

小明的 SQL 问题解决日志（1）

本系列仅为小明在写SQL过程中，由浅入深遇到的一些问题、以及最后解决方案。我知道这其中有些问题，高手在12岁的时候就已经知道答案了，小明可能比你们慢了一点。本文解决的问题： 1、有条件计数 2、去重后左连接 3、自关联，每对只取一条 ---- 文本演示code，默认用 SAS SQL 来演示，因为大家可能对 SAS 还是比较熟悉一些，但有些语句 SAS SQL 不支持的，改用其他。 1、有条件计数以 SAS 中 sashelp 自带的 Cars 数据为例。【问题：想计算每个 Make 下面，engi

05

干货收藏！Python完整代码带你一文看懂抽样

导读：抽样是从整体样本中通过一定的方法选择一部分样本。抽样是数据处理的基本步骤之一，也是科学实验、质量检验、社会调查普遍采用的一种经济有效的工作和研究方法。

02

机器测试题（下）

人工智能一直助力着科技发展，新兴的机器学习正推动着各领域的进步。如今，机器学习的方法已经无处不在—从手机上的语音助手到商业网站的推荐系统，机器学习正以不容忽视的速度闯入我们的生活。以下测试题可以粗略的检测你对机器学习的了解和掌握程度。本文接上篇《机器学习测试题(上)》，有对机器学习有兴趣的小伙伴可自行测试。 21.在一个包含5000个特征及超过一百万个观测值的数据集上建立一个机器学习的模型，下面哪种方法能更高效地训练模型？ A.从数据集中随机抽取样本来建立模型 B.使用在线学习算法 C.使用主成分分

06

ISME-人类微生物多样性与疾病的关系

之前文章拓展种-面积关系(SAR)为多样性-面积关系(DAR)介绍了马老师将TAR扩展为DAR的工作。3.20号ISME online了又一新作，本文章研究人类微生物相关疾病中微生物多样性与疾病之间的关系。

03

超级干货！统计学知识大梳理

道德经云：”道生一，一生二，二生三，三生万物“。学习知识亦是如此，一个概念衍生出两个概念，两个概念演化出更小的子概念，接着衍生出整个知识体系。

03

统计01：概述

作者：Vamei 出处：http://www.cnblogs.com/vamei 严禁转载。

02

Appboy基于MongoDB的数据密集型实践

【编者按】本文摘录自Appboy联合创始人兼CIO Jon Hyman在MongoDB World 2015上的演讲。Appboy正在过手机等新兴渠道尝试一种新的方法，让机构可以与顾客建立更好的关系，可以说是市场自动化产业的一个前沿探索者。在移动端探索上，该公司已经取得了一定的成功，知名产品有iHeartMedia、PicsArt、Etsy、Samsung、Urban Outfitters等。本文主要包括Statistical Analysis、Multivariate Testing and Rate L

07

数据竞赛之常见数据抽样方式

该抽样方法是按等概率原则直接从总中抽取n个样本，这种随机样本方法简单，易于操作；但是它并不能保证样本能完美的代表总体，这种抽样的基本前提是所有样本个体都是等概率分布，但真实情况却是很多数样本都不是或无法判断是否等概率分布。在简单随机抽样中，得到的结果是不重复的样本集，还可以使用有放回的简单随机抽样，这样得到的样本集中会存在重复数据。该方法适用于个体分布均匀的场景。

02

统计01：概述

作者：Vamei 出处：http://www.cnblogs.com/vamei 严禁转载。

02

数据挖掘

---- 概述最近一直在学习数据挖掘和机器学习，无论是是服务端开发人员还是web开发人员，个人觉得最起码都要都一些最基本的数据挖掘和机器学习知识。废话少说，我们先来学习一下数据挖掘的是什么意思？个人的理解是从业务数据中挖掘出隐含的、未知的、对决策有潜在价值的关系、模式和趋势。也就是说我们从数据中挖掘到符合我们所需的目标。数据挖掘的分解目标定义-》数据采样-》数据整理-》模型评价-》模型发布。所谓目标定义即定义我们到底需要做什么，目标的定义往往来源于需求，这里不去具体的阐述。为了确保数据完整、各项属

05

如何通过Python实现蒙特卡罗模拟算法

蒙特卡罗（Monte Carlo）方法，又称随机抽样或统计试验方法，是通过使用随机数（或更常见的伪随机数）来解决很多计算问题的方法，将所求解的问题同一定的概率模型相联系，用计算机实现统计模拟或抽样，以获得问题的近似解。

02

独家 | 一文读懂随机森林的解释和实现（附python代码）

本文从单棵决策树讲起，然后逐步解释了随机森林的工作原理，并使用sklearn中的随机森林对某个真实数据集进行预测。

03

R In Action |基本数据管理

学习R会慢慢的发现，数据的前期准备通常会花费很多的时间，从最基础的开始学，后面逐渐使用更便利的工具（R包）解决实际的问题。

01

DID | 安慰剂检验

简单介绍一下实证论文中双重差分法（DID）的安慰剂检验（Placebo Test）在Stata中如何操作。

03

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭