开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

从数据框/R中的tibble中采样分组的行

从数据框/R中的tibble中采样分组的行，可以使用dplyr包中的sample_n函数来实现。sample_n函数可以从数据框中随机抽取指定数量的行。

下面是一个完善且全面的答案：

在R语言中，可以使用dplyr包来对数据框进行操作。如果我们想要从数据框中的每个分组中随机抽取一定数量的行，可以使用dplyr包中的sample_n函数。

sample_n函数的语法如下： sample_n(data, size, replace = FALSE, weight = NULL, ...)

参数说明：

data：要进行抽样的数据框或tibble。
size：每个分组中要抽取的行数。
replace：是否允许重复抽样，默认为FALSE，即不允许重复抽样。
weight：可选参数，用于指定每个观测值的权重。
...：其他参数。

使用示例：假设我们有一个数据框df，其中包含了不同组别的数据。我们想要从每个组别中随机抽取2行数据。

library(dplyr)

# 创建一个示例数据框
df <- tibble(
  group = c("A", "A", "B", "B", "C", "C"),
  value = c(1, 2, 3, 4, 5, 6)
)

# 从每个组别中随机抽取2行数据
sampled_df <- df %>% 
  group_by(group) %>% 
  sample_n(2)

# 打印抽样结果
print(sampled_df)

输出结果：

# A tibble: 6 x 2
# Groups:   group [3]
  group value
  <chr> <dbl>
1 A         1
2 A         2
3 B         3
4 B         4
5 C         5
6 C         6

在这个示例中，我们首先使用group_by函数按照group列进行分组。然后，使用sample_n函数从每个组别中随机抽取2行数据。最后，我们得到了一个包含抽样结果的新数据框sampled_df。

推荐的腾讯云相关产品和产品介绍链接地址：

腾讯云服务器（CVM）：https://cloud.tencent.com/product/cvm
腾讯云数据库（TencentDB）：https://cloud.tencent.com/product/cdb
腾讯云对象存储（COS）：https://cloud.tencent.com/product/cos
腾讯云人工智能（AI）：https://cloud.tencent.com/product/ai
腾讯云物联网（IoT）：https://cloud.tencent.com/product/iotexplorer
腾讯云区块链（Blockchain）：https://cloud.tencent.com/product/baas
腾讯云元宇宙（Metaverse）：https://cloud.tencent.com/product/metaverse

请注意，以上链接仅供参考，具体的产品选择应根据实际需求进行评估和决策。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

SQL 找出分组中具有极值的行

这些需求有两个共同点：一是需要做分组，有按部门分组、有按科目、也有按用户分组；二是在分组里面找到存在极值的行，是整行数据，而不只是极值。...子查询如果你的数据库还不支持窗口函数，那可以先对 emp 分组，取出每个部门中的最高薪资，再和原表做一次关联就能获取到正确的结果。...b.sal WHERE b.sal IS NULL ORDER BY a.deptno 我们知道，在SELECT * FROM a left join b on 关联条件语句中，不论在 b 表中是否有数据行可以和...在关联条件 b.deptno = a.deptno AND a.sal < b.sal 中，只要 a.sal 不是分组内的最大值，总能在 b 表中找到比它大的数据。...当 a.sal 是分组的内的最大值时，a.sal < b.sal 的条件不成立，关联出来的结果中 b 表的数据为 NULL。

1.7K3 0

【R语言】因子在临床分组中的应用

前面给大家简单介绍了 ☞【R语言】R中的因子（factor）今天我们来结合具体的例子给大家讲解一下因子在临床分组中的应用。我们还是以TCGA数据中的CHOL（胆管癌）这套数据为例。...关于这套临床数据的下载可以参考 ☞如何从TCGA数据库下载RNAseq数据以及临床信息(一) 前面我们也给大家介绍过一些处理临床数据的小技巧 ☞【R语言】卡方检验和Fisher精确检验，复现临床paper...",header=T,sep="\t",quote="") #去除重复的行 index=!...*","stage I/II",stage) #转换成因子 stage=factor(stage) stage 可以得到下面这个两分组的因子方法二、直接使用factor函数 #删除组织病理学分期末尾的...参考资料： ☞【R语言】R中的因子（factor） ☞如何从TCGA数据库下载RNAseq数据以及临床信息(一) ☞【R语言】卡方检验和Fisher精确检验，复现临床paper ☞R生成临床信息统计表

3.2K2 1

【R语言】根据映射关系来替换数据框中的内容

前面给大家介绍过☞R中的替换函数gsub，还给大家举了一个临床样本分类的具体例子。今天我们接着来分享一下如何根据已有的映射关系来对数据框中的数据进行替换。...例如将数据框中的转录本ID转换成基因名字。我们直接结合这个具体的例子来进行分享。...接下来我们要做的就是将第四列中的注释信息，从转录本ID替换成相应的基因名字。我们给大家分享三种不同的方法。...=1) #读入CDs区域坐标文件 bed=read.table("5gene_CDs.bed",sep="\t") #从第四列提取转录本信息，这里用了正则表达式， #括号中匹配到的内容会存放在\\1中...参考资料： ☞R中的替换函数gsub ☞正则表达式 ☞使用R获取DNA的反向互补序列

3.8K1 0

pandas中数据框的reshape操作

数据框的长宽转换对于熟悉R语言的朋友而言，应该不会陌生。使用ggplot2画图时，最常用的数据处理就是长宽转换了。...在pandas中，也提供了数据框的长宽转换功能，有以下几种实现方式 1. stack stack函数的基本用法如下 >>> import pandas as pd >>> import numpy as...，将对应的值转换为新的数据框中的某一列，从而实现了数据框由宽到长的转换。...不同之处，在于转换后的列标签不是以index的形式出现，而是作为数据框中的variable列。...unstack类似，实现数据框由长到宽的转换。

4.5K1 0

对 list 中的相同数据进行分组

同一组数据分组需求：一个 list 里可能会有出现一个用户多条数据的情况。要把多条用户数据合并成一条。思路：将相同的数据中可以进行确认是相同的数据，拿来做分组的 key，这样保证不会重。...实际中使用，以用户数据为例，可能用户名和身份证号是不会变的，用这两个条件拼接起来。

5.6K3 0

分析R中的Elasticsearch数据

您可以在任何可以安装R和Java的计算机上使用纯R脚本和标准SQL访问Elasticsearch数据。...您可以使用适用于Elasticsearch的CData JDBC驱动程序和RJDBC软件包来处理R中的远程Elasticsearch数据。...通过使用CData驱动程序，您可以利用为经过行业验证的标准编写的驱动程序来访问流行的开源数据R语言。...本文使用Microsoft R Open 3.2.3，它预先配置为从CRAN存储库的2016年1月1日快照安装软件包。此快照确保了可重复性。...类路径：将其设置为驱动程序JAR的位置。默认情况下，这是安装文件夹的lib子文件夹。 DBI函数（例如 dbConnect 和dbSendQuery ）提供了用于在R中写入数据访问代码的统一接口。

2.7K3 0

掌握pandas中的时序数据分组运算

图1 2 在pandas中进行时间分组聚合在pandas中根据具体任务场景的不同，对时间序列进行分组聚合可通过以下两类方式实现： 2.1 利用resample()对时序数据进行分组聚合 resample...原始的意思是「重采样」，可分为「上采样」与「下采样」，而我们通常情况下使用的都是「下采样」，也就是从高频的数据中按照一定规则计算出更低频的数据，就像我们一开始说的对每日数据按月汇总那样。...如果你熟悉pandas中的groupby()分组运算，那么你就可以很快地理解resample()的使用方式，它本质上就是在对时间序列数据进行“分组”，最基础的参数为rule，用于设置按照何种方式进行重采样...，譬如我们以2日为单位，将closed设置为'right'时，从第一行记录开始计算所落入的时间窗口时，其对应为时间窗口的右边界，从而影响后续所有时间单元的划分方式： ( AAPL .set_index...date为index .resample('2D', closed='right') .agg({ 'close': 'mean' }) ) 图5 而即使你的数据框

3.3K1 0

从5亿行数据中，筛选出重复次数在1000行的数据行，也爆内存了

从5亿行数据中，筛选出重复次数在1000行的数据行，以前用这个，也爆内存了。...刚才的是去重，算是解决了。现在又有个新问题，下一篇文章我们一起来看看吧。三、总结大家好，我是皮皮。...这篇文章主要盘点了一个大数据去重的问题，文中针对该问题，给出了具体的解析和代码实现，帮助粉丝顺利解决了问题。

1533 0

R中的数据导入与导出

1、数据的导入导入文本文件使用read.table函数导入普通文本文件 read.table(file,header=FALSE,sep="",...)...read.csv("3.xxx", header=FALSE, sep=","); #指定分隔符 data3 <- read.csv("3.xxx", header=FALSE, sep="\t") 2、数据的导出

2.3K8 0

VBA实战技巧16：从用户窗体的文本框中复制数据

有时候，我们需要从用户窗体的文本框中复制数据，然后将其粘贴到其他地方。下面举例说明具体的操作方法。示例一：如下图1所示，在示例窗体中有一个文本框和一个命令按钮。...当用户窗体被激活时，文本框中自动显示文字“完美Excel”，单击“复制”按钮后，文本框中的数据会被复制到剪贴板。 ? 图1：带有文本框和命令按钮的用户窗体首先，按图1设计好用户窗体界面。...CommandButton1_Click() With myClipboard .SetText Me.TextBox1.Text .PutInClipboard End WithEnd Sub 在图1所示的用户窗体中添加一个文本框...，上述代码后面添加一句代码： Me.TextBox2.Paste 运行后的结果如下图2所示。...图2 示例二：如下图3所示，在用户窗体中有多个文本框，要求单击按钮后将有数据的文本框中的数据全部复制到剪贴板。 ? 图3：带有6个文本框和1个命令按钮的用户窗体首先，按图3设计好用户窗体界面。

3.7K4 0

「R」R检验中的“数据是恆量”问题

之前我学习和自己分析时就遇到过，尝试使用判断的方式事先检查它是不是数据存在问题（这类数据明显不服从正态分布），可以使用正态性检验，或者直接判断是不是样本组内的数据是完全一样的，如果一样就不要这个了。...以下是我的回答：数据是恒量是无法做t检验的，因为计算公式分母为0（不懂的看下统计量t的计算公式，一般标准差/标准误为分母，所以恒量是不能算的）。...因为你要用t检验，我给你一个处理思路，先不分组别，按基因名检查所有样本的基因表达值（循环）是否一样，如果一样就丢掉，如果不一样，则按组别判断样本（每组3个）基因表达是否一样，如果不一样进行t检验寻找一批差异基因...，如果出问题，返回相应的NA，这样我们可以算完后再检查数据。...9508518/why-are-these-numbers-not-equal https://stackoverflow.com/questions/23093095/t-test-failed-in-r

4.5K1 0

数据中台建设从数据中台的认知开始

数据中台的概念由来已久，从技术产品构成上来讲，比如数仓、大数据中间件等产品组件相对完备。但是我们认为依然不能把数据中台建设作为一个技术平台的项目来实施。...金融机构在数字化转型的进程中建立数据中台，必须从战略的高度、组织的保障及认知的更高层面来做规划。...我们知道石油提纯有一系列的标准体系，那么数据资产化也同样需要建立完备的数据资产体系。金融机构数据资产体系建设必须围绕业务价值，从推动业务数据向数据资产转化的角度来构建。...应用层：按照金融企业特定的业务场景，从标签层、主题层抽取数据，面向业务进行加工特定的数据，以为业务提供端到端的数据服务。...当然，有些特定的业务场景需要兼顾性能需求、紧急事物需求，也可能直接从贴源层抓取数据直接服务于特定的业务场景。真正做到在对业务端到端数据服务同时，兼顾数据中台的灵活性、可用性和稳定性。

1.6K4 0

R语言实现MCMC中的Metropolis–Hastings算法与吉布斯采样

从模型中导出似然函数为了估计贝叶斯分析中的参数，我们需要导出我们想要拟合的模型的似然函数。可能性是我们期望观察到的数据以我们所看到的模型的参数为条件发生的概率（密度）。...为什么我们使用对数您可能已经注意到我返回似然函数中概率的对数，这也是我对所有数据点的概率求和的原因（乘积的对数等于对数之和）。我们为什么要做这个？...该算法最常见的应用之一（如本例所示）是从贝叶斯统计中的后验密度中提取样本。然而，原则上，该算法可用于从任何可积函数中进行采样。...因此，该算法的目的是在参数空间中跳转，但是以某种方式使得在某一点上的概率与我们采样的函数成比例（这通常称为目标函数）。在我们的例子中，这是上面定义的后验。...那么，让我们在R中得到： ########Metropolis算法# ################ proposalfunction <- function(param){

1.4K3 0

R语言实现MCMC中的Metropolis–Hastings算法与吉布斯采样|附代码数据

从模型中导出似然函数为了估计贝叶斯分析中的参数，我们需要导出我们想要拟合的模型的似然函数。似然函数是我们期望观察到的数据以我们所看到的模型的参数为条件发生的概率（密度）。...为什么我们使用对数您注意到结果是似然函数中概率的对数，这也是我对所有数据点的概率求和的原因（乘积的对数等于对数之和）。我们为什么要做这个？...该算法最常见的应用之一（如本例所示）是从贝叶斯统计中的后验密度中提取样本。然而，原则上，该算法可用于从任何可积函数中进行采样。...因此，该算法的目的是在参数空间中跳转，但是以某种方式使得在某一点上的概率与我们采样的函数成比例（这通常称为目标函数）。在我们的例子中，这是上面定义的后验。...那么，让我们在R中得到： ########Metropolis算法# ################ proposalfunction <- function(param){ return

2571 0

R语言在数据科学中的应用

功能介绍大数据时代，我们需要一个强大的软件Runing!!!R语言出现了!!!这里是R语言最好的学习交流平台，包括R语言书籍，R语言课程，R语言程序包使用，教你获取数据，处理数据，做出决策！！...1 万亿元每款能成功面市的新药的平均研发时间是 12 年平均每款药物的研发成本约为 50 亿元实验室中筛选的化合物只有大约 1/1000 能够进入到人体试验阶段 ?...知识无极限 6、回复“啤酒”查看数据挖掘关联注明案例-啤酒喝尿布 7、回复“栋察”查看大数据栋察——大数据时代的历史机遇连载 8、回复“数据咖”查看数据咖——PPV课数据爱好者俱乐部省分会会长招募 9、...回复“每日一课”查看【每日一课】手机在线视频集锦 PPV课大数据ID: ppvke123 （长按可复制）大数据人才的摇篮！...专注大数据行业人才的培养。每日一课，大数据（EXCEL、SAS、SPSS、Hadoop、CDA）视频课程。大数据资讯，每日分享！数据咖—PPV课数据爱好者俱乐部！

1.5K5 0

从损坏的手机中获取数据

有时候，犯罪分子会故意损坏手机来破坏数据。比如粉碎、射击手机或是直接扔进水里，但取证专家仍然可以找到手机里的证据。如何获取损坏了的手机中的数据呢？ ?...对于制造商来说，他们使用这些金属抽头来测试电路板，但是在这些金属抽头上焊接电线，调查人员就可以从芯片中提取数据。这种方法被称为JTAG，主要用于联合任务行动组，也就是编码这种测试特性的协会。...要知道，在过去，专家们通常是将芯片轻轻地从板上拔下来并将它们放入芯片读取器中来实现数据获取的，但是金属引脚很细。一旦损坏它们，则获取数据就会变得非常困难甚至失败。 ?...图2：数字取证专家通常可以使用JTAG方法从损坏的手机中提取数据数据提取几年前，专家发现，与其将芯片直接从电路板上拉下来，不如像从导线上剥去绝缘层一样，将它们放在车床上，磨掉板的另一面，直到引脚暴露出来...比较结果表明，JTAG和Chip-off均提取了数据而没有对其进行更改，但是某些软件工具比其他工具更擅长理解数据，尤其是那些来自社交媒体应用程序中的数据。

10K1 0

「R」dplyr 行式计算

而如果你只应用到一个行式数据框，它计算每一行的均值。...，因此如果你想要将其从数据框中移除，调用 ungroup() 即可。...为了查看它是怎样工作的，我们从创建一个小的数据框开始： df <- tibble(id = 1:6, w = 10:15, x = 20:25, y = 30:35, z = 40:45) df #>...但如果你要考虑计算的速度，寻找能够完成任务的内置的行式汇总函数非常值得。它们的效率更高，因为它们不会将数据切分为行，然后计算统计量，最后再把结果拼起来，它们将整个数据框作为一个整体进行操作。...这不是你通常需要考虑的事情（它会工作），但知道什么时候出错是很有用的。分组数据框（每个组恰好有一行）和行数据框（每个组总是有一行）之间有一个重要的区别。

6.2K2 0

tidyverse：R语言中相当于python中pandas+matplotlib的存在

从文件中读取数据 purrr：(提供好用的编程函数 tibble：data.frame升级款 stringr：处理字符，查找、替换等 forcats：处理因子问题 ?...02 — tibble：高级数据框（data.frame升级版） ——数据（列）类型一目了然 tibble是R语言中一个用来替换data.frame类型的扩展的数据框，tibble继承了data.frame...，会自动添加列名 tibble，类型只能回收长度为1的输入 tibble，会懒加载参数，并按顺序运行 tibble，是tbl_df类型 tibble是data.frame的进化版，有如下优点：生成的数据框数据每列可以保持原来的数据格式...；查看数据时，不再会一行显示不下（会自动隐藏一部分，自带head）；有两种方式来创建tibble格式的数据： 1....#key：将原数据框中的所有列赋给一个新变量key #value：将原数据框中的所有值赋给一个新变量value #…：可以指定哪些列聚到同一列中 #na.rm：是否删除缺失值 widedata <-

3.9K1 0

R语言之 dplyr 包

1.使用 filter( ) 和 slice( ) 筛选行函数 filter() 可以基于观测值筛选数据框的一个子集。第一个参数是数据框名，第二个参数以及随后的参数是用来筛选数据框的表达式。...下面的命令将数据框按照变量 bwt 的值从小到大进行排序后显示： arrange(birthwt, bwt) # 默认升序在上面的输出中，第 6 行和第 7 行的变量 bwt 的值都是 1588，在这种情况下如果还想将数据框按照第二个变量排序...arrange(birthwt, bwt, age) 如果想把数据框按照某个变量的值从大到小进行排序，可以借助函数 desc( ) 实现。...相对于传统的数据框，tibble 在很多方面具有优势，感兴趣的读者可以参阅函数 tibble( ) 的帮助文档。...我们可以用函数 as_tibble( ) 将传统的数据框转换为 tibble，也可以用函数 as.data.frame( ) 将 tibble 转换成传统的数据框。

3982 0

从Excel角度理解Power Pivot中的行上下文

Excel中的绝对引用和相对引用。我们知道Excel中有绝对引用和相对引用。用$表示绝对引用。例如 ? 这样的代表是相对引用。 ?...如果[列1]代表整列，那C2是个单元格，怎么返回整列的数据呢？那我们就要看数组在Excel中的返回结果了。我们可以通过F9来查看[列1]代表什么值。 ? 实际上[列1]返回的是单列多行的数组。...知识点： ,代表的是多列， ;代表的是多行。例：{1,2,3;4,5,6}代表的就是3列2行的矩阵表。 ? ?...那我们看下C1的数据是{1;2;3;4;5}，是一个数组，但是单元格就是一个，所以显示出来的值也就是根据位置来显示，数据显示的第1行也就是1。最后我们来看下E2。...了解了其基本原理，对于我们以后的实际操作中也会起到非常重要的作用。如果觉得有帮助，那麻烦您进行转发，让更多的人能够提高自身的工作效率。

1K2 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭