开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

在data.table中查找按2个因子分组的两个变量的变化

Requests to the ChatCompletions_Create Operation under Azure OpenAI API version 2024-02-15-preview have exceeded token rate limit of your current OpenAI S0 pricing tier. Please retry after 7 seconds. Please go here: https://aka.ms/oai/quotaincrease if you would like to further increase the default rate limit.

相关搜索:data.table -在R中过滤按ID分组的行 R中的嵌套和按变量分组两个以上序数变量中的排序因子删除刻面分组变量中没有数据的因子因子的伪数(在data.table中)在data.table中删除未使用的因子级别在data.table中应用按列分组的函数在data.table中按"n“个连续整数对变量进行分组在data.table中查找多个范围的重叠在ggplot2中按两个变量分组

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

【R语言】因子在临床分组中的应用

前面给大家简单介绍了 ☞【R语言】R中的因子（factor）今天我们来结合具体的例子给大家讲解一下因子在临床分组中的应用。我们还是以TCGA数据中的CHOL（胆管癌）这套数据为例。...stage I，stage II，stage III和stage IV四个分期接下来我们试着把组织病理分期从四个组合并成两个组，并转换成因子方法一、使用gsub函数前面也给大家介绍过☞R替换函数...*","stage I/II",stage) #转换成因子 stage=factor(stage) stage 可以得到下面这个两分组的因子方法二、直接使用factor函数 #删除组织病理学分期末尾的...*","stage III/IV",stage) #转换成因子 stage=factor(stage) stage 可以得到如下因子方法二、直接使用factor函数 #删除组织病理学分期末尾的A，...参考资料： ☞【R语言】R中的因子（factor） ☞如何从TCGA数据库下载RNAseq数据以及临床信息(一) ☞【R语言】卡方检验和Fisher精确检验，复现临床paper ☞R生成临床信息统计表

3.2K2 1

在cuda的核函数中可以按地址调用普通变量么？

请问在cuda的核函数中可以按地址调用普通变量么？...但需要注意这个问题：（1）最终指向global memory地址空间的指针，可以在本次kernel启动，或者下次kernel启动的任何线程中都是有效的。...如果错误的在本次kernel启动的本block中的其他线程使用，则自动得到被替换成对应的线程的对应local memory位置的值。...（3）最终指向shared memory的指针，仅在本次kernel启动的本block中的任意一个线程中有效。...另外两点需要注意的：（4）在部分平台支持P2P Access的情况下，则指向一张卡的global memory的指针，可以在另外一张卡上的kernel中被使用，类似情况（1）。

3.1K7 0

R语言数据分析利器data.table包 —— 数据框结构处理精讲

文件路径，再确保没有执行shell命令时很有用，也可以在input参数输入; stringsASFactors是否转化字符串为因子， verbose，是否交互和报告运行时间； autostart，...，比如data.frame和data.table等； file，输出文件名,""意味着直接输出到操作台； append，如果TRUE,在原文件的后面添加； quote，如果"auto",因子和列名只有在他们需要的时候才会被加上双引号..., by=x][order(x)] #和上面一样，采取data.table的链接符合表达式 DT[v>1, sum(y), by=v] #对v列进行分组后,取各组中v>1的行出来，各组分别对定义的行中的...函数画图，对于每个x的分组画一张图 DT[, m:=mean(v), by=x] #对DT按x列分组，直接在DT上再添加一列m,m的内容是mean(v)，直接修改并且不输出到屏幕上 DT[, m:=mean...(y=max(y)), lapply(.SD, min)), by=x, .SDcols=y:v] #对DT取y:v之间的列，按x分组，输出max(y),对y到v之间的列每列求最小值输出。

5.6K2 0

【DB笔试面试806】在Oracle中，如何查找未使用绑定变量的SQL语句？

♣ 题目部分在Oracle中，如何查找未使用绑定变量的SQL语句？...换句话说，如果两个SQL语句除了字面量的值之外都是相同的，它们将拥有相同的FORCE_MATCHING_SIGNATURE，这意味着如果为它们提供了绑定变量或者CURSOR_SHARING，它们就成了完全相同的语句...⊙ 【DB笔试面试585】在Oracle中，什么是常规游标共享？⊙ 【DB笔试面试584】在Oracle中，如何得到已执行的目标SQL中的绑定变量的值？...⊙ 【DB笔试面试583】在Oracle中，什么是绑定变量分级？⊙ 【DB笔试面试582】在Oracle中，什么是绑定变量窥探（下）？...⊙ 【DB笔试面试582】在Oracle中，什么是绑定变量窥探（上）？⊙ 【DB笔试面试581】在Oracle中，绑定变量是什么？绑定变量有什么优缺点？

6.2K2 0

R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)

R语言︱数据集分组大型数据集通常是高度结构化的，结构使得我们可以按不同的方式分组，有时候我们需要关注单个组的数据片断，有时需要聚合不同组内的信息，并相互比较。...2、cut()函数 cut(x, n)：将连续型变量x分割为有着n个水平的因子 cut(x, breaks, labels = NULL, include.lowest = FALSE, right...f是分组因子。...(iris$setosa)] #按照照setosa的大小，重排Sepal.Length数据列四、dplyr与data.table data.table可是比dplyr以及python中的...data.table包的语法简洁，并且只需一行代码就可以完成很多事情。进一步地，data.table在某些情况下执行效率更高。

20.6K3 2

生信技能树 Day8 9 GEO数据挖掘基因芯片数据

查找和下载数据以GSE7305为例网站点击链接下载代码下载 #打破下载时间的限制,改前60秒，改后10w秒 options(timeout = 100000) options(scipen =...p) { s = intersect(rownames(pd),colnames(exp)) exp = exp[,s] pd = pd[s,] } 有多个分组，怎么提取两个分组 #现编一个三分组...pd$group = rep(c("group1","group2","group3"),times = c(6,6,8)) #假如需要从多个分组里面取两个分组对应的行 library(stringr...library(stringr) # 标准流程代码是二分组，多分组数据的分析后面另讲 # 生成Group向量的三种常规方法，三选一，选谁就把第几个逻辑值写成T，另外两个为F。...,"Normal","Disease") } data.frame(pd$title,Group)# 检查分组对不对转换为因子 # 需要把Group转换成因子，并设置参考水平，指定levels，对照组在前

1892 0

在 PHP 中如何通过一行代码就交换两个变量的值

在 PHP 中如果要交换两个变量的值，一般使用中间临时变量来处理，比如： $tmp = $x; $x = $y; $y = $tmp; 比如上面交换临时变量 x 和 y 的值，就要用到临时变量其实可以是用...PHP 函数 list 来处理： list($x,$y) = array($y, $x); 这样一行代码就简洁得多了，如果使用 PHP 7.1 及以上的版本，还可以使用短数组语法（[]）： [$x,

12.8K3 0

R︱高效数据操作——data.table包（实战心得、dplyr对比、key灵活用法、数据合并）

同时设置两个key变量的方式，也是可以的。查看数据集是否有key的方式： key(data) #检查该数据集key是什么？...2、按条件行筛选从前用subset的方式进行筛选比较多， new=14,select=a:f) （1）单变量现在data.table与dplyr from_dplyr =...%>%的功能是用于实现将一个函数的输出传递给下一个函数的第一个参数。注意这里的，传递给下一个函数的第一个参数，然后就不用写第一个参数了。在dplyr分组求和的过程中，还是挺有用的。...，他包含了各个分组，除了by中的变量的所有元素。....(x)] 还有 data$x 如果有很多名字很长的指标，data.table中如果按列进行遍历呢？ data[,1]是不行的，选中列的方式是用列名。

7.7K4 3

「R」数据操作（三）：高效的data.table

N是最常用的符号之一，它表示当前分组中，对象的数目（就不用调用nrow函数啦）。在[]使用它指提取最后一行。...例如使用id和date定位toy_tests中的记录： setkey(toy_tests, id, date) 现在提供key中的两个元素就可以获取记录了 toy_tests[....对数据进行分组汇总 by是data.table中另一个重要参数（即方括号内的第3个参数），它可以将数据按照by值进行分组，并对分组计算第2个参数。...2 分组的变量可以不止一个，例如由type和class确定一个分组： product_info[, .N, by = ....("volume") #> year average #> 1: 2015 4000 #> 2: 2016 4003 我们可以利用此包专门的语法创造一个列数动态变化的组合，并且组合中的列是由动态变化的名称决定的

6K2 0

R语言实现定性资料的秩和检验

介绍定性资料比如等级，毒性，应答等，可以以具有分级的因子的形式表示，比如(+ ++， +++)，分别对应因子的1,2,3种水平，这样不同组样本只要看这些数据的等级的排列是否一致就可以判断这两个群体的分布是否有差异...代码 library(data.table) setwd("/我的文档/project/test") dt <- fread("example.tsv") #读入文件，这里用fread依赖data.table...包，也可以用read.table dt$分组 <- factor(dt$分组) # 分组转变成因子 dt$毒性 <- as.numeric(factor(dt$毒性)) #定性资料转变成因后再转成可以计算的数字...# 进行检验计算p值和zscore pvalue <- wilcox.test(毒性 ~ 分组, data = dt)$p.value zscore <- qnorm(pvalue/2) #...默认wilcox双尾检验所以要除以2，如果你wilcox做的是单尾检验，这里不用除以2 print(zscore) 参考资料 https://stats.stackexchange.com/questions

6852 0

R练习50题 - 第一期

unique：找出symbol中不重复的值。在data.table的语法中，先进行列选择操作，再对列进行处理。所以上述语句会先执行str_detect，再执行unique。...(date, updown)这个结构，他的意思是，把整个数据集按照date和updown两个变量进行分组，并依次排序。...其中，updown是我们新建的字符变量，用来表示分组，它只取两个值：UP, DOWN。这其中的难点是建立updown这个变量。我们使用了ifelse这个函数。...代码第二行生成了一个新变量num。由于在keyby语句中我们已经按照日期与涨跌进行了分组，所以这一步我们只需要统计每个组有多少个股票就可以了。我们在这里使用了uniqueN这个函数。...整个代码的执行顺序是：先选择行（逗号空白行），再分组（keyby语句），最后进行组间统计（num语句）。我们的答案中，行、列以及分组三条语句各占一行，实际上这仅仅是为了让代码更直观。

2.4K4 0

输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字

题目：输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字。要求时间复杂度是O(n)。如果有多对数字的和等于输入的数字，输出任意一对即可。...2 因为是求两个数，时间复杂度是O（n）,还是排过顺序的数组，那么可以从头和从尾同时找；从尾开始的tail下标大于sum，则tail左移；如果tail和head相加小于sum，则tail右移；指导头尾两个数相加等于求和...；或者tail大于head为止；代码如下： ''' 题目：输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字。...] break 输出 2 4 -------------------------------------------------- Python数据结构与算法-在M...个数中找K个最小的数

2.1K1 0

一行代码搞定分组回归

写在前面在目前为止所有小伙伴们向大猫请教过的R问题中，大猫总结了最常遇见同时也是比较难的三个问题，分别是（1）事件研究法；（2）分组回归；（3）滚动回归。...事件研究法在第一期中已经讲述，本期我们就来瞧瞧如何做分组回归~ PS：由于微信的限制，给大猫留言的小伙伴超过48小时后大猫就不能回复你们了。所以如果想联系大猫，可以按照文章最后的微信号加大猫微信哦。...stkid代表分组变量，有a, b, c, d, e五个类别；x和y分别随机生成 dt <- data.table(stkid = sample(letters[1:5], 100, replace =...keyby语句为data.table包中的分组语句，它能够对keyby中的每一个不同的值（这里为abcde）都分别跑一次回归。...如果我们的回归不是单自变量而是双自变量，那么每个分组就会有三行观测了，一行是截距，还有两行是系数。

3.4K4 0

数据流编程教程：R语言与DataFrame

清洁的数据在数据处理的后续流程中十分重要，比如数据变化(dplyr),可视化(ggplot2/ggvis)以及数据建模等。...此外，separate和union方法提供了数据分组拆分、合并的功能，应用在nominal数据的转化上。...(): 按列变量选择 filter(): 按行名称分片 slice(): 按行索引分片 mutate(): 在原数据集最后一列追加一些数据集 summarise(): 每组聚合为一个小数量的汇总统计，通常结合...(x, y): 所有 x 在 y 中匹配的部分 anti_join(x, y): 所有 x 在 y 中不匹配的部分（3）集合操作 intersect(x, y): x 和 y 的交集（按行） union...(x, y): x 和 y 的并集（按行） setdiff(x, y): x 和 y 的补集（在x中不在y中）更多详细操作可以参考由SupStats翻译的数据再加工速查表，比Python的老鼠书直观很多

3.8K12 0

癌基因都是肿瘤的风险因子吗

这个就很有意思的，因为癌基因的定义就是那些在肿瘤里面过度激活的基因，而抑癌基因就是在肿瘤里面失活的基因，不过过度激活不一定要转录本大量增加，可能是其它生物学机理，比如蛋白质产物大量增加，又或者说蛋白质产物效果增强...同样的，我们可以使用TCGA数据库的多种癌症来举例说明这两个问题：整理表达量矩阵和生存分析首先，我们选择同样的 TCGA-CDR-SupplementalTableS1.xlsx 文件里面的生存信息...解释起来会有一点点绕，不过这样的结果很容易通过一个分组KM曲线去肉眼检查一下基因具体到底是保护因子还是风险因子，就跟我们肉眼检查表达量上下调基因会使用箱线图一样。...，所以各自的保护因子和风险因子数量不一样。...基因表达量高低分组的cox和连续变量cox回归计算的HR值差异太大?

6542 0

R练习50题 - 第二期

由于股票代码symbol的最后两个字符表示交易所（例如，600123.SH表示上海交易所，股票代码600123），我们在建立分组变量时需要使用str_sub函数截取最后两个字符。代码及解析： ?...在keyby语句中，我们创建了三个分组变量，首先是日期date，其次是交易所exchange（只取SH/SZ两个值），最后是涨跌updown。注意这三个变量的先后顺序非常重要，不能颠倒。...练习 4 沪深300成分股中，每天上涨、下跌的股票各有多少？分析：本题仍旧是Ex-2的拓展，只不过要求我们进行行选择操作。在data.table的dt[i,j,by]语法中，i代表行选择操作。...为了选出沪深300成分股，我们需要用到index_w300这个变量。index_w300表示一个股票在沪深300指数中的权重，如果大于零，说明它是成分股；如果为零，说明不是成分股。代码及解析： ?...data.table只会选择为True的那些元素。在data.table的dt[i, j, by]语法中，先执行行选择操作i, 再执行分组操作by, 最后执行列操作j。

8582 0

用data.table语句批量处理变量

问题：批量处理表中变量正式开始说问题之前，我们先回顾一下data.table的基本语句DT[i, j, by]，简而言之，"i"是对行进行选择，"j"是对列进行操作，"by"是分组。...批量处理法：用lapply批量处理变量在此时lapply的妙用就显现出来了，在R中lapply用来对list中每一个element进行相同处理，如何把它运用到data.table，话不多说先上代码：...我们知道在data.table包中，.SD是经过i和by处理之后剩下的那部分数据集，它的格式是一个data.table，同时它是一个list。...而我们要处理的变量是第3个到第34个，所以在.SD中选出3至34列，运用lapply对选中的.SD[, 3:34]里面每一个element使用as.Date函数。再看，':='的左边。...如何把处理好的这些变量与变量名进行对应，这里就用到了colnames()这个函数，提取出我们这个data.table第3到第34个变量的名字，这样就可以将变量名和更改格式后的变量按顺序进行一一匹配。

1.1K3 0

广义估计方程和混合线性模型在R和python中的实现

（变数、变量、变项）协变量（covariate）：在实验的设计中，协变量是一个独立变量(解释变量)，不为实验者所操纵，但仍影响响应。...P*P维作业相关矩阵（自变量X），用以表示因变量的各次重复测量值（自变量）之间的相关性大小求参数$\beta$的估计值及其协方差矩阵混合线性模型(mixed linear model，MLM)：构建包含固定因子和随机因子的线性混合模型...比值几率表示单位预测变量变化时响应变量的几率的乘性变化。在本例中，不适合。...区分混合线性模型中的随机效应和固定效应是一个重要的概念。固定效应是具有特定水平的变量，而随机效应捕捉了由于分组或聚类引起的变异性。比如下方正在探究尿蛋白对来自不同患者的GFR的影响。...比值几率表示单位预测变量变化时响应变量的几率的乘性变化。在本例中，不适合。

1890 0

R语言基因组数据分析可能会用到的data.table函数整理

因此，在对大数据处理上，使用data.table无疑具有极高的效率。这里主要介绍在基因组数据分析中可能会用到的函数。...； na.strings 对NA的解释； file 文件路径，再确保没有执行shell命令时很有用，也可以在input参数输入; stringsASFactors 是否转化字符串为因子...代表无变量； fun.aggregate 是否在铸造之前汇总，应提供函数list（比如mean，sum或者c(sum,mean))，默认length； sep 铸造的时候连接字符变量的连接符..."； value.name 融合后数据的数值列名； na.rm 如果TRUE，移除NA值； variable.factor 如果TRUE,变量列转化为因子； verbose...by.y默认key(y)； maxgap 设定两个区域空白区允许的最大值，参数尚不能使用； minoverlap 设定两个区域最小的重叠区，参数尚不能使用； type

3.3K1 0

从一件数据清洗的小事说起

” 本期“大猫的R语言公众号”由“村长”供稿。村长，数据科学、指弹吉他及录音工程爱好者，浙大金融学博士在读，在data.table包和MongoDB的使用上有较多经验。...问题：从一段json清晰代码说起笔者某一日在R语言中文社区某一群里面发现了水友提出的一个问题，处理一个比较奇葩的数据清洗问题，先来看数据结构： ?...这是一个类json格式嵌套的数据，其中存在两个变量，第一个变量是cusnum作为序号，第二个是一个类json的嵌套变量，里面以类jsno格式嵌套了很多变量。需要将这个数据集转换成如下格式： ?...其实这一期这么扯淡的讲这么多事情，只是为了说明一点，data.table真的有很好的性能，尤其在处理海量数据方面（在分组特别多的时候，相比dplyr和pandas有2x~10x的提升，来自官方文档）。...相较之下，data.table则通过把数据处理中最常见的“选取行”、“修改列”、“分组”三大操作通过dt[i,j,by]的语法统一了一起来。

6721 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭