R data.table获取具有最大其他id的唯一id

R data.table是R语言中用于高效处理大型数据集的扩展包。它提供了一种快速、灵活且内存高效的数据处理方式，特别适用于处理大型数据集和进行高性能计算。

在data.table中，可以使用max()函数结合by参数来获取具有最大其他id的唯一id。具体步骤如下：

首先，需要加载data.table包并创建一个data.table对象。假设我们有一个名为data的data.table对象，包含两列id和other_id。

library(data.table)
data <- data.table(id = c(1, 2, 3, 4, 5),
                   other_id = c(10, 20, 30, 20, 40))

接下来，使用by参数指定按照other_id列进行分组，并使用max()函数获取每个分组中other_id的最大值。

result <- data[, .(max_other_id = max(other_id)), by = id]

最后，可以通过筛选max_other_id等于other_id的行来获取具有最大other_id的唯一id。

unique_id <- result[id == max_other_id, id]

以上步骤将返回具有最大other_id的唯一id。

对于R data.table的更多详细信息和用法，可以参考腾讯云的产品介绍链接：R data.table产品介绍。

相关·内容

微信小程序中用户唯一ID的获取

折腾到半夜，搞得挺兴奋，总结一下，免得忘了： 1、微信小程序直接获得的是一些简单信息，基本无用 2、用户唯一标识是openid，还有一个unionid是关联多个公众号之类情况下用，我不大关心 3、在getUserInfo...，这些东西的关系比较复杂，我理解是这样的： 1）userInfo包括简单的用户信息 2）重要信息在encryptedData中，解开后包括： ?...4）rawData，signature是来做校验的，不太关心 4、session-key的获取方式： 1）登录成功后，传给回调的参数包括一个code，但这个code会很快失效 2）通过调用 https...除了code，其他参数很简单，文档里有说明。在浏览器中测试没有问题，但是，在小程序中也不能运行，因为小程序只能访问认证过的服务器。...换言之，必须要把这个东西放到服务器上，从微信中去调用服务器的页面，服务器的页面再去访问这个接口，然后再把数据反馈回来。

16.2K6 1

如何获取Jetson TX2这块板的唯一id?

这个问题也算是一个常见问题，NVIDIA官方论坛的答复如下： The "cpuid.h" header is architecture specific to x86....说白了，这个就是Intel提供的工具，在arm架构上并不Work。那你可能要问: 那还有什么办法？ ? 你其实可以通过下列办法获得TX2模组的序列号，这也是唯一的。 ? 试试看吧！ ?

3.5K2 0

【R语言】获取最新的人的所有miRNA的ID号

前面我们在介绍TCGA数据库数据挖掘的时候，课程中使用了人了所有miRNA的ID号。...的成熟体ID和miRNA名字。...miRNA的ID号，可能大家觉得比较麻烦。...能不能把这一部分也整合到R代码中。接下来小编就给大家讲讲如何使用R来从miRBase数据库中下载人的最新的miRNA注释信息，然后使用R来出来提取所有的miRNA的ID号。...☞R的save，load函数和 .rda文件使用这段代码能够保证，大家分析时用到的人的miRNA肯定是最新最全的。其实也没有必要每次分析之间都去下载hsa.gff3这个文件，处理一遍。

1.1K4 0

使用R语言获取人类所有基因的名字，ID，symbol以及别名

首先肯定是需要自行搜索了解 entrez gene ID, HUGO symbol, refseq ID, ensembl ID 这些专有名词咯。...org.Hs.egGENENAME) eg2alias=toTable(org.Hs.egALIAS2EG) eg2alis_list=lapply(split(eg2alias,eg2alias$gene_id...in% eg2symbol$symbol ){ symbols=GeneList geneIds=eg2symbol[match(symbols,eg2symbol$symbol),'gene_id...可以看到，有趣的是 ERBB1家族的 ERBB1的正式名字就是大名鼎鼎的EGFR，而大名鼎鼎的HER-2 正式名字却是ERBB2 搞笑！...当然了，本文的重点应该是上述代码输出的all_gene_bioconductor.html文件，理解了这个文件如何输出的，你的R语言就过关了！

3.3K4 0

「R」数据操作（三）：高效的data.table

接「R」数据操作（一）和「R」数据操作（二）使用data.table包操作数据 data.table包提供了一个加强版的data.frame，它运行效率极高，而且能够处理适合内存的大数据集，它使用[]...data.table和data.frame，也就是说data.table继承了data.frame的一些行为，但增强了其他部分。...例如使用id和date定位toy_tests中的记录： setkey(toy_tests, id, date) 现在提供key中的两个元素就可以获取记录了 toy_tests[....中，by所对应的组合中的值是唯一的，虽然实现了目标，但结果中没有设置键： key(type_class_test0) #> NULL 这种情况下，我们可以使用keyby来确保结果的data.table自动将...下面举例说明，首先创建有1000万行的数据，其中一列是索引列id，其他两列是随机数： n = 10000000 test1 = data.frame(id = 1:n, x = rnorm(n), y

6K2 0

R练习50题 - 第一期

写在前面从这期开始，大猫课堂将会推出一个新的系列：R练习50题，目的是使用50道练习题让大家掌握常用的数据操作，例如寻找每组最大的N个观测等。...本练习题来源于Renkun (github.com/renkun-ken/r-data-practice) 在Github上的共享，我们认为它包括了绝大多数实践中会遇到的问题，特别具有代表性。...关于data.table的神奇之处以及它和其他工具（例如pandas）的比较，欢迎大家戳它的官网：github.com/Rdatatable/data.table....虽然具有明显的金融背景，但是它和其他学科所遇到的数据集是相通的：在我们的数据集中，每个股票代码symbol和日期date的组合都决定了唯一的一个观测，相当于数据集的key，这种由“横截面”与“时间序列”...它是data.table内置函数之一，和unique几乎执行相同的操作，唯一不同的是，unique返回的是不重复的item（是一个向量），而uniqueN返回的是不重复的数量（是一个数字）。

2.4K4 0

CSV数据读取，性能最高多出R、Python 22倍

Pandas的read_csv需要34秒才能读取，这比R和Julia都要慢。异构数据集的性能接下来是关于异构数据集的性能测试。混合型数据集此数据集具有10k行和200列。...但是，使用更多线程，Julia的速度与R一样快或稍快。宽数据集这是一个相当宽的数据集，具有1000行和20k列。数据集包含的数据值类型有：String、Int。 ?...在这种情况下，单线程的data.table大约比CSV.jl快5倍。线程的增加，CSV.jl稍慢于R。...因为它是唯一直接以其高级语言完全实现功能的，这有别于先用C实现然后由R或Python工具进行封装。因此，Julia代码的后续性能将有着更多的可能。...id=24746057

2K6 3

R语言入门之数据的导入和导出

当然对于一些基因组文件或者其它格式的文件，各自有各自的特点，原则上R语言可以读取任何格式的文件，只需掌握基本的读取文件方法后按照不同特点调整参数即可。 1....#读取制表符分隔文件和读取逗号分隔文件的方法很类似 #唯一不同可能就在与sep这个参数后边的值是\t，实际上\t就是指制表符 mydata <- read.table("c:/mydata.tsv",...直接高效读取以.gz结尾的压缩文件一般在R中可以使用gzfile()的方式读取压缩文件，但如果使用data.table包里的fread()函数则可以大大提高工作效率。...具体方法如下： #安装并加载data.table包 #使用fread()函数读取文件，这里参数和之前的一致 #唯一的不同就是fread()可以直接读取压缩文件 install.packages(‘data.table...’) library(data.table) mydata <- fread(‘c:/mydata.txt.gz’, header=T, row.names=’id’) 第二部分导出数据（

3.2K4 0

R语言基因组数据分析可能会用到的data.table函数整理

版权声明：本文为博主原创文章，转载请注明出处 R语言data.table包是自带包data.frame的升级版，用于数据框格式数据的处理，最大的特点快。...因此，在对大数据处理上，使用data.table无疑具有极高的效率。这里主要介绍在基因组数据分析中可能会用到的函数。...="id"； between 是data.table i 语法的扩展功能，between等同于x >= lower 并且 x <= upper 当incbounds设置为TRUE的时候，...by.y默认key(y)； maxgap 设定两个区域空白区允许的最大值，参数尚不能使用； minoverlap 设定两个区域最小的重叠区，参数尚不能使用； type...)的结果最后，写完这篇博客，timetaken断断续续大约一星期参考文献 data.table manual: https://cran.r-project.org/web/packages

3.3K1 0

RNA-seq入门实战（三）：在R里面整理表达量counts矩阵

counts与TPM矩阵: 读取counts.txt构建counts矩阵；样品的重命名和分组；counts与TPM转换；基因ID转换；初步过滤低表达基因与保存counts数据从salmon输出文件中获取...一般为了对样品进行分组注释我们还需要在GEO网站下载样品Metadata信息表SraRunTable.txt，接下来就需要在R中对输出结果进行操作，转化为我们想要的基因表达counts矩阵。...下面展示转化ID并合并所有重复symbol的方法，其他基因名去重复方法参见Ensembl_id转换与gene symbol基因名去重复的两种方法 - 简书 (jianshu.com) #合并所有重复symbol...初步过滤低表达基因与保存counts数据我们的数据中会有很多低表达甚至不表达的基因，在后续分析中可能会影响数据的分析判断，因此需要对低表达的基因进行筛除处理。筛选标准不唯一，依自己数据情况而定。...其他步骤与操作featureCounts输出文件类似。

15.9K4 5

开发ETL为什么很多人用R不用Python

对比python中的datatable、pandas、dask、cuDF、modin，R中data.table以及spark、clickhouse 3....而日常数据生产中，有时会牵扯到模型计算，一般以R、python为主，且1~100G左右的数据是常态。基于此，于是想对比下R、Python中ETL的效率。..., id4两列分类汇总求v3的中位数与标准差 data.table用时10.5秒 data[, ...., id4不动，对id5横向展开，值为对v3求均值 data.table用时3.3秒 dcast.data.table(ans, id1 + id4 ~ id5, value.var = “v3”, fun.aggregate...中间涉及到PCA以及其他计算，最后入库mysql，该任务每天跑一次。

1.8K3 0

R语言数据分析利器data.table包 —— 数据框结构处理精讲

版权声明：本文为博主原创文章，转载请注明出处 R语言data.table包是自带包data.frame的升级版，用于数据框格式数据的处理，最大的特点快。...因此，在对大数据处理上，使用data.table无疑具有极高的效率。这里我们主要讲的是它对数据框结构的快捷处理。...将一个R对象转化为data.table，R可以时矢量，列表，data.frame等，keep.rownames决定是否保留行名或者列表名，默认FALSE,如果TRUE,将行名存在"rn"行中，keep.rownames...="id",行名保存在"id"行中。...kDT=copy(DT) #kDT时DT的一个copy **rowid(..., prefix=NULL) ** 产生unique的id，prefix参数在id前面加前缀 setattr 设置

5.6K2 0

如果你的单细胞表达量矩阵并不是传统基因名字为单位

我让学员发来一下对应的gse数据集，然后去下载这个这个文件，自己读取看了看； counts <- data.table::fread('GSE190482_UMIsMatrix.txt.gz',data.table...Ensembl 使用类似于 ENSG00000139618 的 ID 标识基因，其中 "ENSG" 表示 Ensembl Gene，后面的数字为特定基因的唯一标识符。...Ensembl 还提供了其他类型的 ID，如转录本 ID（ENST）、蛋白质 ID（ENSP）等。...RefSeq 基因通常使用类似于 "NM_000546.6" 的格式，其中 "NM" 表示 mRNA 的 RefSeq ID，后面的数字是该基因的特定版本，".6" 表示修订版本。...的子图：(J) Normalised expression levels of Il20rα and Il20rβ in annotated cell types from the scRNA-seq

1411 0

怎么用R语言把表格CSV文件中的数据变成一列，并且行名为原列名呢，谢谢

唯一的遗憾是不知道是谁写的…… 如果我理解的没有错误的话，写信人的需求应该是这个样子的：他的原始数据： [8vd02y0quw.png] 处理后想要得到的数据： [1k3z09rele.png] 处理代码...： set.seed(123) dd = data.frame(ID = 1:10,y1=rnorm(10),y2=rnorm(10),y3=rnorm(10),y4=rnorm(10)) dd library...(data.table) melt(dd,id=1) 代码解释： 1，dd为模拟生成的数据框数据，第一列为ID，其它几列为性状 2，使用的函数为data.table包中的melt函数 3，melt中，dd...为对象数据框，id为不变的列数，这里是ID一列，列数所在的位置为1，其它几列都变成一列，然后列名变为行名。...来信者需求：怎么用R语言把表格CSV文件中的数据变成一列，并且行名为原列名呢，谢谢 1，csv文件，可以用fread函数读取，命名,为dd 2，数据变为一列，如果没有ID这一列，全部都是性状，可以这样运行

6.7K3 0

R︱高效数据操作——data.table包（实战心得、dplyr对比、key灵活用法、数据合并）

（参考来源：R高效数据处理包dplyr和data.table，你选哪个？） ?...R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table) 同时，data.table与data.frame数据呈现方面，还有有所不同的。...(ID)] 三种数据筛选的方式，dplyr包、base基础包、data.table包。其中，dplyr是select语句，data.table中要注意.()的表达方式。...DT数据集按照x分组，然后计算v变量的和、最小值、最大值。（2）dplyr函数利用%>%（链式操作）来改进：链式操作是啥意思呢？...参考文献：些许案例，代码参考自以下博客，感谢你们的辛勤： 1、R语言data.table简介 2、超高性能数据处理包data.table 3、R语言data.table速查手册 4、R高效数据处理包

7.7K4 3

SAS or R：谁更适合你？（二）

大猫比较熟练的有SAS与R，故下文主要就这两门语言进行讨论，期间会偶尔涉及到其他语言，例如Mysql、Python、Matlab，以及非常小众但迅速发展的Julia。...这几年论文写作与数据处理的经验告诉大猫：在Syntax（Readability）和Performance之间，大猫宁愿选择前者，这也是大猫现在从SAS阵营转战到R阵营的最大原因。你会选择那种？ ?...下文中大猫指R的语法高效很大程度上基于data.table包，原生的R语法在大猫看来还是有些臃肿此外，R的效率现在也可以与SAS比肩，详见大猫前几期的《高效R开发：Microsoft R Open》...在这两方面，R都具有优势。两个例子举特例子，现在大猫有全国每个省的GDP，然后大猫想比较下每个省和全国的均值相差多少。...，这时唯一能做的就是Keep My Head Beating Against The Wall了啊！

8052 0

R+NLP︱text2vec包——BOW词袋模型做监督式情感标注案例（二,情感标注）

同样，text2vec的数据结构迁入的是data.table，所以效率极高，纵观来看，开发者都很有良心，每个环节都十分注意效率，再次给赞，关于data,table包可以参考我的另外一篇博客：R︱高效数据操作...identical(rownames(dtm_train), train$id) identical是检验两个值是否完全相等的函数，如果相等则会返回TRUE，相关内容参考我的博客：R语言︱集合运算—...最大AUC值为0.923,这是训练集的AUC，那么来看看验证集的效果怎么样。...通过L1或L2标准化的图像特征往往具有良好的效果，至于那个更好就需要自己试验。...1、数据转化之后，可以后续直接分析，而且跟之前的内容是具有可比性的。 2、灵活，可以的情况是，训练集没有进行TFIDF，而测试集可以进行TFIDF转化，单独看效果如何

1.5K2 0

35行代码搞定事件研究法（下）

注意 I，本代码主要使用data.table包完成，关于data.table包的相应知识会在涉及的时候进行讲解。在以后的课堂中，我们会重点介绍data.table这个包。...用data.table包处理多个事件日本期课堂的核心代码只有下面5行（应用了data.table包的语法）： > car <- event[, { > ns % rbindlist() }, by = stk.id] 最上面三行注释用来描述数据结构，如果去掉的话，所有代码加起来35行都不到...(stk.id, date = rep(date, n.stk), r = runif(n.stk * n.day), rm = runif(n.stk * n.day), event.flg...，CAR是唯一的）再比如，如果我们想计算逐日的累计超额收益率，那么代码就为： car[, cumcar := lapply(ars, cumsum) ] cumsum() 是累计求和函数。

1.2K4 0

手把手教你用R语言读取CSV文件

导读：R语言有许多种方法去获取数据，最常用的是读取CSV文件。作者：Jared P. Lander 来源：大数据DT（ID：hzdashuju） ?...类似read.csv函数，也有其他用于read.table的封装函数，也有默认参数。它们主要的区别是sep和dec参数。详细情况见表6-1。 ?...读取大CSV文件和其他文本文件的两个主流的函数是read_delim和fread，前者在readr包中由Hadley Wickham实现，后者在data.table包中由Matt Dowle实现。...该函数读取速度比read.table函数快，结果为data.table对象。data.table对象是data.frame的扩展，其是data.frame的优化。...本文摘编自《R语言：实用数据分析和可视化技术》（原书第2版），经出版方授权发布。

21.4K2 1

一行代码对日期插值

附：生成样例数据集的文件： # sample dataset # id变量用于分组 dt <- data.table(id = c(1, 1, 1, 2, 2), date = c(as.Date("2000...例如，在我们的样例数据集sample中，id=1的观测对应的日期最小值的为01-08，最大值为01-14，而我们希望填充这两个日期“之间”的所有值。...同理，对于id=2的观测，日期最大值为02-09，最小值为02-12，我希望填充就是02-10，02-11这两天。...思路和情况1类似，我们先构造CJ数据集，只不过在这里我们seq函数的起讫点不再是固定值，而是每个id对应日期的最大值与最小值： # 建立完整的日期序列 # 注意min和max函数的作用 CJ <- dt...(id, date), nomatch = NA] 这也是大猫喜欢data.table的一个原因：由于语法的灵活性，可以少生成很多中间数据集，这样也就不用绞尽脑汁为那些中间数据集命名了。

1.4K3 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云