data.table:重新编码多个变量，而不必指定"by“ - 腾讯云开发者社区

DT$a) # TRUE is.list(DF) # TRUE is.list(DT) # TRUE is.data.frame(DT) # TRUE 不过data.frame默认将非数字转化为因子；而data.table...copy(names(DT))直接copy列名，这样不必copy整个data.table。...不然就是"," col.names,给列名，默认试用header或者探测到的，不然就是V+列号; encoding，默认"unknown"，其它可能"UTF-8"或者"Latin-1"，不是用来重新编码的...用haskey(DT)判断DT是否已经设置了key，可以设置多个列作为key DT[y>2] # DT$y>2的行 DT[!...#右联接 DT[X, on="x", nomatch=0] #内联接,nomatch=0表示不返回不匹配的行,nomatch=NA表示以NA返回不匹配的值 with 默认是TRUE，列名能够当作变量使用

5.9K2 0

R︱高效数据操作——data.table包（实战心得、dplyr对比、key灵活用法、数据合并）

网络上充斥的是data.table很好，很棒，性能棒之类的，但是从我实际使用来看，就得泼个水，网上博客都是拿一些简单的案例数据，但是实际数据结构很复杂的情况下，批量操作对于data.table编码来说，...key变量重新排序。...setkey(try,gender,buy_online) #设置key为两个变量，数据已经按照x值进行了重新排序 ans2 而data.table的降序是setorder(data,-x) ———————————————————————————————————....SDcols常于.SD用在一起，他可以指定.SD中所包含的列，也就是对.SD取子集。

9.3K4 3

您找到你想要的搜索结果了吗？

是的

没有找到

R语言基因组数据分析可能会用到的data.table函数整理

那么会从包含该字符的行开始读； select 需要保留的列名或者列号，不要其它的； drop 需要取掉的列名或者列号，要其它的； colClasses 类字符矢量，用于罕见的覆盖而不是常规使用...," col.names 给列名，默认试用header或者探测到的，不然就是V+列号; encoding 默认"unknown"，其它可能"UTF-8"或者"Latin-1"，不是用来重新编码的...默认FALSE，如果TRUE，不等长的区域可以自动填上，利于文件顺利读入； blank.lines.skip 默认FALSE,如果TRUE，跳过空白行 key 设置key，用一个或多个列名...代表全部变量,"."...也有不同之处，一是use.names参数，可以指定是否使用相同列名bind，二是rbindlist可以使用在不知道对象名字的情况下，比如lapply(fileNames, fread) 。

3.4K1 0

Matt Dowle 演讲节选（二）

换句话说，哪怕在 global environment 中存在一个叫做 B 的变量，那么data.talbe在运行的时候也会“认” DF 中的那个叫做 B 的列，而不是 global environment...2004-2012： data.table不断进化一开始的data.table只是 Matt 为了方便自己工作而创作的，到了2008年，Matt 在 GPL 开源协议下发布了data.table。...这里的关键在于，在第一种方法中，每为新的一行赋值，data.table就要重新复制一遍DT，也就是说，第一种方法的运行过程中，DF被复制了1000遍！...这时你们肯定会去 StackOverflow 上发帖询问，而得到的回答大多数是让你指定read.csv的一大堆的参数。...现在我们再玩得大点，假设你有 20G 的 csv 文件，2亿行，16列，哪怕你为每个列都指定了class，read.csv("test.csv")也需要好几个小时才能运行完，而fread只要—— 8 分钟

1.1K4 0

「R」数据操作（三）：高效的data.table

是选择行而不是列： product_info[1] #> id name type class released #> 1: T01 SupCar toy vehicle yes...我们可以将多个[]按顺序连接起来，形成工作流（类似管道%>%）。...("model", "vehicle"), mean_quality] #> [1] 6 对大数据集使用键进行搜索，能够比迭代使用逻辑比较快得多，因为键搜索利用了二进制搜索，而迭代在不必要的计算上浪费了时间...::dcast()提供了更强大的多变量支持： toy_tests2 = data.table::dcast(toy_tests, ym ~ id, value.var = c("quality", "durability...提供了一系列支持语义的set函数，它们可以原地修改data.table，因此避免不必要的复制。

6.4K2 0

一行代码搞定分组回归

y是因变量，可以想象成股票的日收益，x是自变量，可以想象成市场收益。我们希望对于每个股票，都跑一个如下回归： y = x 并且把系数都保存在输出数据集中。图：样例数据集 ?...很多小伙伴大动干戈想把原数据集按照stkid的值拆成若干子数据集，并用for循环来做回归——大可不必这样。其实，要实现这一步只需要一行代码哦。...stkid代表分组变量，有a, b, c, d, e五个类别；x和y分别随机生成 dt data.table(stkid = sample(letters[1:5], 100, replace =...如果我们的回归不是单自变量而是双自变量，那么每个分组就会有三行观测了，一行是截距，还有两行是系数。...如果我们只加coef函数而不加as.list，那么最终输出的是一个vector，data.table会自动把这个vector拉直（也就是上图看到的这样），而加了as.list之后，原来输出vector就被打包成了

3.6K4 0

35行代码搞定事件研究法（下）

Hello亲爱的小伙伴们，上期已经讲到如何对单一事件日计算超额收益，本期将会教大家如何针对多个股票多个事件日计算超额收益，Let's go! ?...注意 I，本代码主要使用data.table包完成，关于data.table包的相应知识会在涉及的时候进行讲解。在以后的课堂中，我们会重点介绍data.table这个包。...用data.table包处理多个事件日本期课堂的核心代码只有下面5行（应用了data.table包的语法）： > car <- event[, { > ns 不必担心自己的数据太多计算机跑不起来。但是口说无凭，大猫在这里给出用模拟数据得到的测试结果。...语句“car :=” 表示在原数据集中新建一个名为 car 的变量，vapply(ars, sum)的含义是把超额收益率向量ars中的元素相加，double(1)指定输出的必须是一个标量（因为对于每个事件日

1.2K4 0

完成任意癌症的任意基因突变与否分组后的转录组测序的差异分析

以下是MC3计划的主要特点和工作内容：突变信息整合： MC3计划旨在整合来自TCGA多个癌症类型的突变信息。...如下： TCGA计划的4个找somatic mutation的软件使用体验肿瘤全外显子测序数据分析流程大放送肿瘤空间异质性探究毕竟是六年多过去了，然后在最新最全的mutect2教程，提到了其实大家不必在一棵树上吊死...Somatic 变异：这些变异发生在个体的非生殖细胞（体细胞）中，只会影响个体的一部分细胞，而不会被传递给后代。...SNV 和 Indel： SNV（Single Nucleotide Variant）：这是指单个核苷酸的变异，例如由于一个碱基被替换为另一个碱基而引起的变异。...Indel（Insertion/Deletion）：这是指插入或删除一个或多个核苷酸的变异。Indel 可能导致基因框架的移位，影响蛋白质编码的读框，从而产生功能性影响。

3572 1

R练习50题 - 第一期

值得说明的有一下几点：数据集为“面板数据”：包含多个股票（横截面），而每个股票则有多个按照日期排序的变量（时间序列）股票代码symbol 和日期date共同组成了数据集的key，也即每个唯一的symbol...若干主要变量说明： symbol：股票代码。....(date, updown)这个结构，他的意思是，把整个数据集按照date和updown两个变量进行分组，并依次排序。...其中，updown是我们新建的字符变量，用来表示分组，它只取两个值：UP, DOWN。这其中的难点是建立updown这个变量。我们使用了ifelse这个函数。...它是data.table内置函数之一，和unique几乎执行相同的操作，唯一不同的是，unique返回的是不重复的item（是一个向量），而uniqueN返回的是不重复的数量（是一个数字）。

2.5K4 0

手把手教你用R语言读取CSV文件

如前面所述，第一个参数是文件名（或字符型变量）。注意我们如何显式地使用参数名file、head和sep。函数的参数能够按位置顺序赋值，而不用显式指定参数名，但指定参数名是最佳实践。...col_names默认为TRUE，指定文件的第一行为列名。...02 fread函数另一个读取大量数据的函数是data.table包的fread函数。第一个参数是读取的文件路径或者URL。header参数表示文件的第一行是列名，sep指定分隔符。...该函数读取速度比read.table函数快，结果为data.table对象。data.table对象是data.frame的扩展，其是data.frame的优化。...在数据管理、多层次模型、机器学习、广义线性模型、可视化、数据管理和统计计算等多个领域拥有丰富经验。本文摘编自《R语言：实用数据分析和可视化技术》（原书第2版），经出版方授权发布。

22.4K2 1

生信马拉松 Day5

成为数据框read.csv() #通常读取csvread.table() #通常读取txtread.delim() #读取txt的一个替代函数失败有两种表现：1.报错 2.意外的结果直接读取如果失败，就需要指定一些参数...write.table(test,file = 'excercise.txt')建议导出时取不同原文件的名字，不要覆盖原文件，让代码可重复，数据可重现6.R特有的数据保存格式，Rdata无法用其他软件打开，保存的是变量...，不是表格文件，支持多个变量存到同一个Rdatasave()保存，注意file=不是固定的第二个参数，所以不能省略load()加载，使Rdata的变量出现在环境里，因此不能给数据命名7.三大基本函数dim...")class(soft)#[1] "data.table" "data.frame"#data.table是作者大神自创的数据类型#一般用不到，所以就用data.table默认参数FALSE掉soft...= data.table::fread("soft.txt",data.table = F)class(soft)#[1] "data.frame"#包2：rio#支持非常多种数据的导入，只要数据实际内容和后缀相同

1860 0

R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)

，列） select(Hdma_dat,pclass,survived) ##选择pclass变量 ?...分组处理模式对数据的转换，可以采用split – apply – combine模式来进行处理： split：把要处理的数据分割成小片断； apply：对每个小片断独立进行操作； combine：把片断重新组合...result2<-lapply(sp,FUN=function(x) max(x$AMOUNT)) result<-cbind(result1,result2) 代码解读： 1.Split函数的作用是将数据框按照指定字段分组...subset=which+数据集操作 which=order+多变量运行。...data.table包的语法简洁，并且只需一行代码就可以完成很多事情。进一步地，data.table在某些情况下执行效率更高。

20.9K3 2

关于eslint

ESLint 这样的工具可以让程序员在编码的过程中发现问题，而不是在执行的过程中发现问题。 ESLint 的校验第一种：会在代码保存的时候校验，但是只会在控制台进行提示。...ESLint 并不推荐任何编码风格，规则是自由的。所有内置规则都是泛化的。...如果同一个目录下有多个配置文件，ESLint 只会使用一个。...no-extra-parens 禁止不必要的括号 no-extra-semi 禁止不必要的分号 no-func-assign 禁止对 function 声明重新赋值 no-inner-declarations...禁用不必要的构造函数 no-useless-ren 要求使用 let 或 const 而不是 var object-shorthand 要求或禁止对象字面量中方法和属性使用简写语法 prefer-arrow-callback

3K2 0

【孟德尔随机化】代码分享：用循环代替大海捞针

前几期几乎都是以文献分享为主，这一期直接一点，跟大家分享一下同时跑多个变量和多个结局的代码，拿来就能用的那种~ 第一步，加载包 # if (!...r$status_code : $ operator is invalid for atomic vectors)策略： # 删除R包 # remove.packages("ieugwasr") # 重新安装一下...} # 打印结果列表 print(names(result_list)) save(result_list,file = "phegwas_result_list.Rdata") 这样就获取了多个变量的.../tmp/dat_38/") for (i in dat_38) { f= file.path(dir,i) print(f) gwas data.table = F...这里用了两个for循环，目的是分析多个暴露和多个结局的相关性。如果是一对多，那就把i对应的循环拿掉；如果是多对一，那就把j对应的循环拿掉即可。

1.6K1 1

如何用R进行中文分词？

2）安装data.table。data.table是当前R中最强大的数据处理包之一，在大猫课堂中，所有的数据处理都要使用到data.table。...3.23)) # which is equal to: > floor(3.23) %>% sqrt() 4）安装包stringr stringr是R中用于文本处理的常用包，它把许多常见的文本处理函数重新打包...大家可以把分词器想象成一个自定义的分词函数，这个函数包含了指定的分词模型（一般情况下使用默认的混合模型就可以了）以及停用词等。...另外，USE.NAMES = F的作用是让生成的x.out变量不带名称，否则其每个元素都会被赋予一个名称，浪费了空间又拖慢处理速度（小伙伴们可以试一下不加会怎么样）。...第二行代码中，dt[, text.seg := x.out]的作用是：在数据集dt中新生成一个变量text.seg，其值等于向量x.out。

1.3K1 0

PRS多基因评分教程学习笔记(二）

plink \ --bfile EUR \ #文件前辍EUR，指定输入 --maf 0.05 \ # 删除所有等位基因频率小于0.05的SNP。...library(data.table) Mismatching genotypes 此外，当数据集之间的等位基因编码存在明确的不匹配时，例如基础中的A / C和目标数据中的G / T，则可以通过“链翻转...B.A2") := list(sapply(B.A1, complement), sapply(B.A2, complement))] c.识别需要在目标中重新编码的...SNP（以确保目标数据中的编码等位基因是基本摘要统计中的有效等位基因） # identify SNPs that need recoding & complement com.recode 指定相同的随机种子。 PLINK的去除相关个体的算法不能解释所研究的表型。为了最大程度地减少疾病的清除，可以使用以下算法代替：GreedyRelated。

2.3K3 0

R语言之处理大型数据集的策略

这时，可以使用 readr 包里的 read_csv( ) 函数或者 data.table 包里的 fread( ) 函数读入数据，其中后者的读取速度更快（大约为前者的两倍）。...data.table 包提供了一个数据框的高级版本，大大提高了数据处理的速度。该包尤其适合那些需要在内存中处理大型数据集（比如 1GB～100GB）的用户。...varnames <- c(varnames, paste(i, j, sep = "_")) } } names(bigdata) <- varnames names(bigdata) 如果你不太想使用多个循环...在上面的命令中，subdata1 选取了数据集里所有以 a 开头的变量，而 subdata2 选取了数据集里所有以 2 结尾的变量。...，前者中的参数 size 用于指定行的个数，而后者中的参数 size 用于指定占所有行的比例。

3472 0

转录组测序后的表达量矩阵是否需要清理非编码基因呢

/TCGA-LIHC.htseq_counts.tsv.gz' , data.table = F) dim(a1) a1[1:4,1:4] a1[(nrow(a1)-5):nrow...**Long Non-Coding RNA (长链非编码RNA, lncRNA)**： lncRNA是一类长度超过200个核苷酸的RNA分子，它们不编码蛋白质，但在细胞中扮演多种调控角色。...**Protein Coding (蛋白质编码)**：蛋白质编码基因是指那些能够转录并翻译成蛋白质的基因。这些基因的转录产物（mRNA）经过剪接和翻译，最终形成具有特定功能的蛋白质。...：上调基因可以砍掉一大半，而下调基因影响才三分之一对比两次差异分析结果首先呢，几乎是不会影响两万多个蛋白质编码基因的差异分析结果，因为两次差异分析的变化情况是几乎是一模一样： rm(list...= ls()) library(data.table) load('..

700 0

20231220-简单文件格式读取

csv文件是识别分隔符，把内容装进格子里，R语言打开csv文件，是把纯文本文件装进一个数据框，在R语言中，对数据框进行操作，相应的改动不会被同步到csv文件中如果想要对原本的文件进行修改，把修改后的内容重新写为...读取txt文件 write.csv(x,file="x.csv") 导出csv文件 write.table(x,file="x.txt")导出txt文件 2R语言特有的文件格式 R.data 保存的是变量...，不是表格文件，支持保存多个文件 save（x,file="x.R.data") 保存Rdata load("x.Rdata")加载 R.data 3默认参数不适用读取文件所导致的隐形错误（1）读取txt...这个错误可以用一些函数来避免掉 read.delim("x.txt") data.table::fread("x.txt",data.table=F)

1551 0

R语言：哪个函数解析时间最快？

举个例子，如果用ASCII编码字符“2019-01-19”，里面有10个字符，每个字符占用8 bit，那么一共要用80 bit，但是在R的“Date”格式中，这个日期实际上用整数“17951”代表（R中的代码是...非常简单，只有两列变量“id”和“date”，其中date是字符格式，从“0001-01-01”开始逐日递增一直到“2738-11-28”，共有100万行。...这个包很简单，只要输入你的代码，并且指定“times=N”，程序就会重复运行你的代码N次，然后返回运行时间的平均值。默认的话times=100，由于大猫比较懒，因此只设置了times=5....不过，快也是有代价的，为了使用fast_strptime，我们必须手动指定需要解析的日期格式，在我们的例子中就是"%Y-%m-%d"。...写在最后实际上在lubridate包中，ymd并不是一个函数，而是一个家族，包括了ymd_hms（年月日_时分秒），mdy等多个变体。

1.5K5 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

R语言数据分析利器data.table包 —— 数据框结构处理精讲

R︱高效数据操作——data.table包（实战心得、dplyr对比、key灵活用法、数据合并）

R语言基因组数据分析可能会用到的data.table函数整理

Matt Dowle 演讲节选（二）

「R」数据操作（三）：高效的data.table

一行代码搞定分组回归

35行代码搞定事件研究法（下）

完成任意癌症的任意基因突变与否分组后的转录组测序的差异分析

R练习50题 - 第一期

手把手教你用R语言读取CSV文件

生信马拉松 Day5

R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)

关于eslint

【孟德尔随机化】代码分享：用循环代替大海捞针

如何用R进行中文分词？

PRS多基因评分教程学习笔记(二）

R语言之处理大型数据集的策略

转录组测序后的表达量矩阵是否需要清理非编码基因呢

20231220-简单文件格式读取

R语言：哪个函数解析时间最快？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐