使用一行中的两个或多个值从data.table查找第N行 - 腾讯云开发者社区

包括两个方面，一方面是写的快，代码简洁，只要一行命令就可以完成诸多任务，另一方面是处理快，内部处理的步骤进行了程序上的优化，使用多线程，甚至很多函数是使用C写的，大大加快数据运行速度。...,默认FALSE,如果TRUE，跳过空白行 key，设置key，用一个或多个列名，会传递给setkey showProgress,TRUE会显示脚本进程，R层次的C代码 data.table,TRUE...(x)] #和上面一样 DT[x=="a"] # 和上面一样,和使用on一样，都是使用二分查找法，所以它们速度比用data.frame的快。...n列，.N（总列数，直接在j输入.N取最后一列）,:=（直接在data.table上添加列，没有copy过程，所以快，有需要的话注意备份），.SD输出子集，.SD[n]输出子集的第n列，DT[,....roll 当i中全部行匹配只有某一行不匹配时，填充该行空白，+Inf(或者TRUE)用上一行的值填充，-Inf用下一行的值填充，输入某数字时，表示能够填充的距离，near用最近的行填充 rollends

5.9K2 0

「R」数据操作（三）：高效的data.table

N是最常用的符号之一，它表示当前分组中，对象的数目（就不用调用nrow函数啦）。在[]使用它指提取最后一行。...例如使用id和date定位toy_tests中的记录： setkey(toy_tests, id, date) 现在提供key中的两个元素就可以获取记录了 toy_tests[....对数据进行分组汇总 by是data.table中另一个重要参数（即方括号内的第3个参数），它可以将数据按照by值进行分组，并对分组计算第2个参数。...中，by所对应的组合中的值是唯一的，虽然实现了目标，但结果中没有设置键： key(type_class_test0) #> NULL 这种情况下，我们可以使用keyby来确保结果的data.table自动将...(year = year(date))] } 这里我们使用.SD[[x]]提取x列的值，这跟通过名字从列表中提取成分或元素相同。

6.4K2 0

您找到你想要的搜索结果了吗？

是的

没有找到

一个引号引发的血案（文本文件读取的小事故）

AFFX-r2-Bs-dap-M -ne 其实我本来是准备让搜索如何输出指定的第 28059 行附近的信息，还使用人工智能大模型帮我搜索了方法（在Linux的shell里面如何针对txt文件输出指定的某一行...）：在Linux的shell中，可以使用几种不同的方法来输出文本文件中的指定行。...使用less或more命令（交互式查看）：可以先使用less或more命令查看文件内容，然后使用上下箭头键跳转到指定的行。...使用cat与-n选项： cat -n filename.txt：类似于nl，cat -n命令也会输出文件的每一行，并在行首显示行号。...使用tac命令（从文件末尾开始计数）： tac filename.txt | grep '^[N]'：这将从文件末尾开始计数，显示倒数第N行。注意，^在正则表达式中表示行的开始，[N]是十进制数。

631 0

生信技能树 Day8 9 GEO数据挖掘基因芯片数据

) #eSet = geoChina("GSE7305") #选择性代替第7行什么是eSet #研究一下这个eSet class(eSet) length(eSet) eSet = eSet[[1]...pd$group = rep(c("group1","group2","group3"),times = c(6,6,8)) #假如需要从多个分组里面取两个分组对应的行 library(stringr...# 生成Group向量的三种常规方法，三选一，选谁就把第几个逻辑值写成T，另外两个为F。...) 或 ids <- AnnoProbe::idmap('GPL570') 如果使用复制下来的AnnoProbe::idmap('xxx')代码发现报错了，请注意尝试不同的type参数第三种情况显示...("GPL28098.txt",data.table = F) # 提示丢了一行，所以换个读取函数 b = read.delim("GPL28098.txt",check.names = F,skip

3612 1

R语言基因组数据分析可能会用到的data.table函数整理

包括两个方面，一方面是写的快，代码简洁，只要一行命令就可以完成诸多任务，另一方面是处理快，内部处理的步骤进行了程序上的优化，使用多线程，甚至很多函数是使用C写的，大大加快数据运行速度。...因此，在对大数据处理上，使用data.table无疑具有极高的效率。这里主要介绍在基因组数据分析中可能会用到的函数。...; verbose 是否交互和报告运行时间； autostart 机器可读这个区域任何行号，默认1L,如果这行是空，就读下一行; skip 跳过读取的行数，为1则从第二行开始读，...； blank.lines.skip 默认FALSE,如果TRUE，跳过空白行 key 设置key，用一个或多个列名，会传递给setkey showProgress TRUE会显示脚本进程...by.y默认key(y)； maxgap 设定两个区域空白区允许的最大值，参数尚不能使用； minoverlap 设定两个区域最小的重叠区，参数尚不能使用； type

3.4K1 0

手把手教你用R语言读取CSV文件

第二个参数header，表示数据的第一行，即列名。第三个参数sed，表示数据的分隔符。可以设为“\t”（tab分隔符）或者“;”（分号分隔符），以读取不同类型的文件。...读取大CSV文件和其他文本文件的两个主流的函数是read_delim和fread，前者在readr包中由Hadley Wickham实现，后者在data.table包中由Matt Dowle实现。...col_names默认为TRUE，指定文件的第一行为列名。...02 fread函数另一个读取大量数据的函数是data.table包的fread函数。第一个参数是读取的文件路径或者URL。header参数表示文件的第一行是列名，sep指定分隔符。...在数据管理、多层次模型、机器学习、广义线性模型、可视化、数据管理和统计计算等多个领域拥有丰富经验。本文摘编自《R语言：实用数据分析和可视化技术》（原书第2版），经出版方授权发布。

22.3K2 1

R练习50题 - 第一期

写在前面从这期开始，大猫课堂将会推出一个新的系列：R练习50题，目的是使用50道练习题让大家掌握常用的数据操作，例如寻找每组最大的N个观测等。...unique：找出symbol中不重复的值。在data.table的语法中，先进行列选择操作，再对列进行处理。所以上述语句会先执行str_detect，再执行unique。...其中，updown是我们新建的字符变量，用来表示分组，它只取两个值：UP, DOWN。这其中的难点是建立updown这个变量。我们使用了ifelse这个函数。...整个代码的执行顺序是：先选择行（逗号空白行），再分组（keyby语句），最后进行组间统计（num语句）。我们的答案中，行、列以及分组三条语句各占一行，实际上这仅仅是为了让代码更直观。...如果你愿意，data.table允许你把所有的代码都写在同一行，就像这样：下期预告在下一期，我们会继续带来剩余题目的解答~ 大猫的R语言课堂我是大猫，一个高中读文科但却在代码、数学的路上狂奔不止的

2.5K4 0

10行代码搞定【滚动回归】

如果数据一共有N天，那么就会得到N - n个数据点这就是滚动回归，一个非常容易理解而且在研究中常常遇见，然而实现起来却不是那么容易的问题。在今天的大猫课堂中，大猫教大家用10行代码搞定它！...解题思路解决的思路并不复杂，假设我们现在要处理的是第t行，自变量和因变量分别是x和y，滚动窗口是n天，那么我们只要能够取到x[t-n, t]以及y[t-n,t]两个向量，把他放到lm函数中就可以进行回归得到结果...此处每个id有n = 1000天观测，由于窗口期为100天，因此最终每个id会有1000 - 100 = 900个回归结果 keyby语句将原数据集按照id进行分组，具体作用可以看上期的《一行代码搞定分组回归...for (t in (n + 1) : .N)语句：每个不同的id会有.N天观测（这里是1000），我们需要从第(n + 1)天（在本例中是101）开始一直循环到第.N天。...关于.SD的具体使用可以见上期《一行代码搞定分组回归》 rbindlist()语句：上面对于每一天t我们都生成了一个回归，rbindlist语句将这些回归结果打包起来输出。总结是不是很简单？

2.2K2 0

「R」data.table 包功能特性学习

语法格式： DT[i, j, by] 释义为对data.table对象DT，使用i选择行，然后按照by计算j。...(4), 4), V4 = 1:12) 使用索引i取子集 # 选择第3到5行 DT[3:5, ] ## V1 V2 V3 V4 ## 1: 1 C...V1 V2 V3 V4 ## 1: 2 A -0.703 10 # 返回所有V2列有A或D值的行 DT[c("A", "D")] ## V1 V2 V3 V4 ## 1:...data.table操作 # 返回倒数第二行 DT[.N-1] ## V1 V2 V3 V4 ## 1: 1 B -0.38 11 # 返回行数 DT[, .N] ## [1] 12 #...(0 rows) of 1 col: V2 # 选择第一行与最后一行 DT[, .SD[c(1, .N)], by=V2] ## V2 V1 V3 V4 ## 1: A 1 0.341

1.9K1 0

35行代码搞定事件研究法（上）

注意，本代码主要使用data.table完成，关于data.table包的相应知识会在涉及的时候进行讲解。在以后的课堂中，我们会重点介绍data.table这个包。 ?...3 举一个详细的栗子 OK，既然栗子也有了，我们就要正式开工啦。本着从特殊到一般的原则，在这一讲中，我们首先假设现在只有一个事件日。...例如在我们的例子中，第30天发生了事件，因而n=30。需要注意的是在我们的例子中 n 是一个标量，下节课中我们会把n拓展为向量，也即引入多个事件日。...要知道在R中，线性回归的结果是一个类名为“lm”的对象，这个对象包含了回归结果的系数、p值、残差等等元素。而coef()函数的作用就是提取回归结果的系数。最后看第三行。...图中每一行都对应一个事件日，非事件日不输出结果。上图中说明6月17日发生了一个事件。 2. ars是超额收益率向量，因为我们的例子中把超额收益率区间定为 T 日前后各一天，因此 ars 共有三个元素。

9392 0

Linux指令入门-文本处理

word 重复前一个搜寻的动作 :n 从第一行到最后一行寻找word1字符串，并将该字符串取代为word2 :1,$s/word1/word2/g或 :%s/word1/word2/g 使用示例在本示例将使用...命令使用示例：构造两个相似的文件 echo -e '第一行\n第二行\n我是log1第3行\n第四行\n第五行\n第六行' > 1.log echo -e '第一行\n第二行\n我是log2第3行\n...使用diff查看两个文件的差异 ? 对比结果中的3c3表示两个文件在第3行有不同，5,6d4表示2.log文件相比1.log文件在第4行处开始少了1.log文件的第5和第6行。...接着处理下一行，这样不断重复，直到文件末尾。注意： sed命令不会修改原文件，例如删除命令只表示某些行不打印输出，而不是从原文件中删去。如果要改变源文件，需要使用-i选项。...默认情况下，awk会从输入中读取一行文本，然后针对该行的数据执行程序脚本，但有时可能需要在处理数据前运行一些脚本命令，这就需要使用BEGIN关键字，BEGIN会在awsk读取数据前强制执行该关键字后指定的脚本命令

3.7K2 0

R︱高效数据操作——data.table包（实战心得、dplyr对比、key灵活用法、数据合并）

网络上充斥的是data.table很好，很棒，性能棒之类的，但是从我实际使用来看，就得泼个水，网上博客都是拿一些简单的案例数据，但是实际数据结构很复杂的情况下，批量操作对于data.table编码来说，...data.table包的语法简洁，并且只需一行代码就可以完成很多事情。进一步地，data.table在某些情况下执行效率更高。...data.table中，还有一个比较特立独行的函数：使用:=引用来添加或更新一列（参考：R语言data.table速查手册） DT[, c("V1","V2") := list(round(exp(V1...2、on=""方式 DT[X, on="x"] 这里的on指的是DT变量中的变量名称，X还是按照key，如果没设置就会默认第一行为key。...在data.table行操作跟data.frame很像，可以data[1,]就可以获得第一行的数据，同时也可以用，data[1]来获得行信息，这个是data.table特有的。

9.3K4 3

35行代码搞定事件研究法（下）

注意 I，本代码主要使用data.table包完成，关于data.table包的相应知识会在涉及的时候进行讲解。在以后的课堂中，我们会重点介绍data.table这个包。...用data.table包处理多个事件日本期课堂的核心代码只有下面5行（应用了data.table包的语法）： > car <- event[, { > ns 的图）。请观察在上面这个抽象后的代码，大家应该可以看出我们对event数据集做了三件事情，具体分别为：选取event中所有的行（第一行代码）。...我们一行一行来看： ns <- which(event.flg == 1); 这一行代码的作用找到每个股票的所有事件日的序号 ns。大家应该还记得在上一讲中我们用 n 来表示单一事件日的序号吧？...do_car() 要求我们提供n, r, rm, date 四个参数，但是向量 ns 只能提供 n 这一个参数的值，因此我们需要用pryr包中的partial() 函数把剩下的几个变量补充完整（感谢pryr

1.2K4 0

【进阶】Next N rows when condition is TRUE

如果硬要翻译的话，大概就是“当某条件成立时，找到这个观测后N行的观测”。举个例子吧！ ? 在这个数据集中，我们希望每当condition=1时，就标记出它接下来的2行（这里N=2了）。...例如，在以上数据集第4行的condition是1，那么我们能够标记出第5行以及第6行。又由于第6行的分组从a变成了b，所以只有第5行被标记了出来。...具体小伙伴们一看desireOutcome的输出就明白了。看起来似乎无从下手？其实，要实现这一步只需要一行代码哦。附：生成样例数据集的文件： # dt是样例数据集，一共有15行。...步骤分解我们先把这一行优雅的代码放上来： dt[, desiredOutcome := Reduce('+', shift(condition, 0:2, fill = 0)), by = a] 现在我们逐一分析这一行代码...于是很自然的，如果我们能将这三个向量相加，那么所有符合要求的行就都是1，不符合的就都是0了。关键问题在于如果给我们一个list，使用什么方法能够把list的每个元素“一一对应”地加总呢？

5531 0

vi编辑器

快速移动光标：适合长距离快速移动光标在文件中位置的命令：G：跳转到文件的最后一行、G是go的第1个字母nG：跳转到文件的第n行 ------ n为自然数1、2、3等Ctrl+d：光标下移半屏幕、d是down...L(Low)：光标跳到屏幕最后一行 ------ 即最下面一行z：使(光标所在)当前行变为屏幕第1行vi的过滤功能：vi中可直接使用Linux命令，这就是vi所谓过滤功能(Filtering...查找和替代命令指定搜寻和替代的范围：不指定：仅为当前行n1，n2：从n1到n2行，其中n1和n2都是自然数1，$或%：整个文件.,.+n：从当前行到当前行加n行.,....-n：从当前行到当前行减n行间接读写文件操作：vi引入了一些同时编辑多个文件的命令，所有这些命令必须在扩展模式使用，常用读写不同文件的命令如下：:r dog:将名为dog的文件的内容读入到当前文件中，:...文件之间的切换：在使用vi同时编辑器(开启)多个文件时，还可以使用如下vi命令在不同文件之间进行切换：:n:从当前文件切换到下一个，n是next的第1个字母:rew:倒转到第1个文件、rew是rewind

2.9K4 0

R Tricks: 如何处理Gaps & Islands问题？

我们可以发现，第1至4行的时间是有重叠的，其中最早的起始时间是（2014-01-15 08:00:00），最晚的结束时间是（2014-01-15 11:00:00）。而第5与第6行的时间也有重叠。...）解题思路在解决本问题的过程中我们需要用到data.table包！...” 我们的思路很简单，分成四步： ▶ 将数据集按照ID与起始时间（stime）进行排序 ▶ 找到结束时间（etime）的累计最大值 ▶ 一旦完成以上两步，那么重叠的行即为当前结束时间（etime)累计最大值仍旧大于下一行的观测...上一行代码中，使用的关键函数是累计最大值函数cummax。此外，由于cummax不能直接处理日期格式，所以需要先将日期转化为数字进行比较，完了再转换回日期。...cumsum(stime[2:.N] > etime.max[1:(.N - 1)])表示如果当前行的stime比上一行的etime.max的值要大，那么返回TRUE，同时grp+1（我们用cumsum

1.1K2 0

Matt Dowle 演讲节选（二）

在这行代码中，B 的值来自于 DF 这个表，而不是 global environment。...Matt 还不满意，“如果我希望把上面代码得到的数据集按照population排列呢？难道还要另起一行？这样就生成太多无用的中间数据集了啊……”于是 Matt 心生一计：“把他们都串起来！”...[, v1 := i] # 1 s 上面两行代码做的都是同一件事：把变量v1从第1行到第1000行的值分别设置为1至1000。...这里的关键在于，在第一种方法中，每为新的一行赋值，data.table就要重新复制一遍DT，也就是说，第一种方法的运行过程中，DF被复制了1000遍！...这个用户一开始使用lapply和do.call函数，不仅计算时间很长（30 min！），而且代码特别难看： ? 而使用data.table,则简直是一阵春风： ?

1.1K4 0

Linux中查看日志文件的正确姿势，求你别tail走天下了！

表示向上查找，此时n会向上查找 N: 反向的重复前一个查找 g ：跳转到当前文件数据的第一行 G ：跳转到当前文件数据的最后一行 q ：退出当前文件的浏览范例演示 ?...选项与参数 -n ：查看后n行数据，注意当n后面值带“+”号表示从第x行开始，如 tail -n +1000 test.txt -f : 展示文件后面范例1：查看尾部5行数据【tail -n...通用命令管道：Shell 还有一种功能，就是可以将两个或者多个命令（程序或者进程）连接到一起，把一个命令的输出作为下一个命令的输入，以这种方式连接的两个或者多个命令就形成了管道（pipe），管道命令用...grep ：命令用于查找文件里符合条件的字符串，这两个命令也是linux中最常用的的，而在查看日志文件也通常会结合这两个命令一起使用。...范例：查看文件行数 wc -l 案例实战案例1：打印日志文件中第11到20行。思路：首先获取前20行，然后在获取20行的后10行即可，需要使用管道命令。

3.6K2 0

《高效R语言编程》6--高效数据木匠

用法是：gather(data,key,value，-religion),分别是数据框，要转换成分类的列名,单元值的列名和清除收集的变量使用seperate()分割联合变量分割是指将一个实际由两个变量组成的变量分割成两个独立列...与基本R中类似函数不同，变量无需使用 $ 操作符就可直接使用，设计与magrittr包的%>%管道操作符一起使用，以允许每个数据阶段写成新的一行。其是一个大型包，本身可以看成一门语言。...非标准计算代码中没有引号包裹的原始名字，这种方式叫做非标准计算（NSE），高效交互使用函数，减少键盘输入，允许Rstudio中自动完成。还是函数名多个_。...R会把所有数据加载到内存中，数据库是从硬盘中获取数据的。...数据库与dplyr 必须使用src_*()函数创建一个数据源。#　使用data.table()处理数据是dplyr的替代，两个哪个好存在争议，最好学一个一直坚持下去。

1.9K2 0

R语言大数据分析纽约市的311万条投诉统计可视化与时间序列分析

p=9800 ---- 介绍本文并不表示R在数据分析方面比Python更好或更快速，我本人每天都使用两种语言。这篇文章只是提供了比较这两种语言的机会。...关于dplyr 默认情况下，dplyr查询只会从数据库中提取前10行。...WHERE和IN过滤列中的多个值 ComplaintType Descriptor Agency Noise - Street/Sidewalk Loud Music/Party NYPD Noise...Noise - Street/Sidewalk Loud Music/Party NYPD Noise - Street/Sidewalk Loud Talking NYPD 在DISTINCT列中查找唯一值...在SQL数据库中创建一个新列，然后使用格式化的date语句重新插入数据创建一个新表并将格式化日期插入原始列名。

1.2K0 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

R语言数据分析利器data.table包 —— 数据框结构处理精讲

「R」数据操作（三）：高效的data.table

一个引号引发的血案（文本文件读取的小事故）

生信技能树 Day8 9 GEO数据挖掘基因芯片数据

R语言基因组数据分析可能会用到的data.table函数整理

手把手教你用R语言读取CSV文件

R练习50题 - 第一期

10行代码搞定【滚动回归】

「R」data.table 包功能特性学习

35行代码搞定事件研究法（上）

Linux指令入门-文本处理

R︱高效数据操作——data.table包（实战心得、dplyr对比、key灵活用法、数据合并）

35行代码搞定事件研究法（下）

【进阶】Next N rows when condition is TRUE

vi编辑器

R Tricks: 如何处理Gaps & Islands问题？

Matt Dowle 演讲节选（二）

Linux中查看日志文件的正确姿势，求你别tail走天下了！

《高效R语言编程》6--高效数据木匠

R语言大数据分析纽约市的311万条投诉统计可视化与时间序列分析

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐