在R中使用data.table在组中进行条件过滤_在r data.table中查找重复组_在R data.table中按组修剪均值 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

5个例子比较Python Pandas 和R data.table

Python和R是数据科学生态系统中的两种主要语言。它们都提供了丰富的功能选择并且能够加速和改进数据科学工作流程。

03

懒癌必备-dplyr和data.table让你的数据分析事半功倍

本文介绍了如何使用dplyr和data.table两个R包进行数据清洗、数据加工和数据分析，通过几个实际案例展示了dplyr和data.table的常用功能和高效操作。

07

您找到你想要的搜索结果了吗？

是的

没有找到

R︱高效数据操作——data.table包（实战心得、dplyr对比、key灵活用法、数据合并）

由于业务中接触的数据量很大，于是不得不转战开始寻求数据操作的效率。于是，data.table这个包就可以很好的满足对大数据量的数据操作的需求。

04

R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)

大型数据集通常是高度结构化的，结构使得我们可以按不同的方式分组，有时候我们需要关注单个组的数据片断，有时需要聚合不同组内的信息，并相互比较。

03

R海拾遗--data.table初级学习

data.table对于大数据的数据整理较为便捷，很多的时候比data.frame效率更高，一般情况下结合管道符号进行计算

03

R练习50题 - 第一期

从这期开始，大猫课堂将会推出一个新的系列：R练习50题，目的是使用50道练习题让大家掌握常用的数据操作，例如寻找每组最大的N个观测等。本练习题来源于Renkun (github.com/renkun-ken/r-data-practice) 在Github上的共享，我们认为它包括了绝大多数实践中会遇到的问题，特别具有代表性。只可惜Renkun并没有提供答案，所以我们在这里提供我们的版本。

04

R语言学习笔记之——数据处理神器data.table

数据处理在数据分析流程中的地位相信大家都有目共睹，也是每一个数据从业者面临的最为繁重的工作任务。在实际应用场景下，虽然SQL（SQL类专业的etl语言）是数据处理的首选明星语言，性能佳、效率高、容易培养数据思维，但是SQL没法处理构建全流程的数据任务，之后仍然需要借助其他数据分析工具来对接更为深入的分析任务。 R语言作为专业的统计计算语言，数据处理是其一大特色功能，事实上每一个处理任务在R语言中都有着不止一套解决方案（这通常也是初学者在入门R语言时，感觉内容太多无从下手的原因），当然这些不同方案确实存在

08

一行代码搞定分组回归

在目前为止所有小伙伴们向大猫请教过的R问题中，大猫总结了最常遇见同时也是比较难的三个问题，分别是（1）事件研究法；（2）分组回归；（3）滚动回归。事件研究法在第一期中已经讲述，本期我们就来瞧瞧如何做分组回归~

04

「R」数据操作（三）：高效的data.table

data.table包提供了一个加强版的data.frame，它运行效率极高，而且能够处理适合内存的大数据集，它使用[]实现了一种自然地数据操作语法。使用下面命令进行安装：

02

有些包卸载了就回不去了

最近接收到粉丝的求助，说她安装一个包data.table失败了，提示她R包data.table依赖于最新的4.0以上，所以被迫升级了R，结果仍然是搞不定它，又降级为3.6，折腾了三天三夜，仍然是折戟沉沙在包data.table上面。

03

R语言与python对数据框的操作(对比笔记)

这篇主要比较R语言的data.talbe和python的pandas操作数据框的形式，学习两者的异同点，加深理解两者的使用方法。

02

多基因风险评分（PRS）分析教程

多基因风险评分（Polygenic Risk Score）分析过程概览。PRS 分析需要两个输入数据集：i）base data（GWAS）：全基因组范围内遗传变异的基因型-表型关联的摘要统计信息（例如 beta，P值）；ii）target data：目标样本中个体的基因型和表型。基于 base data 得到的 SNP 效应值计算 target data 中样本的 PRS。

04

450K芯片上面的甲基化探针到底需要进行哪些过滤

比如发表在Mol Cancer Res 2016 Sep 的文献 A Minimal DNA Methylation Signature in Oral Tongue Squamous Cell Carcinoma Links Altered Methylation with Tumor Attributes.里面居然特意去把450K芯片的45万个探针的碱基序列，拿去比对，然后过滤了近2万个不能唯一比对到参考基因组的探针。

02

128-R茶话会21-R读取及处理大数据

最近要处理一个100K*1M 左右大小的矩阵，这个矩阵的行为病人记录，列则是每个突变位点的突变信息，记录为0,1,2。

02

RNA-seq入门实战（三）：在R里面整理表达量counts矩阵

连续两次求贤令：曾经我给你带来了十万用户，但现在祝你倒闭，以及生信技能树知识整理实习生招募，让我走大运结识了几位优秀小伙伴！大家开始根据我的ngs组学视频进行一系列公共数据集分析实战，其中几个小伙伴让我非常惊喜，不需要怎么沟通和指导，就默默的完成了一个实战！

04

PRS多基因评分教程学习笔记(二）

之前学习了Base Data质控过程，下面继续，最近一直没有开启博客写作，十月将过，加紧补点。

03

V5版seurat读取不同格式单细胞数据

在23年3月份的时候（下意识想说今年了hhh，恍然发现已经24年），菜鸟团作者就整理过不同格式的单细胞数据读取的方法，是基于V4版本的。

02

R语言基因组数据分析可能会用到的data.table函数整理

R语言data.table包是自带包data.frame的升级版，用于数据框格式数据的处理，最大的特点快。包括两个方面，一方面是写的快，代码简洁，只要一行命令就可以完成诸多任务，另一方面是处理快，内部处理的步骤进行了程序上的优化，使用多线程，甚至很多函数是使用C写的，大大加快数据运行速度。因此，在对大数据处理上，使用data.table无疑具有极高的效率。这里主要介绍在基因组数据分析中可能会用到的函数。

01

如何在CDSW中使用R绘制直方图

Cloudera的新产品CDSW（Cloudera Data Science Workbench）集成了R、Scala、Python2、Python3等语言进行统计和数据分析。本文档主要讲述如何在CDSW中使用R语言绘制直方图和饼图，并使用Hive数仓作为数据源。

R语言入门之数据的导入和导出

在我们平时的研究工作中，经常使用的是逗号分隔文件（.csv文件）、制表符分隔文件（.tsv文件）和空格分隔文件（.txt文件）。当然对于一些基因组文件或者其它格式的文件，各自有各自的特点，原则上R语言可以读取任何格式的文件，只需掌握基本的读取文件方法后按照不同特点调整参数即可。

04

「Workshop」第五期：使用data.table操作数据

使用c("<name of col1>", "<name of col2>")和.(col1, col2)效果一样

05

数据流编程教程：R语言与DataFrame

DataFrame DataFrame 是一个表格或者类似二维数组的结构，它的各行表示一个实例，各列表示一个变量。一. DataFrame数据流编程二. 数据读取 readr/httr/DBI 1

如何用R进行中文分词？

Hello亲耐的小伙伴们！新一期的大猫课堂又和大家见面了。针对前几期课程，不少童鞋向大猫提出了一些非常好的建议，例如：把需要用到的包明确写出来，中间过程不要省略，增加一些基础知识的讲解等。大猫在这里由衷感谢所有提出建议的小伙伴们，同时向上几期的不尽人意之处表示歉意，我会继续努力哒！

01

经验总结 | 最有效的R学习路径（一）

在小伙伴问大猫的所有关于R的问题中，“如何最快学R”应该是呼声最高的话题了。以前大猫曾经把自己的经验总结成一篇万字长文发在人大经济论坛中，但是由于篇幅太长，很少有小伙伴有时间看完。从今天开始，大猫会陆续把原来的这篇心得经过提炼后发出来，同时还会增加一些新的内容。

02

将基因组数据分类并写出文件，python，awk，R data.table速度PK

由于基因组数据过大，想进一步用R语言处理担心系统内存不够，因此想着将文件按染色体拆分，发现python，awk，R 语言都能够非常简单快捷的实现，那么速度是否有差距呢，因此在跑几个50G的大文件之前，先用了244MB的数据对各个脚本进行测试，并且将其速度进行对比。首先是awk处理，awk进行的是逐行处理，具有自己的语法，具有很大的灵活性，一行代码解决，用时24S， 1 #!/usr/bin/sh 2 function main() 3 { 4 start_tm=date 5 start_

04

生信技能树——GEO转录组RNA_seq_GSE162550

和生信技能树GEO转录组“GSE150392“分析类似，唯一区别就是在数据处理和ID转换这一环节略微有区别

04

「r」dplyr 里的 join 与 base 里的 merge 存在差异

今天在使用连接操作时发现：虽然都是合并操作函数，dplyr 包里的 *_join() 和基础包里面的 merge() 存在差异，不同的数据结构，结果也会存在偏差。

03

TwoSampleMR实战教程之提取IV在结局中的信息

在读取完暴露文件并去除掉存在连锁不平衡的SNP后，我们接下来要做的一件事就是提取IV在结局中的信息，完成这一步主要有两种方法：

02

RUNX1在B前体急性白血病细胞中的过表达(readMM函数活学活用)

接下来就可以读取它们啦，有意思的是每个样品都需要独立的读取3个文件，合并成为一个单细胞Seurat对象，操作技巧满满！

01

R语言实现对基因组SNV进行注释

很多时候，我们需要对取出的SNV进行注释，这个时候可能会在R上进行注释，通常注释文件都含有Chr(染色体)、Start(开始位点)、End(结束位点)、Description（描述），而我们的SNV文件通常是拥有Position（位置），因此我们可以先定位Chr，再用Postion去定位到Start和End之间，找到相对应的Description。为了加快速度，可以使用二分查找法。 1 for (value in dt$value){ 2 #df:data.frame, V1 and V2 sh

06

R语言：以多列标准筛选特定行

在本期，我们会运用一个病例数据为大家进行讲解示范，这也是大猫课堂第一次针对阅读者提问进行的反馈，也希望大家能提供一些有趣的问题，来和我们一起分享，同时也感谢读者孤鹜惜秋，与我们分享其问题。话不多说，马上进入正题。

04

转录组测序结果分析

#没有任何提示就是成功了，如果有warningxx包不存在，用library检查一下。

02

R语言数据分析利器data.table包 —— 数据框结构处理精讲

R语言data.table包是自带包data.frame的升级版，用于数据框格式数据的处理，最大的特点快。包括两个方面，一方面是写的快，代码简洁，只要一行命令就可以完成诸多任务，另一方面是处理快，内部处理的步骤进行了程序上的优化，使用多线程，甚至很多函数是使用C写的，大大加快数据运行速度。因此，在对大数据处理上，使用data.table无疑具有极高的效率。这里我们主要讲的是它对数据框结构的快捷处理。

02

代谢组学无非也是差异分析和富集分析

我们以一篇2019年的CELL杂志的文章为例，标题：《Stress-Induced Metabolic Disorder in Peripheral CD4+ T Cells Leads to Anxiety-like Behavior》，链接是：https://pubmed.ncbi.nlm.nih.gov/31675497/

02

Matt Dowle 演讲节选（二）

也许很多小伙伴都注意到了，这一期的文章和往期的排版有所不同，因为从这一期开始，大猫将使用markdown来进行写作，并在最后用css来进行渲染输出。原来大猫使用的是秀米等富文本编辑器，最然可以实现很花哨的效果，但是每次编辑的时间可能都比写作的时间长，而且富文本编辑器对于代码块的支持极弱，语法高亮没有就算了，但是代码块无法水平滚动就不能忍。相比之下，markdown不仅对于代码有着先天的支持，而且只要在第一次设定好css，以后每次编辑的时间几乎为零，直接复制粘贴到公众号平台就可以渲染出非常漂亮的网页，简直美滋滋！

04

10行代码搞定【滚动回归】

对于任意一天t，在[t - n, t]的区间内进行回归。如果数据一共有N天，那么就会得到N - n个数据点

02

ShinyCell：随手画出细胞比例图，不会单细胞分析的小白也可以做可视化分析

鉴于有些读者对单细胞分析还不是很熟练，但是又想要看单细胞数据里某个基因的表达，或者某种细胞的分组比例，或者画umap图、画小提琴图....

01

35行代码搞定事件研究法（下）

Hello亲爱的小伙伴们，上期已经讲到如何对单一事件日计算超额收益，本期将会教大家如何针对多个股票多个事件日计算超额收益，Let's go!

04

R语言tryCatch使用方法：判断Warning和Error

R中判断warning和error状态的函数，我没有找到。一个玩Java的同事说，try.....catch多经典的方法，你怎么不用呢？

07

如果你的单细胞表达量矩阵并不是传统基因名字为单位

发现是因为里面的基因名字问题，目前人类基因的命名体系主要包括 Ensembl、Gene Symbol 和 RefSeq。这些体系都是用于标识和命名基因的，是可以互相转换的：

01

R语言高级数据结构data.table

对于data.frame大家应该很熟悉，它可以存储不同数据类型的向量数据。今天给大家介绍一个升级版的data.frame，其不仅可以存储不同数据类型还可以进行多列的并行运算。包的安装我们就不再赘述了（install.packages(“data.table”)）。

03

能不能让R按行处理数据？

Hello亲爱的小伙伴们，大猫课堂又回来啦。从今天开始大猫会选择一些Stackoverflow.com上有关R数据处理的问答摘录给大家。这些问题都是在平日的工作中有很高可能性出现并且看似容易实则让人抓狂的问题，在Stackoverflow上他们有着很高的人气。事实上，这些问题也就是你在“看懂一本R的教材”和“成为R大神”之间的距离。大猫除了进行翻译，也会在其中增加一些相关知识点，相信掌握了这些问题，一定会对你的研究工作大有裨益。

02

R语言tryCatch使用方法：判断Warning和Error

R中判断warning和error状态的函数，我没有找到。一个玩Java的同事说，try.....catch多经典的方法，你怎么不用呢？

02

R语言大数据分析纽约市的311万条投诉统计可视化与时间序列分析

本文并不表示R在数据分析方面比Python更好或更快速，我本人每天都使用两种语言。这篇文章只是提供了比较这两种语言的机会。

00

十、文件读写

4) R语言读取（表格文件读入到R语言里时，就得到了一个数据框，对数据框的修改不会同步到表格文件。

04

用data.table语句批量处理变量

本期“大猫R语言公众号”仍由“村长”供稿。村长继续为大家奉上data.table使用案例心得，希望大家能够继续支持村长！！

03

🤑 qPCRtools | 神仙R包分分钟搞定你的qPCR实验结果！~

1写在前面不知道大家都是怎么完成qPCR的计算的，在不会R的时候，我是用一个祖传的Excel表进行计算的。🤣 但是，一直有个缺点，如果需要计算的量比较大时，就不方便了，去搜了一下文献，发现了一个最近发表的R包，不仅可以计算反转录的RNA体积，还可以帮助选择定量方法，简直是神仙R包，本期就介绍一下它的使用吧。🥰 感谢原作者的开发，嘿嘿，文末有引用方法。👀 2用到的包 rm(list = ls()) library(tidyverse) library(ggsci) library(qPCRtools) li

04

开发ETL为什么很多人用R不用Python

ETL在数据工作中起着至关重要的作用，主要用途有两个：（1）数据生产（2）为探索性数据分析与数据建模服务。

03

理解并行计算：r future为什么会启动比workers多得多的线程？

r的future包提供了一种实现多线程并行计算的接口，但有时候在使用时，我发现r启动了比我设定的多得多的计算资源。

02

R练习50题 - 第二期

今天我们继续做题，由于整个题目按照从易到难排列，所以今天的题目并不会很难。先看一下预览：

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭