在data.table中删除未使用的因子级别_ggplot:如何从facet中删除未使用的因子级别？_使用dplyr过滤数据帧后，从因子中删除未使用的级别 - 腾讯云开发者社区

R语言data.table包是自带包data.frame的升级版，用于数据框格式数据的处理，最大的特点快。包括两个方面，一方面是写的快，代码简洁，只要一行命令就可以完成诸多任务，另一方面是处理快，内部处理的步骤进行了程序上的优化，使用多线程，甚至很多函数是使用C写的，大大加快数据运行速度。因此，在对大数据处理上，使用data.table无疑具有极高的效率。这里我们主要讲的是它对数据框结构的快捷处理。

R︱高效数据操作——data.table包（实战心得、dplyr对比、key灵活用法、数据合并）

由于业务中接触的数据量很大，于是不得不转战开始寻求数据操作的效率。于是，data.table这个包就可以很好的满足对大数据量的数据操作的需求。

您找到你想要的搜索结果了吗？

是的

没有找到

R语言︱情感分析—基于监督算法R语言实现（二）

Matt Dowle 演讲节选（二）

也许很多小伙伴都注意到了，这一期的文章和往期的排版有所不同，因为从这一期开始，大猫将使用markdown来进行写作，并在最后用css来进行渲染输出。原来大猫使用的是秀米等富文本编辑器，最然可以实现很花哨的效果，但是每次编辑的时间可能都比写作的时间长，而且富文本编辑器对于代码块的支持极弱，语法高亮没有就算了，但是代码块无法水平滚动就不能忍。相比之下，markdown不仅对于代码有着先天的支持，而且只要在第一次设定好css，以后每次编辑的时间几乎为零，直接复制粘贴到公众号平台就可以渲染出非常漂亮的网页，简直美滋滋！

「Workshop」第五期：使用data.table操作数据

使用c("<name of col1>", "<name of col2>")和.(col1, col2)效果一样

R语言处理一个巨大的数据集，而且超出了计算机的内存限制

使用R编程处理一个超出计算机内存限制的巨大数据集时，可以采用以下策略（其他编程语言同理）：

泛癌水平的批量生存分析

都是依据肿瘤病人的转录组测序表达量矩阵进行的分析，也有几百篇类似的数据挖掘文章了，它们总是喜欢落脚到estimate或者CIBERSORT结果的预后意义。但是实际上我们也代码演示了：estimate或者CIBERSORT结果真的是很好的临床预后指标吗，这样做风险很大，后面留了一个思考题，就是CIBERSORT的22种免疫细胞比例的生存意义的全部癌症的探索，呼应我们的主题《泛癌水平的批量生存分析》。

RNA-seq入门实战（三）：在R里面整理表达量counts矩阵

连续两次求贤令：曾经我给你带来了十万用户，但现在祝你倒闭，以及生信技能树知识整理实习生招募，让我走大运结识了几位优秀小伙伴！大家开始根据我的ngs组学视频进行一系列公共数据集分析实战，其中几个小伙伴让我非常惊喜，不需要怎么沟通和指导，就默默的完成了一个实战！

笔记 GWAS 操作流程6-2：手动计算GWAS分析中的GLM和Logistic模型

表型数据如果只有一个，可以放在plink文件的ped数据的第六列，也可以单独拉出来：

《高效R语言编程》5-高效输入输出

在读取一行数据之前，应该先考虑下重复数据管理的通用规则，不改写原始数据。原始文件视为只读，保留原始文件名字并说明来源，是一个好办法。

PRS多基因评分教程学习笔记(二）

之前学习了Base Data质控过程，下面继续，最近一直没有开启博客写作，十月将过，加紧补点。

「R」数据操作（三）：高效的data.table

data.table包提供了一个加强版的data.frame，它运行效率极高，而且能够处理适合内存的大数据集，它使用[]实现了一种自然地数据操作语法。使用下面命令进行安装：

生信马拉松 Day9-10 GEO数据分析笔记

今天正式开始教画图了，具体的代码其实挺多地方讲到了，上课的好处就是可以听到很多细节和经验，是自己零散地找资料不能相比的，收获很多，感觉要全部吞下来还要再复习几遍

mlr3_建立task

使用mtcars数据集，建立一个回归任务，使用两个特征预测目标变量mpg（每公里油耗）的值

「R」data.table 包功能特性学习

data.table包提供了一个加强版的data.frame。它运行效率极高，而且能够处理适合内存的大数据集。它通过[ ]实现了一种自然的数据操作语法。

小鼠急性肾损伤AKI模型的单细胞分析

文章标题：《Single-Cell Profiling of AKI in a Murine Model Reveals Novel Transcriptional Signatures, Profibrotic Phenotype, and Epithelial-to-Stromal Crosstalk》

经验总结 | 最有效的R学习路径（一）

在小伙伴问大猫的所有关于R的问题中，“如何最快学R”应该是呼声最高的话题了。以前大猫曾经把自己的经验总结成一篇万字长文发在人大经济论坛中，但是由于篇幅太长，很少有小伙伴有时间看完。从今天开始，大猫会陆续把原来的这篇心得经过提炼后发出来，同时还会增加一些新的内容。

癌基因都是肿瘤的风险因子吗

同理，我们会问另外一个问题，就是癌基因都是肿瘤的风险因子吗，它高表达会导致癌症比如死的越来越快吗？反之，抑癌基因一定是肿瘤的保护因子吗，它表达量越高癌症病人越受到保护吗，因为想当然的我们会认为抑癌基因能抑制癌症嘛，所以它表达量越高越好。

5个例子比较Python Pandas 和R data.table

Python和R是数据科学生态系统中的两种主要语言。它们都提供了丰富的功能选择并且能够加速和改进数据科学工作流程。

GWAS软件：GAPIT+GEMMA+GCTA如何计算PVE？

这里，分享一下常用GWAS软件，比如GAPIT，GEMMA，GCTA是如何计算显著SNP解释百分比（PVE）的。

作者为什么要上传一个错误的表达量矩阵呢

凭我对他的了解，他肯定是提问的方式就是错误的，写一段自己的”感悟“，其实完全没必要，我也压根不会看他给出来的这些“长篇大论” ：

R练习50题 - 第一期

从这期开始，大猫课堂将会推出一个新的系列：R练习50题，目的是使用50道练习题让大家掌握常用的数据操作，例如寻找每组最大的N个观测等。本练习题来源于Renkun (github.com/renkun-ken/r-data-practice) 在Github上的共享，我们认为它包括了绝大多数实践中会遇到的问题，特别具有代表性。只可惜Renkun并没有提供答案，所以我们在这里提供我们的版本。

懒癌必备-dplyr和data.table让你的数据分析事半功倍

本文介绍了如何使用dplyr和data.table两个R包进行数据清洗、数据加工和数据分析，通过几个实际案例展示了dplyr和data.table的常用功能和高效操作。

栾生老师 || 线性混合效应模型教程

学习线性混合效应模型（Linear Mixed Effects Model，LMM）最好的方法，是一边学习理论，一边动手实践，这样印象最为深刻。本文参考了Bodo Winter博士的教程Linear models and linear mixed effects models in R教程1教程2的结构。

基于data.table的“tidyverse”？

tidyverse作为R语言数据分析中的瑞士军刀，非常好用，一个小小的缺点就是速度慢，data.table速度快，所以他们团队又开发了dtplyr，加快运行速度。

深入对比数据科学工具箱：Python和R之争

在真实的数据科学世界里，我们会有两个极端，一个是业务，一个是工程。偏向业务的数据科学被称为数据分析（Data Analysis），也就是A型数据科学。偏向工程的数据科学被称为数据构建(Data Building)，也就是B型数据科学。从工具上来看，按由业务到工程的顺序，这个两条是：EXCEL >> R >> Python >> Scala 在实际工作中，对于小数据集的简单分析来说，使用EXCEL绝对是最佳选择。当我们需要更多复杂的统计分析和数据处理时，我们就需要转移到 Python和R上。在确定工程实施和大数据集操作时，我们就需要依赖Scala 的静态类型等工程方法构建完整的数据分析系统。 Scala和Excel是两个极端，对于大多数创业公司而言，我们没有足够多的人手来实现专业化的分工，更多情况下，我们会在Python和R上花费更多的时间同时完成数据分析（A型）和数据构建（B型）的工作。而许多人也对 Python和R的交叉使用存在疑惑，所以本文将从实践角度对Python和R中做了一个详细的比较。

monocle2轨迹分析

所以要从bdata获得pd，adata.var作为fd，adata.X作为count信息

「r」dplyr 里的 join 与 base 里的 merge 存在差异

今天在使用连接操作时发现：虽然都是合并操作函数，dplyr 包里的 *_join() 和基础包里面的 merge() 存在差异，不同的数据结构，结果也会存在偏差。

R语言学习笔记之——数据处理神器data.table

数据处理在数据分析流程中的地位相信大家都有目共睹，也是每一个数据从业者面临的最为繁重的工作任务。在实际应用场景下，虽然SQL（SQL类专业的etl语言）是数据处理的首选明星语言，性能佳、效率高、容易培养数据思维，但是SQL没法处理构建全流程的数据任务，之后仍然需要借助其他数据分析工具来对接更为深入的分析任务。 R语言作为专业的统计计算语言，数据处理是其一大特色功能，事实上每一个处理任务在R语言中都有着不止一套解决方案（这通常也是初学者在入门R语言时，感觉内容太多无从下手的原因），当然这些不同方案确实存在

获取基因有效长度的N种方法

最近有粉丝自告奋勇希望可以把他自己在简书等平台的生物信息学笔记分享在我们生信技能树公众号，在专业的舞台上跟大家切磋！

GWAS计算BLUE值3--LMM考虑残差异质计算BLUE值

本节，介绍如何使用R语言的asreml包拟合混合线性模型，定义残差异质，计算最佳线性无偏估计（blue）

R数据科学整洁之道：使用dtplyr处理大文件

有群友问如果文件比较大，读入 R 比较慢怎么办？我告诉他用 data.table 包的 fread 读取。

R海拾遗--data.table初级学习

data.table对于大数据的数据整理较为便捷，很多的时候比data.frame效率更高，一般情况下结合管道符号进行计算

data.table包使用应该注意的一些细节

注意默认nThread=getDTthreads()，即使用所有能用的核心，但并不是核心用的越多越好，本人亲自测试的情况下，其实单核具有较强的性能，只有在数据大于3Gb的情况下，开启10核（我的机器全部核心30多核）效率才比一个核心更高，而默认使用全部的核心效率一直非常低。因此对于不是非常巨大的文件，建议设置为1，不要使用全部核心

能不能让R按行处理数据？

Hello亲爱的小伙伴们，大猫课堂又回来啦。从今天开始大猫会选择一些Stackoverflow.com上有关R数据处理的问答摘录给大家。这些问题都是在平日的工作中有很高可能性出现并且看似容易实则让人抓狂的问题，在Stackoverflow上他们有着很高的人气。事实上，这些问题也就是你在“看懂一本R的教材”和“成为R大神”之间的距离。大猫除了进行翻译，也会在其中增加一些相关知识点，相信掌握了这些问题，一定会对你的研究工作大有裨益。

GWAS分析中SNP解释百分比PVE | 第四篇，MLM模型中如何手动计算PVE？

GWAS分析中SNP解释百分比PVE | 第四篇，MLM模型中如何手动计算PVE？ #2021.12.25

完成任意癌症的任意基因突变与否分组后的转录组测序的差异分析

如何找到somatic的突变信息的maf文件，仍然是从UCSC的XENA浏览器里面选择NSCLC的里面的LUAD数据集即可，这个是网页里面的鼠标点击操作。值得注意的是网页里面关于同一个癌症有两个跳转链接哦（其中一个带有GDC的前缀）：

有些包卸载了就回不去了

最近接收到粉丝的求助，说她安装一个包data.table失败了，提示她R包data.table依赖于最新的4.0以上，所以被迫升级了R，结果仍然是搞不定它，又降级为3.6，折腾了三天三夜，仍然是折戟沉沙在包data.table上面。

用data.table语句批量处理变量

本期“大猫R语言公众号”仍由“村长”供稿。村长继续为大家奉上data.table使用案例心得，希望大家能够继续支持村长！！

data.table包不讲武德，欺负老实人

事情是这个样子的，今天上午，高高兴兴的写代码，把data.table放到循环里面，批量读取文件，批量赋值，写完运行后发现结果是错误的，查看Warning发现是类型不一致，就这个问题记录了一下。希望对后来者有帮助。

edgebundleR一行代码优雅的绘制网络图

cutoff: 边捆绑的阈值参数，控制捆绑边的密度。较低的值会产生更多的捆绑边，而较高的值会产生较少的捆绑边。这里设置为 0.5。

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐