如何根据多个条件提取data.table的值？_根据多个条件替换多个值_如何根据条件提取行？ - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

R语言与python对数据框的操作(对比笔记)

这篇主要比较R语言的data.talbe和python的pandas操作数据框的形式，学习两者的异同点，加深理解两者的使用方法。

02

R︱高效数据操作——data.table包（实战心得、dplyr对比、key灵活用法、数据合并）

由于业务中接触的数据量很大，于是不得不转战开始寻求数据操作的效率。于是，data.table这个包就可以很好的满足对大数据量的数据操作的需求。

04

您找到你想要的搜索结果了吗？

是的

没有找到

「Workshop」第五期：使用data.table操作数据

使用c("<name of col1>", "<name of col2>")和.(col1, col2)效果一样

05

「R」数据操作（三）：高效的data.table

data.table包提供了一个加强版的data.frame，它运行效率极高，而且能够处理适合内存的大数据集，它使用[]实现了一种自然地数据操作语法。使用下面命令进行安装：

02

一行代码搞定分组回归

在目前为止所有小伙伴们向大猫请教过的R问题中，大猫总结了最常遇见同时也是比较难的三个问题，分别是（1）事件研究法；（2）分组回归；（3）滚动回归。事件研究法在第一期中已经讲述，本期我们就来瞧瞧如何做分组回归~

04

TwoSampleMR实战教程之提取IV在结局中的信息

在读取完暴露文件并去除掉存在连锁不平衡的SNP后，我们接下来要做的一件事就是提取IV在结局中的信息，完成这一步主要有两种方法：

02

关于data.table中i, j, by都为数字的理解

本期还是由村长来为大家供稿，这期讲一个村长遇到的关于data.table比较有趣的问题，希望大家支持！！

03

🤑 qPCRtools | 神仙R包分分钟搞定你的qPCR实验结果！~

1写在前面不知道大家都是怎么完成qPCR的计算的，在不会R的时候，我是用一个祖传的Excel表进行计算的。🤣 但是，一直有个缺点，如果需要计算的量比较大时，就不方便了，去搜了一下文献，发现了一个最近发表的R包，不仅可以计算反转录的RNA体积，还可以帮助选择定量方法，简直是神仙R包，本期就介绍一下它的使用吧。🥰 感谢原作者的开发，嘿嘿，文末有引用方法。👀 2用到的包 rm(list = ls()) library(tidyverse) library(ggsci) library(qPCRtools) li

04

手把手教你用R语言读取CSV文件

读取CSV文件最好的方法是使用read.table函数，许多人喜欢使用read.csv函数，该函数其实是封装的read.table函数，同时设置read.table函数的sep参数为逗号(",")。read.table函数返回的结果为data.frame。

02

「R」从gtf文件中抽取基因id和name

参考文章http://www.bioinfo-scrounger.com/archives/342计算FPKM值，发现计算完每个基因下所有外显子的总长度后，记录的都是ENSEMBL gene id，而我需要的是symbol。奇怪的是GenomicFeatures既然把GTF文件读取进去了还抽取基因id了，但它就是不提供抽gene symbol的功能。

05

R语言：data.table语句批量生成变量

在上一期中，还记得我们留下的那个彩蛋吗？我们在对多列标准进行筛选时，在之前我们还进行了一步非常重要的提取，也就是将每一列观察值提取出某一特定的字段，而后生成一系列变量，这些变量的观测值只可能存在三种情况：醛固酮、继发性醛固酮或者NA。

02

R语言数据分析利器data.table包 —— 数据框结构处理精讲

R语言data.table包是自带包data.frame的升级版，用于数据框格式数据的处理，最大的特点快。包括两个方面，一方面是写的快，代码简洁，只要一行命令就可以完成诸多任务，另一方面是处理快，内部处理的步骤进行了程序上的优化，使用多线程，甚至很多函数是使用C写的，大大加快数据运行速度。因此，在对大数据处理上，使用data.table无疑具有极高的效率。这里我们主要讲的是它对数据框结构的快捷处理。

02

Matt Dowle 演讲节选（一）

Matt：“老子在给世界上最大的金融机构打工，你竟然说 BUG 修复要等6个月？！”

02

R练习50题 - 第一期

从这期开始，大猫课堂将会推出一个新的系列：R练习50题，目的是使用50道练习题让大家掌握常用的数据操作，例如寻找每组最大的N个观测等。本练习题来源于Renkun (github.com/renkun-ken/r-data-practice) 在Github上的共享，我们认为它包括了绝大多数实践中会遇到的问题，特别具有代表性。只可惜Renkun并没有提供答案，所以我们在这里提供我们的版本。

04

懒癌必备-dplyr和data.table让你的数据分析事半功倍

本文介绍了如何使用dplyr和data.table两个R包进行数据清洗、数据加工和数据分析，通过几个实际案例展示了dplyr和data.table的常用功能和高效操作。

07

35行代码搞定事件研究法（下）

Hello亲爱的小伙伴们，上期已经讲到如何对单一事件日计算超额收益，本期将会教大家如何针对多个股票多个事件日计算超额收益，Let's go!

04

5个例子比较Python Pandas 和R data.table

Python和R是数据科学生态系统中的两种主要语言。它们都提供了丰富的功能选择并且能够加速和改进数据科学工作流程。

03

R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)

大型数据集通常是高度结构化的，结构使得我们可以按不同的方式分组，有时候我们需要关注单个组的数据片断，有时需要聚合不同组内的信息，并相互比较。

03

[R包分享]aPEAR优雅绘制富集分析网络图

02

能不能让R按行处理数据？

Hello亲爱的小伙伴们，大猫课堂又回来啦。从今天开始大猫会选择一些Stackoverflow.com上有关R数据处理的问答摘录给大家。这些问题都是在平日的工作中有很高可能性出现并且看似容易实则让人抓狂的问题，在Stackoverflow上他们有着很高的人气。事实上，这些问题也就是你在“看懂一本R的教材”和“成为R大神”之间的距离。大猫除了进行翻译，也会在其中增加一些相关知识点，相信掌握了这些问题，一定会对你的研究工作大有裨益。

02

分析GSEA通路中的上下调基因

传统KEGG（通路富集分析）和GO（功能富集）分析时，如果富集到的同一通路下，既有上调差异基因，也有下调差异基因，那么这条通路总体的表现形式究竟是怎样？是被抑制还是激活？或者更直观点说，这条通路下的基因表达水平在实验处理后是上升了呢，还是下降了呢?由于没有采用有效的统计学手段去分析某条通路下的差异基因的总体变化趋势，这使得传统的富集分析结果无法回答这些问题。

03

RNA-seq入门实战（三）：在R里面整理表达量counts矩阵

连续两次求贤令：曾经我给你带来了十万用户，但现在祝你倒闭，以及生信技能树知识整理实习生招募，让我走大运结识了几位优秀小伙伴！大家开始根据我的ngs组学视频进行一系列公共数据集分析实战，其中几个小伙伴让我非常惊喜，不需要怎么沟通和指导，就默默的完成了一个实战！

04

导出Seurat对象中的单细胞表达矩阵

做单细胞数据分析的时候，我们经常会从公共数据库，或者从别人那里得到一个seurat对象，有些人可能想从这个seurat对象中提取原始的表达矩阵，自己再从头分析一遍。那么今天小编就讲讲怎么实现，我们以SeuratData这个包里面自带的pbmc3k这套数据为例。

02

R语言学习笔记之——数据处理神器data.table

数据处理在数据分析流程中的地位相信大家都有目共睹，也是每一个数据从业者面临的最为繁重的工作任务。在实际应用场景下，虽然SQL（SQL类专业的etl语言）是数据处理的首选明星语言，性能佳、效率高、容易培养数据思维，但是SQL没法处理构建全流程的数据任务，之后仍然需要借助其他数据分析工具来对接更为深入的分析任务。 R语言作为专业的统计计算语言，数据处理是其一大特色功能，事实上每一个处理任务在R语言中都有着不止一套解决方案（这通常也是初学者在入门R语言时，感觉内容太多无从下手的原因），当然这些不同方案确实存在

08

用data.table语句批量处理变量

本期“大猫R语言公众号”仍由“村长”供稿。村长继续为大家奉上data.table使用案例心得，希望大家能够继续支持村长！！

03

有些包卸载了就回不去了

最近接收到粉丝的求助，说她安装一个包data.table失败了，提示她R包data.table依赖于最新的4.0以上，所以被迫升级了R，结果仍然是搞不定它，又降级为3.6，折腾了三天三夜，仍然是折戟沉沙在包data.table上面。

03

R语言基础4(文件读写）

02

R语言：以多列标准筛选特定行

在本期，我们会运用一个病例数据为大家进行讲解示范，这也是大猫课堂第一次针对阅读者提问进行的反馈，也希望大家能提供一些有趣的问题，来和我们一起分享，同时也感谢读者孤鹜惜秋，与我们分享其问题。话不多说，马上进入正题。

04

生信马拉松 Day5

比较能正确运行的数据和出错的数据，可能出现的情况有：异常值INF，重复值、非法输入、数据类型、数据结构

00

R语言基因组数据分析可能会用到的data.table函数整理

R语言data.table包是自带包data.frame的升级版，用于数据框格式数据的处理，最大的特点快。包括两个方面，一方面是写的快，代码简洁，只要一行命令就可以完成诸多任务，另一方面是处理快，内部处理的步骤进行了程序上的优化，使用多线程，甚至很多函数是使用C写的，大大加快数据运行速度。因此，在对大数据处理上，使用data.table无疑具有极高的效率。这里主要介绍在基因组数据分析中可能会用到的函数。

01

R海拾遗--data.table初级学习

data.table对于大数据的数据整理较为便捷，很多的时候比data.frame效率更高，一般情况下结合管道符号进行计算

03

如何获得FPKM/RPKM计算需要的基因长度（考虑exon之间的overlap）

这里我们跟Cufflinks的原理一致，使用总的外显子长度，并且去除过多的重叠的外显子的部分。使用R语言,输入为基因的GTF文件

02

GWAS分析中SNP解释百分比PVE | 第二篇，GLM模型中如何计算PVE？

GAPIT软件安装，见：如何安装GAPIT软件：https://zhuanlan.zhihu.com/p/268327005

02

《高效R语言编程》6--高效数据木匠

将你的数据整理好是一个可敬的、某些情况下是至关重要的技能，所以作者使用了数据木匠这个词。这是本书最重要的一章，将涉及以下内容：

02

Matt Dowle 演讲节选（二）

也许很多小伙伴都注意到了，这一期的文章和往期的排版有所不同，因为从这一期开始，大猫将使用markdown来进行写作，并在最后用css来进行渲染输出。原来大猫使用的是秀米等富文本编辑器，最然可以实现很花哨的效果，但是每次编辑的时间可能都比写作的时间长，而且富文本编辑器对于代码块的支持极弱，语法高亮没有就算了，但是代码块无法水平滚动就不能忍。相比之下，markdown不仅对于代码有着先天的支持，而且只要在第一次设定好css，以后每次编辑的时间几乎为零，直接复制粘贴到公众号平台就可以渲染出非常漂亮的网页，简直美滋滋！

04

文件的读写20230204

d）R语言 >read.csv(" ") 注意文件的位置，选择相对路径还是绝对路径

V5版seurat读取不同格式单细胞数据

在23年3月份的时候（下意识想说今年了hhh，恍然发现已经24年），菜鸟团作者就整理过不同格式的单细胞数据读取的方法，是基于V4版本的。

02

R练习50题 - 第二期

今天我们继续做题，由于整个题目按照从易到难排列，所以今天的题目并不会很难。先看一下预览：

02

获取基因有效长度的N种方法

最近有粉丝自告奋勇希望可以把他自己在简书等平台的生物信息学笔记分享在我们生信技能树公众号，在专业的舞台上跟大家切磋！

01

使用TASSEL学习GWAS笔记（6/6）：TASSEL结果可视化：QQ plot，曼哈顿图

TASSEL有对结果进行可视化的模块，包括qq图和曼哈顿图，但是图不方便调整。这里用TASSEL的分析结果，使用R语言进行绘制qq图和曼哈顿图。

01

使用TASSEL学习GWAS笔记（1-6）完整版

TASSEL有对结果进行可视化的模块，包括qq图和曼哈顿图，但是图不方便调整。这里用TASSEL的分析结果，使用R语言进行绘制qq图和曼哈顿图。

01

文本情感分析：特征提取（TFIDF指标）&随机森林模型实现

作者：Matt 自然语言处理实习生 http://blog.csdn.net/sinat__26917383/article/details/51302425 笔者寄语：本文大多内容来自未出版的《数据挖掘之道：基于R的实战之旅》的情感分析章节。本书中总结情感分析算法主要分为两种：词典型+监督算法型。监督算法型主要分别以下几个步骤：构建训练+测试集+特征提取（TFIDF指标）+算法模型+K层交叉验证。基于监督算法的情感分析存在着以下几个问题：（1）准确率而言，基于算法的方法还有待提高，而目前的算

04

说好的内参基因稳定不变呢？它确差异表达了吗？

最近安排学徒做文献图表复现，其中一个表达量芯片和测序项目都是同样的处理和对照，所以让学徒做一下这两个表达矩阵的差异分析，比较一下不同技术是否有比较好的吻合。其中测序是：https://www.ncb

03

生信技能树 Day5 文件读写

注意：一定要经常检查数据，注意读取之后是数据框还是矩阵，取完列里面是数值还是字符，处理完是什么类型等等

01

R语言︱情感分析—基于监督算法R语言实现（二）

版权声明：博主原创文章，微信公众号：素质云笔记,转载请注明来源“素质云博客”，谢谢合作！！ https://blog.csdn.net/sinat_26917383/article/details/51302425

02

开发ETL为什么很多人用R不用Python

ETL在数据工作中起着至关重要的作用，主要用途有两个：（1）数据生产（2）为探索性数据分析与数据建模服务。

03

20231220-简单文件格式读取

修改办法 read.table("x.txt",**header=T**)增加默认参数

01

R数据框如何取交集

有小伙伴拿自己的数据试了一下，反馈预测结果太多了。一般对于多个数据库或者多个软件预测的结果，可以通过取交集来提高预测结果的可信度，并且这样也能大大减少最后预测结果的数目。

02

rio极简数据导入教程

现在rio包支持读取multi object的文件例如(Excel workbook, .Rdata file, zip directory, or HTML file)

02

好强一个Julia！CSV数据读取，性能最高多出R、Python 22倍

不过，Julia自2009年出现以来，凭借其速度、性能、易用性及语言的互操性等优势，已然掀起一股全新的浪潮。

06

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭