创建一个同时支持带引号和未带引号的参数的函数(使用data.table)，然后在purrr::map (或lapply)中工作 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

「r」dplyr 里的 join 与 base 里的 merge 存在差异

今天在使用连接操作时发现：虽然都是合并操作函数，dplyr 包里的 *_join() 和基础包里面的 merge() 存在差异，不同的数据结构，结果也会存在偏差。

03

数据流编程教程：R语言与DataFrame

DataFrame DataFrame 是一个表格或者类似二维数组的结构，它的各行表示一个实例，各列表示一个变量。一. DataFrame数据流编程二. 数据读取 readr/httr/DBI 1

您找到你想要的搜索结果了吗？

是的

没有找到

R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)

大型数据集通常是高度结构化的，结构使得我们可以按不同的方式分组，有时候我们需要关注单个组的数据片断，有时需要聚合不同组内的信息，并相互比较。

03

R语言基因组数据分析可能会用到的data.table函数整理

R语言data.table包是自带包data.frame的升级版，用于数据框格式数据的处理，最大的特点快。包括两个方面，一方面是写的快，代码简洁，只要一行命令就可以完成诸多任务，另一方面是处理快，内部处理的步骤进行了程序上的优化，使用多线程，甚至很多函数是使用C写的，大大加快数据运行速度。因此，在对大数据处理上，使用data.table无疑具有极高的效率。这里主要介绍在基因组数据分析中可能会用到的函数。

01

R语言数据分析利器data.table包 —— 数据框结构处理精讲

R语言data.table包是自带包data.frame的升级版，用于数据框格式数据的处理，最大的特点快。包括两个方面，一方面是写的快，代码简洁，只要一行命令就可以完成诸多任务，另一方面是处理快，内部处理的步骤进行了程序上的优化，使用多线程，甚至很多函数是使用C写的，大大加快数据运行速度。因此，在对大数据处理上，使用data.table无疑具有极高的效率。这里我们主要讲的是它对数据框结构的快捷处理。

02

用data.table语句批量处理变量

本期“大猫R语言公众号”仍由“村长”供稿。村长继续为大家奉上data.table使用案例心得，希望大家能够继续支持村长！！

03

V5版seurat读取不同格式单细胞数据

在23年3月份的时候（下意识想说今年了hhh，恍然发现已经24年），菜鸟团作者就整理过不同格式的单细胞数据读取的方法，是基于V4版本的。

02

R语言学习笔记之——数据处理神器data.table

数据处理在数据分析流程中的地位相信大家都有目共睹，也是每一个数据从业者面临的最为繁重的工作任务。在实际应用场景下，虽然SQL（SQL类专业的etl语言）是数据处理的首选明星语言，性能佳、效率高、容易培养数据思维，但是SQL没法处理构建全流程的数据任务，之后仍然需要借助其他数据分析工具来对接更为深入的分析任务。 R语言作为专业的统计计算语言，数据处理是其一大特色功能，事实上每一个处理任务在R语言中都有着不止一套解决方案（这通常也是初学者在入门R语言时，感觉内容太多无从下手的原因），当然这些不同方案确实存在

08

35行代码搞定事件研究法（下）

Hello亲爱的小伙伴们，上期已经讲到如何对单一事件日计算超额收益，本期将会教大家如何针对多个股票多个事件日计算超额收益，Let's go!

04

R语言进阶笔记5 | purrr替代循环

其中，手动for循环我最常用，apply系列半吊子，purrr函数一窍不通，所以要学习一下。

01

十、文件读写

4) R语言读取（表格文件读入到R语言里时，就得到了一个数据框，对数据框的修改不会同步到表格文件。

04

CytoTRACE推测细胞分化状态

CytoTRACE的iCytoTRACE函数需要调用python去除批次效应，因此需要先设置好python环境

02

生信入门马拉松之R语言基础-文件读取、导出和画图(day 5)

Tips：read.系列函数，参数通用，不同函数的默认值有所不同。read.delim()读取txt文件，报错比table少。

00

从一件数据清洗的小事说起

本期“大猫的R语言公众号”由“村长”供稿。村长，数据科学、指弹吉他及录音工程爱好者，浙大金融学博士在读，在data.table包和MongoDB的使用上有较多经验。

01

「R」数据操作（三）：高效的data.table

data.table包提供了一个加强版的data.frame，它运行效率极高，而且能够处理适合内存的大数据集，它使用[]实现了一种自然地数据操作语法。使用下面命令进行安装：

02

Matt Dowle 演讲节选（二）

也许很多小伙伴都注意到了，这一期的文章和往期的排版有所不同，因为从这一期开始，大猫将使用markdown来进行写作，并在最后用css来进行渲染输出。原来大猫使用的是秀米等富文本编辑器，最然可以实现很花哨的效果，但是每次编辑的时间可能都比写作的时间长，而且富文本编辑器对于代码块的支持极弱，语法高亮没有就算了，但是代码块无法水平滚动就不能忍。相比之下，markdown不仅对于代码有着先天的支持，而且只要在第一次设定好css，以后每次编辑的时间几乎为零，直接复制粘贴到公众号平台就可以渲染出非常漂亮的网页，简直美滋滋！

04

R语言：data.table语句批量生成变量

在上一期中，还记得我们留下的那个彩蛋吗？我们在对多列标准进行筛选时，在之前我们还进行了一步非常重要的提取，也就是将每一列观察值提取出某一特定的字段，而后生成一系列变量，这些变量的观测值只可能存在三种情况：醛固酮、继发性醛固酮或者NA。

02

如何批量导入搜狗词库？

最近@黄小绵羊同学给大猫留言，说你当时那篇《如何在分词中导入搜狗字典》怎么太监了呢？第一期只讲了如何导入单个词典，并且承诺在下一期会给出批量导入的方法，但第二期至今遥遥无期。嗯，所以这次大猫决定要填坑了！

01

MLQuant：基于XGBoost的金融时序交易策略（附代码）

使用机器学习和过股票价格来预测下一个时期的价格或方向并不是什么新鲜事，它也不会产生任何有意义的预测。在这篇文章中我们将一系列资产的时间序列数据分解成一个简单的分类问题，看看机器学习模型能否更好地预测下一个周期方向。目标和策略是每天投资一项资产。其资产将是机器学习模型最有信心在下一个上升Ť+1期间股价上涨的资产。换句话说，我们对机器学习模型给出最大预测概率的资产进行投资，即给定资产明天将升值。也就是说，如果模型预测在第t天，GOOG的资产将以0.78的预测概率高于之前的收盘价，并且还预测AMZN将以0.53的概率上升，那么我们今天将投资于GOOG。我们每天只投资一项资产，该模型可以扩展到卖空、多资产购买和多周期等。

04

R︱高效数据操作——data.table包（实战心得、dplyr对比、key灵活用法、数据合并）

由于业务中接触的数据量很大，于是不得不转战开始寻求数据操作的效率。于是，data.table这个包就可以很好的满足对大数据量的数据操作的需求。

04

不走寻常路的单细胞表达量矩阵读取

但是我看到了一个比较狡猾的数据集（GSE133283），它官网给出来了的文件如下所示：

01

单细胞分析支持人类前列腺癌研究中腺泡-神经内分泌的转分化的观点

文章标题：《Single-cell analysis supports a luminal-neuroendocrine transdifferentiation in human prostate cancer》

01

如何利用文献中的细胞注释信息

首先是读入seurat对象和文章中的注释信息。sce.all_int.rds为按照生信技能树降维聚类分群代码流程得到的seurat对象。关于文章提供的细胞注释信息下载和整合详见推文：降维聚类分群的umap图真的重要吗

01

如何批量给自己的文件重命名

应用Windows日常办公，很多时候为了更快识别自己文件夹的文件，我们常需要对文件进行重命名自己偏好习惯，个位数的文件重命名，无非就是耗费自己一两分钟的时间，点点鼠标，然后重命名，输入文件名即可。

02

40. R 数据整理（十一：用purrr包实现更花样的匿名函数使用）

其实map 除了对向量有用，也可以作用于数据框或矩阵类型，相当于把其中的每一列作为一个单独的元素来看，有点像按列的apply：

03

BD单细胞测序数据分析流程（全）

BD和10x是两种常见的单细胞测序技术平台。我们已经分享了很多的10x 测序的教程。

01

【测评】提高R运行效率的若干方法

【画图】与SARS-CoV-2病毒结合ACE2基因表达正相关的LncRNA有哪些？

01

理解并行计算：r future为什么会启动比workers多得多的线程？

r的future包提供了一种实现多线程并行计算的接口，但有时候在使用时，我发现r启动了比我设定的多得多的计算资源。

02

使用Seurat的v5来读取多个不是10x标准文件的单细胞项目

但是留下来了一个悬念，就是如果我们的单细胞转录组并不是10x的标准3文件，而是tsv或者csv或者txt等文本文件表达量矩阵信息，就有点麻烦了。接下来我们以2020的文章：《Single-Cell Transcriptome Analysis Reveals Dynamic Cell Populations and Differential Gene Expression Patterns in Control and Aneurysmal Human Aortic Tissue》举例说明，它的数据集是 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE155468

01

Jely's Note之生信入门class5

if(!require())install.packages()----会返回：逻辑值！

01

「Workshop」第二期：程序控制与数据操作流

《R for Data Science》: http://r4ds.had.co.nz/

03

巧用R语言实现各种常用的数据输入与输出

将数据输入或加载到R工作空间中，是使用R进行数据分析的第一步。R语言支持读取众多格式的数据文件，excel文件，csv文件，txt文件和数据库（MYSQL数据库）等；其中，excel和csv是我们最常遇到的数据文件格式。

04

《高效R语言编程》6--高效数据木匠

将你的数据整理好是一个可敬的、某些情况下是至关重要的技能，所以作者使用了数据木匠这个词。这是本书最重要的一章，将涉及以下内容：

02

Learn R 函数和R包

函数与参数形式参数与实际参数形式参数99%可以删除图片命名新的函数 > jimmy <- function(a,b,m = 2){ + (a+b)^m + }。#命名jimmy这个函数，自己设置 m=2是默认值 > jimmy(a = 1,b = 2) [1] 9 > jimmy(1,2) #省略写法 [1] 9 > jimmy(3,6) [1] 81 > jimmy(3,6,-2) #更改m的值有2改为-2 [1] 0.01234568 图片复习：绘图函数plot() par(mfrow

00

Hadley Wickham 采访节选（一）

Hadley (羞涩脸)：“那总比别人叫他们 Hadley-verse好吧！” ╮(╯▽╰)╭

03

GWAS实战教程之制作PLINK格式的文件（下）

在上期推送中，我带领大家制作了表型文件和.map文件，今天我们学习一下如何制作.ped文件，关于.ped文件的信息请参见往期内容GWAS实战之制作PLINK格式的文件（上）。

01

RNA-seq入门实战（九）：PPI蛋白互作网络构建（上）——STRING数据库的使用

连续两次求贤令：曾经我给你带来了十万用户，但现在祝你倒闭，以及生信技能树知识整理实习生招募，让我走大运结识了几位优秀小伙伴！大家开始根据我的ngs组学视频进行一系列公共数据集分析实战，其中几个小伙伴让我非常惊喜，不需要怎么沟通和指导，就默默的完成了一个实战！

04

转录组数据的时间序列分析，你学会了吗

上周的公众号处理了不同时间序列的数据集，但因为是内置的数据集，很多分析流程都已经被pipeline函数包装了，那如果是自己的时间序列数据集该怎么分析呢？

01

基于PubMed数据库挖掘研究最多的基因与以及有关某基因发表了多少篇文献？这些文献有什么特点？？？

如果我们想探索一下什么基因研究的最多，那就是检索pubmed数据库资源。在 NCBI的ftp里面关于人的一些基因信息：

07

学习R语言，一篇文章让你从懵圈到入门

在实际工作中，每个数据科学项目各不相同，但基本都遵循一定的通用流程。具体如下：数据科学工作流程： 1.数据导入 2.数据整理 3.反复理解数据数据可视化数据转换统计建模 4.作出推断（比如

06

学习R语言，一篇文章让你从懵圈到入门

在实际工作中，每个数据科学项目各不相同，但基本都遵循一定的通用流程。具体如下：数据科学工作流程数据导入数据整理反复理解数据数据可视化数据转换统计建模作出推断（比如预测）沟通交流自动化分析程序开发下面列出每个步骤最有用的一些R包：数据导入以下R包主要用于数据导入和保存数据 feather：一种快速，轻量级的文件格式。在R和python上都可使用 readr：实现表格数据的快速导入。中文介绍可参考这里 readxl：读取Microsoft Excel电子表

04

学习R语言，一篇文章让你从懵圈到入门

PivotalR：用于读取Pivitol（Greenplum）和HAWQ数据库中的数据

03

mlr3_Benchmarking

这个词语，翻译是基准测试，一般用于比较多任务、多学习器、不同抽样方案的表现，在mlr3中通过benchmar函数实现

03

R语言︱文件读入、读出一些方法罗列（批量xlsx文件、数据库、文本txt、文件夹）

版权声明：博主原创文章，微信公众号：素质云笔记,转载请注明来源“素质云博客”，谢谢合作！！ https://blog.csdn.net/sinat_26917383/article/details/51100736

03

单细胞RNA测序揭示了人膀胱癌上皮细胞异质性和侵袭性亚群

文章标题：《Single-cell RNA sequencing reveals the epithelial cell heterogeneity and invasive subpopulation in human bladder cancer》

01

5个例子比较Python Pandas 和R data.table

Python和R是数据科学生态系统中的两种主要语言。它们都提供了丰富的功能选择并且能够加速和改进数据科学工作流程。

03

懒癌必备-dplyr和data.table让你的数据分析事半功倍

本文介绍了如何使用dplyr和data.table两个R包进行数据清洗、数据加工和数据分析，通过几个实际案例展示了dplyr和data.table的常用功能和高效操作。

07

「R」连接两个数据集的各种 join

本文来自 stack overflow 上的一个帖子 base与data.table适用 📷 SQL版 📷 流行的dplyr 📷 最后看看各种操作的性能吧 📷 data.table 就是牛批！（可惜没有tidyverse易用）测试代码： library(microbenchmark) library(sqldf) library(dplyr) library(data.table) sapply(c("sqldf","dplyr","data.table"), packageVersion, simpli

02

「R」用purrr实现迭代

除了函数，减少重复代码的另一种工具是迭代，它的作用在于可以对多个输入执行同一种处理，比如对多个列或多个数据集进行同样的操作。

02

Python连接HDFS实现文件上传下载及Pandas转换文本文件到CSV操作

通过hadoop hive或spark等数据计算框架完成数据清洗后的数据在HDFS上

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭