本文的写作由来是知识星球一个朋友对如何在 tidyverse 系列包中使用公式函数(单侧公式)不太熟悉,所以通过本文分享一下我的心得。
除了函数,减少重复代码的另一种工具是迭代,它的作用在于可以对多个输入执行同一种处理,比如对多个列或多个数据集进行同样的操作。
Tidyverse中包含一个purrr程序包,之前在看数据处理分析时候,一直看到别人的code中,涵盖purrr,map函数,但是一直不知道这个是干什么的,现在发现purrr真的是极大的加速了数据处理流程,减少了code的编写。
在本课中需要制作与每个样本中的平均表达量相关的多个图,还需要使用所有可用的metadata来适当地注释图表。
其实map 除了对向量有用,也可以作用于数据框或矩阵类型,相当于把其中的每一列作为一个单独的元素来看,有点像按列的apply:
绘制FeaturePlot时,遇到基因在所有细胞中表达水平相同展示效果不理想的情况,本文引入函数tryCatch()旨在解决上述问题,并将警告信息保存到日志文件中便于后续追踪。
核心软件包是ggplot2、dplyr、tidyr、readr、purrr、tibble、stringr和forcats,它们提供了建模、转换和可视化数据的功能。
其中,手动for循环我最常用,apply系列半吊子,purrr函数一窍不通,所以要学习一下。
purrr中有多个迭代函数,可以用于快速解决循环迭代的问题,purrr中常用的迭代函数有map、map2、walk、reduce等等。
本次主要介绍了一些基本的正则表达式用法以及公式的创建和使用,然后介绍使用 tidyverse 组合拳进行批量建模和可视化。
今天在使用连接操作时发现:虽然都是合并操作函数,dplyr 包里的 *_join() 和基础包里面的 merge() 存在差异,不同的数据结构,结果也会存在偏差。
通常 dplyr 和 R 更适合对列进行操作,而对行操作则显得更麻烦。这篇文章,我们将学习围绕rowwise() 创建的 row-wise 数据框的 dplyr 操作方法。
❝最近看到一篇论文通过系统发育树添加饼图来展示数据,本节来简单介绍一下如何绘制一个类似的图。下面小编通过一个小案例来进行展示,图形过程仅供展示用,希望各位观众老爷能够喜欢,代码可直接复制粘贴运行。 ❞
许多Functional Class Scoring (FCS)方法,如GSEA, GSVA,PLAGE, addModuleScore, SCSE, Vision, VAM, gficf, pagoda2和Sargent,都会受数据集组成的影响,数据集组成的轻微变化将改变细胞的基因集富集分数。
DataFrame DataFrame 是一个表格或者类似二维数组的结构,它的各行表示一个实例,各列表示一个变量。 一. DataFrame数据流编程 二. 数据读取 readr/httr/DBI 1
逻辑运算是数学运算的重要组成部分,但其更是计算机计算的底层设置。作为一门数据处理语言,逻辑运算在R中承担着非常非常重要的作用。本专题就专门为大家整理一下R语言中的逻辑运算:TRUE/FALSE.
这个包的神奇之处在于能批量处理问题,例如,可以读取多个文件,跑模型的时候,可以批量输入多个参数,并把结果合并起来做比较
这里向您展示如何在R中使用glmnet包进行岭回归(使用L2正则化的线性回归),并使用模拟来演示其相对于普通最小二乘回归的优势。
如何画出比较好看的堆积小提琴图?这里主要用到StackedVlnPlot的功能,下面整理了实现的方法 code来自 MingTang
CytoTRACE的iCytoTRACE函数需要调用python去除批次效应,因此需要先设置好python环境
上面的例子summary的变量是disp,分组变量是cyl和am,使用三个点这里传递了任意个参数
基因集可视化是很常见的分析内容,山脊图使用较少,原因可能是默认生成的图片不美观。本文提供山脊图的美化后的效果图,供选择。
在前文scRNA-seq marker identification(二),我们我们提到了差异分析,下面我们来详细了解下
Hadley (羞涩脸):“那总比别人叫他们 Hadley-verse好吧!” ╮(╯▽╰)╭
今天给大家推荐一个专门用于不确定性可视化的绘图工具-R,可以方便的绘制一些统计图表的相关指标。详细介绍如下:
近期写R代码,经常用dplyr::case_when结合stringr::str_detect进行条件判断。
很多人推荐《R语言实战》这本书来入门R,当然,这本书非常不错,我也是通过这本书开始接触的R。这种入门的学习路径属于base R first,学习的流程基本是先了解变量的类型、数据的结构,再深入点就会学到循环与自定义函数。有些类似于先认识编程,再按照数据处理、可视化、统计分析等应用方向开始下一个学习的旅程。
ggfortify作为ggplot2的补充包,不仅可以应用于时序分析领域,还能应用于各种统计分析领域。
倾向性评分有4种应用,前面介绍了倾向性评分匹配及matchIt和cobalt包的使用:R语言倾向性评分:匹配
我们看一下不同cyl和cty的manufacturer分布情况。 当然你也可以使用purrr包批量绘制,前面几期都讲过了, 这里就不赘述了
1. 写在前面 点图用处非常广泛,可以展示变量的分布情况,变量之间的相关性,回归结果等 本期介绍的是ggstatsplot包中绘制dotplot,scatterplot相关函数 2. 用到的包 rm(list=ls()) library(tidyverse) library(ggstatsplot) library(ggsci) 3. 示例数据 dat <- mpg 图片 4. dotplot展示样本分布 4.1 初步绘制 用到的函数是ggscatterstats 由于因子太多,我们在这里用filter函
《R for Data Science》: http://r4ds.had.co.nz/
最近开发的空间基因表达技术,如空间转录组学可以在保留空间背景的同时,全面测量转录组谱。然而,现有的空间基因表达数据分析方法往往不能有效利用空间信息,不能解决技术分辨率有限的问题。
本文利用Iris数据集训练了多组机器学习模型,并通过预测大量的拟合数据绘制出了每个模型的决策边界。
一般来说,c() 是创建向量的语法,但R 也提供了一些例外:可不要因为它们养成坏习惯了哦。
01 表格之间的处理 上一篇文章推出【R语言】基础知识 | 为了偷懒,我不择手段!,想了想,人还是踏实一点比较好,别老想着走捷径,不然有一天会摔的很惨,咱还?️ 把基础打扎实~ data1文件夹中
听说上周领导下发了一个通知给10+公司,要求各公司按照下表要求填写表格反馈结果,意味着下周我要汇总10个表格,于是琢磨着怎么样才能偷懒又能按时交差,最重要的是还能有时间玩手机~
tidyverse就是Hadley Wickham将自己所写的包整理成了一整套数据处理的方法,包括ggplot2、dplyr、tidyr、readr、purrr、tibble、stringr、forcats。出版有《R for Data Science》(中文版《R数据科学》),这本书详细介绍了tidyverse的使用方法。
BD和10x是两种常见的单细胞测序技术平台。我们已经分享了很多的10x 测序的教程。
预处理见上一篇推文https://mp.weixin.qq.com/s/ZsUQogkqcPXkaNDIV8GhWg,本篇内容是合并两个处理好的CellChat对象,然后进行对比分析和可视化,因为有许多细节需要手动调整所以就不写成脚本了。
使用机器学习和过股票价格来预测下一个时期的价格或方向并不是什么新鲜事,它也不会产生任何有意义的预测。在这篇文章中我们将一系列资产的时间序列数据分解成一个简单的分类问题,看看机器学习模型能否更好地预测下一个周期方向。目标和策略是每天投资一项资产。其资产将是机器学习模型最有信心在下一个上升Ť+1期间股价上涨的资产。换句话说,我们对机器学习模型给出最大预测概率的资产进行投资,即给定资产明天将升值。也就是说,如果模型预测在第t天,GOOG的资产将以0.78的预测概率高于之前的收盘价,并且还预测AMZN将以0.53的概率上升,那么我们今天将投资于GOOG。我们每天只投资一项资产,该模型可以扩展到卖空、多资产购买和多周期等。
虽然之前也在[[50-R茶话会10-编程效率提升指北]] 中提过向量化可以极大的改善效率。
假如,我想根据ca125的值判定一个人到底有没有肿瘤,找了10个肿瘤患者,20个非肿瘤患者,都给他们测一下ca125,这样就得到了30个ca125的值。
在实际工作中,每个数据科学项目各不相同,但基本都遵循一定的通用流程。具体如下: 数据科学工作流程: 1.数据导入 2.数据整理 3.反复理解数据 数据可视化 数据转换 统计建模 4.作出推断(比如
PivotalR:用于读取Pivitol(Greenplum)和HAWQ数据库中的数据
在实际工作中,每个数据科学项目各不相同,但基本都遵循一定的通用流程。具体如下: 数据科学工作流程 数据导入 数据整理 反复理解数据 数据可视化 数据转换 统计建模 作出推断(比如预测) 沟通交流 自动化分析 程序开发 下面列出每个步骤最有用的一些R包: 数据导入 以下R包主要用于数据导入和保存数据 feather:一种快速,轻量级的文件格式。在R和python上都可使用 readr:实现表格数据的快速导入。中文介绍可参考这里 readxl:读取Microsoft Excel电子表
前面无论是用全部变量还是筛选出的特征变量、无论如何十折交叉验证调参,获得的模型应用于测试集时虽然预测准确率能在90%以上,但与不基于任何信息的随机猜测相比,这个模型都是统计不显著的 (这一点可能意义也不大,样本不平衡时看模型整体准确性无意义)。一个原因应该是样本不平衡导致的。DLBCL组的样品数目约为FL组的3倍。不通过建模而只是盲猜结果为DLBCL即可获得75%的正确率。而FL组的预测准确率却很低。
领取专属 10元无门槛券
手把手带您无忧上云