首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    数据处理第2节:将列转换为正确的形状

    博客原文:https://suzan.rbind.io/2018/01/dplyr-tutorial-1/ 作者:Suzan Baert 这是一系列dplyr函数中的第二篇文章。...转换列:基础部分 您可以使用mutate()函数创建新列。 mutate中的选项几乎是无穷无尽的:你可以对普通向量做任何事情,可以在mutate()函数内完成。...其次,它需要以函数形式的变异指令。 如果需要,请使用代字号或funs()之前(见上文)。...在这种情况下,您可以包装任何列的选择(使用select()函数内可能的所有选项)并将其包装在vars()中。 其次,它需要以函数形式的变异指令。 如果需要,请使用代字号或funs()之前(见上文)。...如果要添加另一个数据框的信息,可以使用dplyr中的连接函数。

    8.1K30

    R语言批量生成CaseWhen的解决方案

    大家好,又见面了,我是你们的朋友全栈君。 近期写R代码,经常用dplyr::case_when结合stringr::str_detect进行条件判断。...痛点:判断条件可能会改或增删,全写在case_when里,代码冗余且不利于复制和维护,stackoverflow找了一圈,没发现好的解决方案,干脆自己写了一个通用代码以自动生成批量case_when判断...) 使用示例: 初始表tibble(fruit=stringr::fruit) 想实现字母a开头为’starts with a’,字母e结尾为’ends with e’ 等若干条件。...用改良后的allCaseWhen会简单很多,两步解决: 1....函数的核心依然是case_when,条件为真即停止,所以效率上没有损失。 如果想改条件,在conditions里放肆增删改,改完再跑一遍allCaseWhen即可。

    61620

    这次pandas真的要与sql干上了,你有的我得都有,遥遥领先就对了

    前言 sql 中的 过滤、分组、聚合、排序、表连接,在 pandas 中全都有对应方法。 sql 高高手会说,case when 你没有了吧。...而且名字也是一绝,就叫 ”case_when“ 其实 pandas 的一众大佬们也开了会,讨论了一段时间 大致的意思是,许多人都在问,pandas 中如何根据条件创建列。...在我的 pandas 专栏里面也详细讲解两种最常用的方式。 比如 numpy 的 select 就可以做到: 不过写法上是错开来的 不过,我们可以自定义函数,打造自己喜欢的调用方式。...我们放在最后再看能否与新版本官方的 case_when pk一下。 看看官方提供的玩法。...值得注意的是,索引要对齐,所以行1代码要与 data 的 index 对上。 这真的好用吗?现在我们通过自定义函数,改造 np.select 吧。

    18600

    R tips:使用TCGAbiolinks包下载TCGA数据

    TCGAbiolinks包是实时调用GDC的API,所以可以获取最新的数据。 数据下载三部曲 数据下载三部曲GDCquery、GDCdownload、GDCprepare。...这个过程中,GDCprepare还会将生存数据自动合并到summarizedExperiment对象的colData中。...= TRUE, save.filename = "data_COAD.rda", remove.files.prepared = FALSE ) 生存分析 TCGAbiolinks也有自定义的分析函数...Normalization需要控制的三个不均衡因素是文库大小、基因长度及文库组成: 文库大小:比如样本A是样本B的测序量的两倍,那么在同等表达水平下,样本A的基因的Counts值就是B的两倍; 基因长度...生存分析时根据基因的中位数将其分为High和Low,使用log-rank检验显著性,也可以使用cox回归。

    3.4K31

    70-R茶话会15-你的编程菜鸟路上缺失的一课

    不谋而合的是,很多我之前都介绍过了。 这就是优秀者们的马太效应吗! 1-switch和case_when 在做数据分析时,常常遇到的一个场景是,1,2,3 需要转换成其对应的"a","b","c"。...这时候或许可以借助循环和switch 实现替换,教程在,[[17-R编程03-控制语句与函数]]: > sapply(tmp, function(x){ + switch(EXPR = x, +...,dplyr 提供了向量化的操作[[37-R茶话会07-高效的处理数据框的列]]: > dplyr::case_when( + tmp %in% "a" ~ 1, + tmp %in% "b"...:[[05-R工具指南04-俺的技巧与Rstudio的快捷键]] 3-通过设置系统变量保护脚本中的密码不外露 如果你的脚本中需要你的某些签名或密码,最好不要把他们放在脚本里,因为你的脚本可能会分享给其他人...可以使用系统变量: Sys.setenv( DSN = "database_name", UID = "User ID", PASS = "Password" ) 接着在脚本中使用这些键即可

    3K40

    生信入门马拉松之R语言基础-脚本项目管理、条件循环、表达矩阵和一丢丢数据挖掘(Day 7)

    save(pd,exp,gpl,file = "steploutput,Rdata"),这句代码将几个第一个脚本有用的变量保存到Rdata文件中,下次使用这些变量时直接加载load这个Rdata文件即可...undefined表格文件需要赋值,读取参数不同导致读取结果不同,不能在后续代码中同等处理。Rdata可以保存多个变量,下次使用只需要一次load可以的到多个数据。...代码2实现结果和代码1相同2.6 练习library(dplyr)x = c(-1,-1,4,5,2,0)case_when(x>0 ~ "A", x==0 ~ "0",...表达矩阵:一行是一个基因在所有样品里的表达,一列是一个样本里所有基因的表达。在表达矩阵中,寻找在不同组有表达差异的基因。...基因表达芯片转录组单细胞突变、甲基化、拷贝数变异。。。7.4 怎么筛选基因?

    19000

    大更新,pandas终于有case_when方法了!

    数分小伙伴们都知道,SQL中的case when语句非常好用,尤其在加工变量的时候,可以按照指定的条件的进行赋值,并且结合其他嵌套用法还可以实现非常强大的功能。...二、case_when用法 东哥了解了一下case_when用法,总结了以下几点要点。 对象:case_when属于series对象的方法,dataframe对象无法使用。...condition(判断条件):可以是一维布尔类型的数组或者是可调用的对象(比如函数)。如果是可调用对象,那么应用在series上计算然后返回一个布尔类型的数组或者series。...这就是case_when非常灵活的原因,判断条件和替换值既可以是固定的值,也可以是自定义的函数,根据自己的需求随意设置。...案例3 case_when只实现区域内的变量加工,其输出结果也可以与其他函数方法结合,产生更多强大的功能。

    41510

    100个GEO基因表达芯片或转录组数据处理GSE25097(018)

    数据信息检索可以看到GSE25097是基因表达芯片数据,因此可以使用GEOquery包下载使用GEOquery包下载数据remotes::install_github('ScienceAdvances/...,在R内下载失败,可通过图片中的方法下载文件,GEOquery::getGEO直接读取本地的文件。...可以筛选一下分组表型信息,只保留自己需要的样本,作为后续分析的样本(根据自己的研究目的筛选符合要求的样本)pdata % dplyr::mutate(...GPL10687_family.soft.gz", Feature = "GeneSymbol", skip = 1104)fwrite(probe2symbol,'GPL10295.csv.gz')把表达矩阵中的探针名转换为基因名...;transid是我写的一个R函数,有需要可以联系我,加入交流群fdata <- transid(probe2symbol, probe_exprs)保存数据common_samples <- base

    11710

    听说WGCNA官网崩了?那还能做基因共表达分析吗?

    主要的变异来源是发育阶段、组织和重复样本。我通常会制作一个汇总表来指导我的下游分析: 发育阶段可以作为数值变量或定性变量进行分析。 现在我们了解了实验设计,接下来我们将确定实验中变异的主要驱动因素。...换句话说,在发育阶段和组织之间,哪个因素对实验中的变异贡献更大?这个问题的答案对于我们如何最有效地可视化数据至关重要。 获得实验全局视图的一个好方法是进行主成分分析(PCA)。...因此,在变异贡献方面,解剖方法 > 阶段 > 组织。我们将使用这些信息来指导下游的可视化。为了最好地区分生物学变异和技术变异,我们应该对手收集和LM样本进行单独的基因共表达分析。...在实际分析中需要包含更多的基因,但是相关性分析中的基因越多,速度就会越慢。...Leiden方法产生的聚类中,成员之间高度相互连接。在基因共表达的术语中,它寻找彼此高度相关的基因组。 我们需要两样东西。 来自边表的非冗余基因ID。 功能注释,我已经下载了。

    19610

    使用 R 语言从 PDF 文档中提取表格

    由于一个知识星球的小伙伴急需学习如何从 PDF 文档中提取表格,所以先插这个课,「使用 R 语言处理 netCDF 数据」系列的课程下次再发新的哈。...本课程介绍了如何使用 R 语言从 WHO(世界卫生组织)的官网上下载新冠疫情的每日报告以及如何从这些报告中的表格里面提取数据。.../ 这个非常简单,我的思路是直接获取网页中的所有 标签的 href 属性,然后过滤出链接中含 .pdf 的,最后再用一个循环下载所有的 PDF 文件即可。...从 PDF 里面提取表格数据 我选择最新的一个 PDF 做演示:20200523-covid-19-sitrep-124.pdf,下面使用 tabulizer 包进行数据提取,不过这个包依赖于 rJava...包,因此在使用这个包之前你需要在电脑上安装 Java 和在 R 里面安装 rJava 包。

    3.7K10

    R语言基础5(绘图基础)

    #https://mp.weixin.qq.com/s/p7LLLvzR5LPgHhuRGhYQBQ 拼图 图片 图片 可以在STHA网站找到现成的代码。...可用于向量取子集; str_replace(x,"o","a")#将x中的o替换为a,只替换出现的第一个o; str_replace(x,"o|s","a")#将x中的o或者s替换为a,只替换出现的第一个...o; str_replace_all(x,"o","a")#将x中的o替换为a,替换所有的o; str_remove(x," ")##将x中的第一个空格删除; str_remove_all(x," ")...#对列表向量中的每个元素实施相同的操作 lappy(1:4,rnorm) 两个数据框的连接 #inner_join:取交集 #full_join:全连接 #left_join:左连接 #right_join...## (1)分步解法 a = colnames(y) b = x$file_name k = match(a,b);k #match(a,b)的意思是a里的每个元素在b的第几个位置上。

    35871
    领券