前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【R语言】因子在临床分组中的应用

【R语言】因子在临床分组中的应用

作者头像
生信交流平台
发布2022-09-21 17:47:30
3.2K0
发布2022-09-21 17:47:30
举报

前面给大家简单介绍了

【R语言】R中的因子(factor)

今天我们来结合具体的例子给大家讲解一下因子在临床分组中的应用。

我们还是以TCGA数据中的CHOL(胆管癌)这套数据为例。关于这套临床数据的下载可以参考

☞如何从TCGA数据库下载RNAseq数据以及临床信息(一)

前面我们也给大家介绍过一些处理临床数据的小技巧

☞【R语言】卡方检验和Fisher精确检验,复现临床paper

☞R生成临床信息统计表

☞玩转TCGA临床信息

☞TCGAbiolinks获取癌症临床信息

接下来我们先读入临床数据

代码语言:javascript
复制
#读取临床数据
clin=read.table("clinical.tsv",header=T,sep="\t",quote="")
#去除重复的行
index=!duplicated(clin$case_submitter_id)
#提取非重复的样本的临床信息
clin=clin[index,]

可以得到如下临床信息表

前面给大家讲过☞肿瘤TNM分期,我们知道组织病理分期分成stage I,stage II,stage III和stage IV四个分期

接下来我们试着把组织病理分期从四个组合并成两个组,并转换成因子

方法一、使用gsub函数

前面也给大家介绍过☞R替换函数gsub

代码语言:javascript
复制
#删除组织病理学分期末尾的A,B或者C等字母,例如Stage IIIA,Stage IIIB
stage=gsub("[ABCD]$","",clin$ajcc_pathologic_stage)
#将Stage III和Stage IV替换成stage III/IV
stage=gsub("Stage IV.*","stage III/IV",stage)
stage=gsub("Stage III.*","stage III/IV",stage)
#将剩下的Stage I和Stage II替换成stage I/II
stage=gsub("Stage.*","stage I/II",stage)
#转换成因子
stage=factor(stage)
stage

可以得到下面这个两分组的因子

方法二、直接使用factor函数

代码语言:javascript
复制
#删除组织病理学分期末尾的A,B或者C等字母,例如Stage IIIA,Stage IIIB
stage=gsub("[ABCD]$","",clin$ajcc_pathologic_stage)
#通过设置levels和labels实现合并
stage=factor(stage,levels=c("Stage I","Stage II","Stage III","Stage IV"),labels = c("stage I/II","stage I/II","stage III/IV","stage III/IV"))
stage

可以得到跟上面使用gsub一样的结果

接下来我们试着把组织病理分期从四个组合并成三个组,并转换成因子

方法一、使用gsub函数

代码语言:javascript
复制
#删除组织病理学分期末尾的A,B或者C等字母,例如Stage IIIA,Stage IIIB
stage=gsub("[ABCD]$","",clin$ajcc_pathologic_stage)
#将Stage III和Stage IV替换成stage III/IV,剩下的stageI和II保持不变
stage=gsub("Stage IV.*","stage III/IV",stage)
stage=gsub("Stage III.*","stage III/IV",stage)
#转换成因子
stage=factor(stage)
stage

可以得到如下因子

方法二、直接使用factor函数

代码语言:javascript
复制
#删除组织病理学分期末尾的A,B或者C等字母,例如Stage IIIA,Stage IIIB
stage=gsub("[ABCD]$","",clin$ajcc_pathologic_stage)
#通过设置levels和labels实现合并
stage=factor(stage,levels=c("Stage I","Stage II","Stage III","Stage IV"),labels = c("stage I","stage II","stage III/IV","stage III/IV"))
stage

可以得到跟gsub一样的结果

参考资料:

【R语言】R中的因子(factor)

☞如何从TCGA数据库下载RNAseq数据以及临床信息(一)

☞【R语言】卡方检验和Fisher精确检验,复现临床paper

☞R生成临床信息统计表

☞玩转TCGA临床信息

☞TCGAbiolinks获取癌症临床信息

肿瘤TNM分期

R替换函数gsub

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-09-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信交流平台 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档