前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【R语言】临床特征分组,多分类转换成二分类

【R语言】临床特征分组,多分类转换成二分类

作者头像
生信交流平台
发布2022-09-21 17:46:05
4740
发布2022-09-21 17:46:05
举报

前面我们提到过T分期一般可以分成T1,T2,T3和T4四个期。另外一个常用的临床特征是组织病理分期,一般也是分为四期stage I,stage II, stage III和stage IV。四组在我们做差异表达分析的时候是比较麻烦的。

R代码TCGA差异表达分析

☞零代码TCGA差异表达分析

最简单的方法是将四个期合并成两个期。今天天我们就来聊聊如何用R来将四分期的临床特征转换成二分期。

首先我们还是先来获取相关癌症的临床特征。这在☞TCGAbiolinks获取癌症临床信息一文里面已经讲过了。这里还是以胆管癌TCGA-CHOL为例,如果对其它的癌症感兴趣,可以在☞TCGA数据库中癌症名称缩写一文中找到目前TCGA中63个癌症的缩写。

代码语言:javascript
复制
#安装TCGAbiolinks包
BiocManager::install("TCGAbiolinks")
#加载TCGAbiolinks包
library(TCGAbiolinks)
#下载TCGA-CHOL这个项目相关的临床信息,这个项目是胆管癌
clinical <- GDCquery_clinic(project = "TCGA-CHOL", type = "clinical")

然后我们获取样本TNM分期中的T分期。根据T分期的定义,T1和T2期的肿瘤大小相对较小,所以用gsub将T1和T2替换成small,将T3和T4替换成big。这样我们就有两个组了,便于后面做差异表达分析。看看size较大的肿瘤跟size较小的肿瘤中,基因表达有没有显著差异。具体操作的时候,我们发现T2期实际上又进一步分成了T2a和T2b。当然我们替换两次也是可以的。如果情况比这个更复杂呢,还有T2c,T2d等等,怎么办。难道我们要一一去替换吗?我们可以利用☞正则表达式,在正则表达式中“.*”可以用来匹配任意字符串,所以T2.*就可以匹配我们刚才说到的所有情况。

代码语言:javascript
复制
T=clinical$ajcc_pathologic_t

T=gsub("T1.*","small",T)
T=gsub("T2.*","small",T)
T=gsub("T3.*","big",T)
T=gsub("T4.*","big",T)

对于组织病理分期stage I,stage II, stage III和stage IV,我们可以把一二期作为早期,三四期作为晚期。这里替换有一个小技巧。如果先从stage I开始替换,为了匹配所有的可能出现的情况我们也要使用stage I.*,那么问题来了,stage I.*也可以匹配stage II和stage III,这样就会造成错误。

所以我们反过来做,先从IV和III开始替换,这样对I和II没有影响。等III和IV都替换完了,直接把剩下的以stage开头的都替换成early,因为剩下的肯定都是I和II的。

代码语言:javascript
复制
stage=clinical$ajcc_pathologic_stage
stage=gsub("Stage IV.*","advanced",stage)
stage=gsub("Stage III.*","advanced",stage)
stage=gsub("Stage.*","early",stage)

参考资料:

R代码TCGA差异表达分析

☞零代码TCGA差异表达分析

TCGAbiolinks获取癌症临床信息

TCGA数据库中癌症名称缩写

正则表达式

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-09-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信交流平台 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档