首页
学习
活动
专区
圈层
工具
发布

【R语言】因子在临床分组中的应用

duplicated(clin$case_submitter_id) #提取非重复的样本的临床信息 clin=clin[index,] 可以得到如下临床信息表 前面给大家讲过☞肿瘤TNM分期,我们知道组织病理分期分成...stage I,stage II,stage III和stage IV四个分期 接下来我们试着把组织病理分期从四个组合并成两个组,并转换成因子 方法一、使用gsub函数 前面也给大家介绍过☞R替换函数...一样的结果 接下来我们试着把组织病理分期从四个组合并成三个组,并转换成因子 方法一、使用gsub函数 #删除组织病理学分期末尾的A,B或者C等字母,例如Stage IIIA,Stage IIIB stage...一样的结果 参考资料: ☞【R语言】R中的因子(factor) ☞如何从TCGA数据库下载RNAseq数据以及临床信息(一) ☞【R语言】卡方检验和Fisher精确检验,复现临床paper ☞...R生成临床信息统计表 ☞玩转TCGA临床信息 ☞TCGAbiolinks获取癌症临床信息 ☞肿瘤TNM分期 ☞R替换函数gsub

5.1K21

案例 | R语言数据挖掘实战:电商评论情感分析

情感倾向明显:明显的词汇 如”好” “可以” 语言不规范:会出现一些网络用词,符号,数字等 重复性大:一句话出现词语重复 数据量大....6.若读入与上列表不同,下有,判断不重,放下 7.读完后,判断上下,若重则压缩. 4.4然后我们再进行中文的分词,分词的大致原理是: 中文分词是指将一段汉字序列切分成独立的词...模型二:.LDA模型 传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF等,这种方法没有考虑到文字背后的语义关联,可能在两个文档共同出现的单词很少甚至没有,但两个文档是相似的...可以看到上面这两个句子没有共同出现的单词,但这两个句子是相似的,如果按传统的方法判断这两个句子肯定不相似,所以在判断文档相关性的时候需要考虑到文档的语义,而语义挖掘的利器是主题模型,LDA就是其中一种比较有效的模型...("\n","",Data1) Data1=gsub("[a~z]*","",Data1) Data1=gsub("\d+","",Data1) 构建语料库

5.9K101
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    电商评论情感分析

    情感倾向明显:明显的词汇 如”好” “可以” 语言不规范:会出现一些网络用词,符号,数字等 重复性大:一句话出现词语重复 数据量大....,下有,判断不重,放下 7.读完后,判断上下,若重则压缩. 4.4然后我们再进行中文的分词,分词的大致原理是: 中文分词是指将一段汉字序列切分成独立的词。...模型二:.LDA模型 传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF等,这种方法没有考虑到文字背后的语义关联,可能在两个文档共同出现的单词很少甚至没有,但两个文档是相似的...可以看到上面这两个句子没有共同出现的单词,但这两个句子是相似的,如果按传统的方法判断这两个句子肯定不相似,所以在判断文档相关性的时候需要考虑到文档的语义,而语义挖掘的利器是主题模型,LDA就是其中一种比较有效的模型...("\\n","",data1_cut) data1_cut=gsub("[a-z]*","",data1_cut) data1_cut=gsub("\\d+","",data1

    4.3K81

    【R语言】临床特征分组,多分类转换成二分类

    前面我们提到过T分期一般可以分成T1,T2,T3和T4四个期。另外一个常用的临床特征是组织病理分期,一般也是分为四期stage I,stage II, stage III和stage IV。...☞R代码TCGA差异表达分析 ☞零代码TCGA差异表达分析 最简单的方法是将四个期合并成两个期。今天天我们就来聊聊如何用R来将四分期的临床特征转换成二分期。...根据T分期的定义,T1和T2期的肿瘤大小相对较小,所以用gsub将T1和T2替换成small,将T3和T4替换成big。这样我们就有两个组了,便于后面做差异表达分析。...具体操作的时候,我们发现T2期实际上又进一步分成了T2a和T2b。当然我们替换两次也是可以的。如果情况比这个更复杂呢,还有T2c,T2d等等,怎么办。难道我们要一一去替换吗?...T=clinical$ajcc_pathologic_t T=gsub("T1.*","small",T) T=gsub("T2.*","small",T) T=gsub("T3.

    77110

    单细胞测序—不同格式的单细胞测序数据读写(多样本)

    ,将每个样本的原始数据文件加载到R中,然后创建一个Seurat对象,最后将所有Seurat对象存储在一个列表 (sceList) 中。...这里的 if语句检查 tmp 是否包含两个数据层:if(length(tmp) == 2):如果 tmp 的长度为2,说明它包含两个不同的数据层(如gene expression和 protein expression...在这种情况下,ct 包含的是单层数据,如基因表达矩阵。...:do.call 函数将 lapply 返回的结果(每个对象的维度)按行绑定(rbind),生成一个矩阵,矩阵的每一行对应一个样本的数据维度。这个矩阵便于查看每个样本的基因数和细胞数。...y = sceList-1:合并列表中其余的Seurat对象。sceList-1表示 sceList列表中除了第一个对象以外的所有对象。

    2.8K23

    R中的替换函数gsub

    R中gsub替换函数的参数如下 gsub(pattern, replacement, x, ignore.case = FALSE, perl = FALSE, fixed = FALSE,...vector举例如下: > x R Tutorial","PHP Tutorial", "HTML Tutorial") > gsub("Tutorial","Examples",x) #将...Tutorial替换成Examplers [1] "R Examples" "PHP Examples" "HTML Examples" 还有其他的一些例子来灵活使用这个函数,结合正则表达式。...clin$case_submitter_id) #提取非重复的样本的临床信息 clin=clin[index,] 可以得到如下临床信息表 前面给大家讲过☞肿瘤TNM分期,我们知道组织病理分期分成...stage I,stage II,stage III和stage IV四个分期 接下来我们试着把组织病理分期从四个组合并成两个组,并转换成因子 我们使用gsub函数 #删除组织病理学分期末尾的

    5.3K20

    R语言︱词典型情感分析文本操作技巧汇总(打标签、词典与数据匹配等)

    gsub("\\\"", "", reviewdf$msg)#替换所有的英文双引号("),因为双引号在R中有特殊含义,所以要使用三个斜杠(\\\)转义 代码解读:英文单引号(')、英文双引号(...[a-zA-Z] sentence gsub("[a-zA-Z]", "", sentence) #清除英文字符 sentence gsub("\\...去除原理就是导入停用词列表,是一列chr[1:n]的格式; 先与情感词典匹配,在停用词库去掉情感词典中的单词,以免删除了很多情感词,构造新的停用词; 再与源序列匹配,在原序列中去掉停用词。...stopword$term %in% posneg$term,]#函数`%in%`在posneg$term中查找stopword的元素,如果查到了就返回真值,没查到就返回假 #结果是一个和stopword...两个词库,但是没有主键,两个词库都有共有的一些词语,那么怎么建立两个词库的连接呢? 管道函数%in%,可以很好的解决。

    4.4K20

    Nature文章复现|早期肺鳞状癌发生过程中关于肿瘤侵袭前免疫逃逸机制的表达量芯片研究

    载入R包 我们先下载需要载入的R包,代码来源于文献提供的代码: GitHub - Precancer/SCC: Immune evasion before tumor invasion in early...linear mixed effects model,LMM)」,辨别出与癌症发生中的九个组织学阶段相关的4700个基因(padjust如读者感兴趣可以在评论区评论...<-as.numeric(stage) table(stage) #每个模块循环画一次图 #这里mSigdb_enrich_function.R脚本的内容在推文最后 source("mSigdb_enrich_function.R...它接受两个参数。 #第一个是一个包含了若干向量的列表(lt),第二个参数是一个向量(x)。 #其中x会和lt中的每一个向量进行intersection。...n_universe = length(universe) n_genes = length(genes) #对基因集列表每一个子列表进行循环,判断基因是否在通路中 genes_in_set

    53610

    R语言中实现文本替换其实很简单,记住do Replace就好~文末有彩蛋

    我们经常用到替换,最常用的命令是sub或者gsub,这两个命令相当强大,但是也有缺点,比如每次只能操作1个替换对象,如果需要批量替换,则需要替换很多次,而且不能作用于数据框和矩阵。...基于此,我重新封装了gsub命令,写了Replace和Replace0两个命令,来更加灵活地替换,并将这两个命令放入do包(data operator)。...该命令有2大优势: 优势1:适用于多种数据类型,包括:数字、字符串、向量、数据框、矩阵,不适合于列表和数组。 优势2:3种替换模式。...首先安装do包: install.packages("do") 调用do包 library(do) 1、数字替换 ①多个替换为1个:如将3个数字145,124,154种的1替换都为6 Replace...---- 彩蛋 站长收集了除了CxT公司的信号通路以及R语言学习卡片的高清pdf文件 比如: 表观遗传学 肿瘤免疫 上皮间质转化EMT RNA甲基化 细胞死亡 R语言学习卡片

    3.5K10

    Linux:awk命令详解

    动作即对数据进行的操作,如果省去模式部分,动作将时刻保持执行状态 模式可以是任何条件语句或复合语句或正则表达式,模式包含两个特殊字段 BEGIN 和 END,使用 BEGIN 语句设置计数和打印头,BEGIN...例如: awk '{print $0}' temp.txt > sav.txt 表示打印所有域并把结果重定向到 sav.txt 中 awk '{print $0}' temp.txt|tee sav.txt...$3);END {print tot}' temp           会显示每列的内容   awk '{(tot+=$3)};END {print tot}' temp         只显示最后的结果...(r,s)              在整个$0中用s替代r      awk 'gsub(/name/,"xingming") {print $0}' temp      gsub(r,s,t)          ...="J.Lulu" {print match($1,"u")}' temp    返回4      split(s,a,fs)         在fs上将s分成序列a      awk 'BEGIN

    4.6K70

    R语言字符串处理①R语言字符串合并与拆分

    R基础字符串处理函数 nchar paste strsplit tolower toupper casefold chartr gsub sub substr substring grep grepl...regexpr R包stringr 字符串处理学习思路 拼接 对应拼接,如 (‘a’,’b’)+(‘c’,’d’) → (‘ac’,’bd’) 多拼为一,如 (‘a’,’cd’,’m’)...→ (‘acdm’) 拆分(根据pattern) 如’a.b.c.d’ → (‘a’,’b’,’c’,’d’) 替换 根据位置,如字符串第3位到第5位换掉 根据pattern,如把所有’s’换成...’c’ 提取 根据位置,如提取字符串第3位到第5位 根据pattern,如提取所有数字 ?...针对字符串向量(拆分)stringr包内函数 paste #针对向量合并 针对数据框 unite #合并数据框中的某几列 separate #将数据框中某一列按照某种模式拆分成几列

    7.2K20

    如何对应两个不同单细胞数据集的分群结果?

    统一降维和聚类:整合后,对合并的数据集进行降维(如PCA、t-SNE或UMAP)和聚类。 分析整合结果:通过可视化(如UMAP图)和标记基因分析,确定聚类的细胞类型。 2....基于细胞类型注释的对应(Cell Type Annotation) 如果已知某些标记基因或细胞类型特征,可以直接对两个数据集的聚类结果进行细胞类型注释,然后比较注释结果。...操作步骤: 分别降维和聚类:对两个数据集分别进行降维和聚类。 细胞类型注释:使用标记基因或自动化注释工具(如SingleR、scCATCH)对聚类结果进行细胞类型注释。...比较注释结果:比较两个数据集中相同细胞类型的聚类。 4....操作步骤: 分别降维和聚类:对两个数据集分别进行降维和聚类。 计算相似性:计算两个数据集中聚类之间的相似性(如Jaccard指数)。 匹配聚类:根据相似性得分找到最匹配的聚类。

    1.6K10

    98-R茶话会17-在后台执行R命令

    参考: (13条消息) 如何在linux中后台运行R_zsbo2015的博客-CSDN博客_后台运行r脚本[1] 前言 不得不说,用久了Rstudio 自己果然变笨了。...因为往往为了得到结果,我不得不写长长的脚本,而可能得到的只有短短的结果。 而遇到R 以后,随便调个参数,掉个函数,我就可以在Rstudio 里自由地驰骋在交互的海洋。 如果是费时的命令呢?...比如脚本如下: cat > test.R args <- commandArgs(T) citefuse_time <- 1 sce <- 1 names gsub("..../Output/seurat_", "", args[1]) names gsub(".Rda", "", names) print(sce) save(citefuse_time, sce, file...参考资料 [1] (13条消息) 如何在linux中后台运行R_zsbo2015的博客-CSDN博客_后台运行r脚本: https://blog.csdn.net/zsbo2015/article/details

    1.4K30

    左手用R右手Python系列13——字符串处理与正则表达式

    str_extract() #返回匹配值 以上便是R语言中支持正则表达式的高频应用函数,其中R语言基础函数中缺少一个精确返回匹配模式结果的函数,但是stringr中弥补了这一缺陷...这两个函数虽然完成的需求相同,但是其作用原理差异很大,substr()一次只能匹配一个字符串,所以对于向量而言需要构造循环,substring()则可以直接赋值其开始向量和结束向量,因而我们只需提前构造好开始于结束位置向量...'name': ['fff', 'hh', 'ff', 'ccc'], 'value': ['888', '333', '666', '666']} 以上过程成功的将myword中所有字符串按照“-”分成了两列的字典...re.findall()是一个强大的字符串查找函数,它会以列表形式默认返回所有搜索到的结果。...() 将可能出现的模式进行分组,可以从返回的匹配结果中捕获分组内容。

    2K40

    指定通路绘制gsea图热图和火山图

    前面在 所有的肿瘤都有恶性增殖的特性吗,我们发现了绝大部分癌症都有MKI67和TOP2A这样的细胞增殖通路相关基因的高表达,最后的gsea分析结果里面展示的通路包括: 2.4 Replication and...geneList=gene$logfc names(geneList)=gene$ENTREZID geneList=sort(geneList,decreasing = T) head(geneList) R.utils...('/','-',up_kegg$Description[i]), '.pdf')) }) 然后 批量针对每个通路绘制热图,需要提取每个通路里面的基因列表: lapply...up_kegg$Description[i]), '.pdf')) }) 然后 批量针对每个通路绘制火山图,把每个通路里面的基因列表标记在火山图里面...,这个时候仍然是分成两步走,首先绘制一个火山图 (不同的包做差异分析得到的矩阵列名不一样,下面是DEseq2的结果举例哦 ): ## for volcano logFC_cutoff <- with(

    2.9K30
    领券