首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

R语言】因子在临床分组中的应用

duplicated(clin$case_submitter_id) #提取非重复的样本的临床信息 clin=clin[index,] 可以得到如下临床信息表 前面给大家讲过☞肿瘤TNM分期,我们知道组织病理分期分成...stage I,stage II,stage III和stage IV四个分期 接下来我们试着把组织病理分期从四个组合并成两个组,并转换成因子 方法一、使用gsub函数 前面也给大家介绍过☞R替换函数...一样的结果 接下来我们试着把组织病理分期从四个组合并成三个组,并转换成因子 方法一、使用gsub函数 #删除组织病理学分期末尾的A,B或者C等字母,例如Stage IIIA,Stage IIIB stage...一样的结果 参考资料: ☞【R语言】R中的因子(factor) ☞如何从TCGA数据库下载RNAseq数据以及临床信息(一) ☞【R语言】卡方检验和Fisher精确检验,复现临床paper ☞...R生成临床信息统计表 ☞玩转TCGA临床信息 ☞TCGAbiolinks获取癌症临床信息 ☞肿瘤TNM分期 ☞R替换函数gsub

3.2K21

案例 | R语言数据挖掘实战:电商评论情感分析

情感倾向明显:明显的词汇 ”好” “可以” 语言不规范:会出现一些网络用词,符号,数字等 重复性大:一句话出现词语重复 数据量大....6.若读入与上列表不同,下有,判断不重,放下 7.读完后,判断上下,若重则压缩. 4.4然后我们再进行中文的分词,分词的大致原理是: 中文分词是指将一段汉字序列切分成独立的词...模型二:.LDA模型 传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,TF-IDF等,这种方法没有考虑到文字背后的语义关联,可能在两个文档共同出现的单词很少甚至没有,但两个文档是相似的...可以看到上面这两个句子没有共同出现的单词,但这两个句子是相似的,如果按传统的方法判断这两个句子肯定不相似,所以在判断文档相关性的时候需要考虑到文档的语义,而语义挖掘的利器是主题模型,LDA就是其中一种比较有效的模型...("\n","",Data1) Data1=gsub("[a~z]*","",Data1) Data1=gsub("\d+","",Data1) 构建语料库

5K101
您找到你想要的搜索结果了吗?
是的
没有找到

电商评论情感分析

情感倾向明显:明显的词汇 ”好” “可以” 语言不规范:会出现一些网络用词,符号,数字等 重复性大:一句话出现词语重复 数据量大....,下有,判断不重,放下 7.读完后,判断上下,若重则压缩. 4.4然后我们再进行中文的分词,分词的大致原理是: 中文分词是指将一段汉字序列切分成独立的词。...模型二:.LDA模型 传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,TF-IDF等,这种方法没有考虑到文字背后的语义关联,可能在两个文档共同出现的单词很少甚至没有,但两个文档是相似的...可以看到上面这两个句子没有共同出现的单词,但这两个句子是相似的,如果按传统的方法判断这两个句子肯定不相似,所以在判断文档相关性的时候需要考虑到文档的语义,而语义挖掘的利器是主题模型,LDA就是其中一种比较有效的模型...("\\n","",data1_cut) data1_cut=gsub("[a-z]*","",data1_cut) data1_cut=gsub("\\d+","",data1

3.8K81

R语言】临床特征分组,多分类转换成二分类

前面我们提到过T分期一般可以分成T1,T2,T3和T4四个期。另外一个常用的临床特征是组织病理分期,一般也是分为四期stage I,stage II, stage III和stage IV。...☞R代码TCGA差异表达分析 ☞零代码TCGA差异表达分析 最简单的方法是将四个期合并成两个期。今天天我们就来聊聊如何用R来将四分期的临床特征转换成二分期。...根据T分期的定义,T1和T2期的肿瘤大小相对较小,所以用gsub将T1和T2替换成small,将T3和T4替换成big。这样我们就有两个组了,便于后面做差异表达分析。...具体操作的时候,我们发现T2期实际上又进一步分成了T2a和T2b。当然我们替换两次也是可以的。如果情况比这个更复杂呢,还有T2c,T2d等等,怎么办。难道我们要一一去替换吗?...T=clinical$ajcc_pathologic_t T=gsub("T1.*","small",T) T=gsub("T2.*","small",T) T=gsub("T3.

45910

R中的替换函数gsub

Rgsub替换函数的参数如下 gsub(pattern, replacement, x, ignore.case = FALSE, perl = FALSE, fixed = FALSE,...vector举例如下: > x <- c("R Tutorial","PHP Tutorial", "HTML Tutorial") > gsub("Tutorial","Examples",x) #将...Tutorial替换成Examplers [1] "R Examples" "PHP Examples" "HTML Examples" 还有其他的一些例子来灵活使用这个函数,结合正则表达式。...clin$case_submitter_id) #提取非重复的样本的临床信息 clin=clin[index,] 可以得到如下临床信息表 前面给大家讲过☞肿瘤TNM分期,我们知道组织病理分期分成...stage I,stage II,stage III和stage IV四个分期 接下来我们试着把组织病理分期从四个组合并成两个组,并转换成因子 我们使用gsub函数 #删除组织病理学分期末尾的

3.1K20

R语言︱词典型情感分析文本操作技巧汇总(打标签、词典与数据匹配等)

<- gsub("\\\"", "", reviewdf$msg)#替换所有的英文双引号("),因为双引号在R中有特殊含义,所以要使用三个斜杠(\\\)转义 代码解读:英文单引号(')、英文双引号(...[a-zA-Z] sentence <- gsub("[a-zA-Z]", "", sentence) #清除英文字符 sentence <- gsub("\\...去除原理就是导入停用词列表,是一列chr[1:n]的格式; 先与情感词典匹配,在停用词库去掉情感词典中的单词,以免删除了很多情感词,构造新的停用词; 再与源序列匹配,在原序列中去掉停用词。...stopword$term %in% posneg$term,]#函数`%in%`在posneg$term中查找stopword的元素,如果查到了就返回真值,没查到就返回假 #结果是一个和stopword...两个词库,但是没有主键,两个词库都有共有的一些词语,那么怎么建立两个词库的连接呢? 管道函数%in%,可以很好的解决。

3.5K20

Nature文章复现|早期肺鳞状癌发生过程中关于肿瘤侵袭前免疫逃逸机制的表达量芯片研究

载入R包 我们先下载需要载入的R包,代码来源于文献提供的代码: GitHub - Precancer/SCC: Immune evasion before tumor invasion in early...linear mixed effects model,LMM)」,辨别出与癌症发生中的九个组织学阶段相关的4700个基因(padjust<0.001),受限于篇幅,本文不多做介绍线性混合模型和wgcna的原理,读者感兴趣可以在评论区评论...<-as.numeric(stage) table(stage) #每个模块循环画一次图 #这里mSigdb_enrich_function.R脚本的内容在推文最后 source("mSigdb_enrich_function.R...它接受两个参数。 #第一个是一个包含了若干向量的列表(lt),第二个参数是一个向量(x)。 #其中x会和lt中的每一个向量进行intersection。...n_universe = length(universe) n_genes = length(genes) #对基因集列表每一个子列表进行循环,判断基因是否在通路中 genes_in_set

20910

R语言中实现文本替换其实很简单,记住do Replace就好~文末有彩蛋

我们经常用到替换,最常用的命令是sub或者gsub,这两个命令相当强大,但是也有缺点,比如每次只能操作1个替换对象,如果需要批量替换,则需要替换很多次,而且不能作用于数据框和矩阵。...基于此,我重新封装了gsub命令,写了Replace和Replace0两个命令,来更加灵活地替换,并将这两个命令放入do包(data operator)。...该命令有2大优势: 优势1:适用于多种数据类型,包括:数字、字符串、向量、数据框、矩阵,不适合于列表和数组。 优势2:3种替换模式。...首先安装do包: install.packages("do") 调用do包 library(do) 1、数字替换 ①多个替换为1个:将3个数字145,124,154种的1替换都为6 Replace...---- 彩蛋 站长收集了除了CxT公司的信号通路以及R语言学习卡片的高清pdf文件 比如: 表观遗传学 肿瘤免疫 上皮间质转化EMT RNA甲基化 细胞死亡 R语言学习卡片

2.3K10

R语言字符串处理①R语言字符串合并与拆分

R基础字符串处理函数 nchar paste strsplit tolower toupper casefold chartr gsub sub substr substring grep grepl...regexpr R包stringr 字符串处理学习思路 拼接 对应拼接, (‘a’,’b’)+(‘c’,’d’) → (‘ac’,’bd’) 多拼为一, (‘a’,’cd’,’m’)...→ (‘acdm’) 拆分(根据pattern) ’a.b.c.d’ → (‘a’,’b’,’c’,’d’) 替换 根据位置,字符串第3位到第5位换掉 根据pattern,把所有’s’换成...’c’ 提取 根据位置,提取字符串第3位到第5位 根据pattern,提取所有数字 ?...针对字符串向量(拆分)stringr包内函数 paste #针对向量合并 针对数据框 unite #合并数据框中的某几列 separate #将数据框中某一列按照某种模式拆分成几列

6.3K20

Linux:awk命令详解

动作即对数据进行的操作,如果省去模式部分,动作将时刻保持执行状态 模式可以是任何条件语句或复合语句或正则表达式,模式包含两个特殊字段 BEGIN 和 END,使用 BEGIN 语句设置计数和打印头,BEGIN...例如: awk '{print $0}' temp.txt > sav.txt 表示打印所有域并把结果重定向到 sav.txt 中 awk '{print $0}' temp.txt|tee sav.txt...$3);END {print tot}' temp           会显示每列的内容   awk '{(tot+=$3)};END {print tot}' temp         只显示最后的结果...(r,s)              在整个$0中用s替代r      awk 'gsub(/name/,"xingming") {print $0}' temp      gsub(r,s,t)          ...="J.Lulu" {print match($1,"u")}' temp    返回4      split(s,a,fs)         在fs上将s分成序列a      awk 'BEGIN

3.8K70

98-R茶话会17-在后台执行R命令

参考: (13条消息) 如何在linux中后台运行R_zsbo2015的博客-CSDN博客_后台运行r脚本[1] 前言 不得不说,用久了Rstudio 自己果然变笨了。...因为往往为了得到结果,我不得不写长长的脚本,而可能得到的只有短短的结果。 而遇到R 以后,随便调个参数,掉个函数,我就可以在Rstudio 里自由地驰骋在交互的海洋。 如果是费时的命令呢?...比如脚本如下: cat > test.R args <- commandArgs(T) citefuse_time <- 1 sce <- 1 names <- gsub("..../Output/seurat_", "", args[1]) names <- gsub(".Rda", "", names) print(sce) save(citefuse_time, sce, file...参考资料 [1] (13条消息) 如何在linux中后台运行R_zsbo2015的博客-CSDN博客_后台运行r脚本: https://blog.csdn.net/zsbo2015/article/details

91930

左手用R右手Python系列13——字符串处理与正则表达式

str_extract() #返回匹配值 以上便是R语言中支持正则表达式的高频应用函数,其中R语言基础函数中缺少一个精确返回匹配模式结果的函数,但是stringr中弥补了这一缺陷...这两个函数虽然完成的需求相同,但是其作用原理差异很大,substr()一次只能匹配一个字符串,所以对于向量而言需要构造循环,substring()则可以直接赋值其开始向量和结束向量,因而我们只需提前构造好开始于结束位置向量...'name': ['fff', 'hh', 'ff', 'ccc'], 'value': ['888', '333', '666', '666']} 以上过程成功的将myword中所有字符串按照“-”分成了两列的字典...re.findall()是一个强大的字符串查找函数,它会以列表形式默认返回所有搜索到的结果。...() 将可能出现的模式进行分组,可以从返回的匹配结果中捕获分组内容。

1.6K40

指定通路绘制gsea图热图和火山图

前面在 所有的肿瘤都有恶性增殖的特性吗,我们发现了绝大部分癌症都有MKI67和TOP2A这样的细胞增殖通路相关基因的高表达,最后的gsea分析结果里面展示的通路包括: 2.4 Replication and...geneList=gene$logfc names(geneList)=gene$ENTREZID geneList=sort(geneList,decreasing = T) head(geneList) R.utils...('/','-',up_kegg$Description[i]), '.pdf')) }) 然后 批量针对每个通路绘制热图,需要提取每个通路里面的基因列表: lapply...up_kegg$Description[i]), '.pdf')) }) 然后 批量针对每个通路绘制火山图,把每个通路里面的基因列表标记在火山图里面...,这个时候仍然是分成两步走,首先绘制一个火山图 (不同的包做差异分析得到的矩阵列名不一样,下面是DEseq2的结果举例哦 ): ## for volcano logFC_cutoff <- with(

2K30

网络表情NLP(一)︱颜文字表情实体识别、属性检测、新颜发现

rouge rouge是自动文本摘要算法的评估指标: from rouge import Rouge a = ["i am a student from xx school"] # 预测摘要 (可以是列表也可以是句子...,对句子中第i个词进行高维特征的抽取,通过学习特征到标注结果的映射,可以得到特征到任> 意标签的概率,通过这些概率,得到最优序列结果' print("-".join(jieba.lcut(text...") .gsub(/#{eyes}#{nose}[\/|l*]/, "") .gsub(/") .gsub(/[-+]?..., ('↖(^ω^)↗', 1), ('(^_^)\ufeff', 1)] 其中,remove_spacing是否移除空格;topn一次性返回top多少的高频表情包 如果有新颜文要新增,那么需要新增到两个模块...从rouge的评分来看,rouge-1太粗糙;rouge-2比较合适, 且几个统计量中,f/p/r,f效果比较好,p/r可能会有比较多的选项,也就是差异性不明显 参数: - min_s = 0.35

1.2K20

awk 简单使用教程

END- BEGIN模块后紧跟着动作块,这个动作块在awk处理任何输入文件之前执行,所以它可以在没有任何输入的情况下进行测试,它通常用来做一些执行真正的文本处理之前的预处理工作,比如改变内建变量的值,OFS...字符匹配作为文本处理工具,字符匹配自然是少不了的,awk支持正则表达式,条件和范围等匹配方式,能够根据匹配结果进行操作。...(r,s) 在整个$0中s替换r gsub(r,s,t) 在整个t中s替换r index(s,t) 返回s中字符串t的第一位置 length...(s) 返回s长度 match(s,r) 测试s中是否包含匹配r的字符串 split(s,a,fs)在fs上将s分成序列a sub(s,)...basename "$2 |& getline $2; print $1" "$2}`- `"basename "$2`:构建获取文件名的命令- `|& geline $2`:将构建的命令执行,获取结果我正在参与

14500

R语言︱文本(字符串)处理与正则表达式

被转义的字符已经有特殊的意义,点号 ....需要注意的是,在R语言中得用两个反斜杠即 ‘\\’,如要匹配括号就要写成 ’\\(\\)‘ 4....[1] "T:list(a = \"aaa\", b = \"bbb\", c = \"ccc\")" [2] "T:list(d = 1, e = 2)" 短向量重复使用,列表数据只有一级列表能有好的表现...strsplit得到的结果列表,后面要怎么处理就得看情况而定了: > class(strsplit(text, '\\s')) [1] "list" 有一种情况很特殊:如果split参数的字符长度为...———————————————————————————————————————————————————————— 四、字符串查询: 1、grep和grepl函数: 这两个函数返回向量水平的匹配结果,不涉及匹配字符串的详细位置信息

4.1K20

R语言爬虫初尝试-基于RVEST包学习

div.mb10 a")%>%html_text() link<-gsub("\\?...()) degree%html_text()) benefit<-gsub("职位诱惑:"...上面完成了第一个列表。爬出效果如图 关于这个数据有什么用呢…… 简单来说,我们可以用它来看这个网上有多少在招的,各公司招人的比例,以及薪资水平,做一点基础的数据分析。...就是如果用div[1]//span[4]取数的话,它直接就只出全局的那个结果。。。 取数,可以用li.da或者li.daew取数,两者等价 正则表达式很有用!!...受张丹老师的两条均线与R语言)鼓舞好大!我觉得学R嘛,用到实处才是重要的!玩爬虫玩的太开心都没跟JHU的课了。。。。 以后可以尝试按照自己和老爸的看股票习惯开发出类似的选股模型来~~

1.5K30
领券