在日常数据分析的过程中,我们经常需要在一个字符串或者字符串向量中查找是否包含我们要找的东西,或者向量中那几个元素包含我们要查找的内容。这个时候我们会用到R中最常用的两个函数,grep和grepl。其实grep这个函数也并非是R所特有的,在linux中模式匹配也用grep这个函数,前面我就给大家简单介绍过☞Linux xargs grep zgrep命令。
1、字段抽取 字段抽取,是根据已知列数据的开始和结束位置,抽取出新的列 字段截取函数:substr(x,start,stop) tel <- '18922254812'; #运营商 band <- substr(tel, 1, 3) #地区 area <- substr(tel, 4, 7) #号码段 num <- substr(tel, 8, 11) tels <- read.csv('1.csv'); #运营商 bands <- substr(tels[,1], 1, 3) #地区 areas <-
箱线图 箱线图是能同时反映数据统计量和整体分布,又很漂亮的展示图。在2014年的Nature Method上有2篇Correspondence论述了使用箱线图的好处和一个在线绘制箱线图的工具。就这样都可以发两篇Nature method,没天理,但也说明了箱线图的重要意义。 下面这张图展示了Bar plot、Box plot、Volin plot和Bean plot对数据分布的反应。从Bar plot上只能看到数据标准差或标准误不同;Box plot可以看到数据分布的集中性不同;Violin plot和Be
做数据分析的时候我们经常会处理一个文件夹里面的文件,今天我们就来聊聊R的文件夹处理函数list.files。下面是这个函数的说明和使用方法
Jimmy大神怎么说过,只有多做、多错,才能真正的掌握。所以下面通过几个实战来说明。
学习数据分析,掌握一些灵巧的分析工具可以使得数据清洗效率事半功倍,比如在处理非结构化的文本数据时,如果能够了解一下简单的正则表达式,那么你可以免去大量的冗余代码,效率那叫一个高。 正则表达式是一套微型的袖珍语言,非常强大,依靠一些特定的字母和符号作为匹配模式,灵活组合,可以匹配出任何我们需要的的文本信息。 而且它不依赖任何软件平台,没有属于自己的GUI,就像是流动的水一样,可以支持绝大多数主流编程语言。 今天这一篇只给大家简单介绍正则表达式基础,涉及到一些常用的字符及符合含义,以及其在R语言和Python
如果想显示文件夹下面所有的文件,包括以.开头的文件,可以设置all.files = TRUE
具体的字符串向量是这样的,需要达到的目的就是,看字符串向量里面的每一个元素是否包含"LIPE2"这个基因。这里的字符串向量有四个元素。
处理文本是每一种计算机语言都应该具备的功能,但不是每一种语言都侧重于处理文本。R语言是统计的语言,处理文本不是它的强项,perl语言这方面的功能比R不知要强多少倍。幸运的是R语言的可扩展能力很强,DNA/RNA/AA等生物序列现在已经可以使用R来处理。
本示例数据集很小,实际中数据量很大,可以根据使用filter()函数筛选出后续需要的“行”子集。
昨天生信技能树发布了学徒作业:学徒作业-在CCLE数据库里面根据指定基因在指定细胞系里面提取表达矩阵 很有意思,任务简单的说就是重复这个图
R语言在提取字符串上有着强大的能力,其中字符串可以看做为文本信息。今天需要跟大家介绍一款更为通用、更加底层的文本信息提取工具——正则表达式。
R基础字符串处理函数 nchar paste strsplit tolower toupper casefold chartr gsub sub substr substring grep grepl regexpr R包stringr 字符串处理学习思路 拼接 对应拼接,如 (‘a’,’b’)+(‘c’,’d’) → (‘ac’,’bd’) 多拼为一,如 (‘a’,’cd’,’m’) → (‘acdm’) 拆分(根据pattern) 如’a.b.c.d’ → (‘a’,’b’,’
还是获得16S物种丰度得老问题,最近在一台新机器上安装qiime1,发现有报错,对于这种停止维护的软件,也是正常现象吧,于是想别的办法解决,恰巧最近读R几本R语言的入门书,发现prop.table()这个函数是可以实现相关功能的,于是学习使用下。可能你早已会做这个啦,还是分享一下,看看有没有人需要。
原文地址:https://suzan.rbind.io/2018/02/dplyr-tutorial-3/ 作者:Suzan Baert 这是系列dplyr系列教程中的第三篇博客文章。 在这篇文章中,我们将介绍如何挑选您的数据。 除了filter的基础知识外,它还介绍了一些更好的方法,用near()和between()挑选数字列,或用正则表达式过滤字符串列。
版权声明:博主原创文章,微信公众号:素质云笔记,转载请注明来源“素质云博客”,谢谢合作!! https://blog.csdn.net/sinat_26917383/article/details/51302425
作者:Matt 自然语言处理实习生 http://blog.csdn.net/sinat__26917383/article/details/51302425 笔者寄语:本文大多内容来自未出版的《数据挖掘之道:基于R的实战之旅》的情感分析章节。本书中总结情感分析算法主要分为两种:词典型+监督算法型。 监督算法型主要分别以下几个步骤: 构建训练+测试集+特征提取(TFIDF指标)+算法模型+K层交叉验证。 基于监督算法的情感分析存在着以下几个问题: (1)准确率而言,基于算法的方法还有待提高,而目前的算
开始正式教程分享之前,先公布一个好消息,腾讯云的排行榜显示我们生信技能树是平台全国排名第123位有影响力的自媒体,还有一个证书:
R通常被用来进行数值计算比较多,字符串处理相对较少,而且关于字符串的函数也不多,用得多的就是substr、strsplit、paste、regexpr这几个了。实际上R关于字符串处理的功能是非常强大的,因为它甚至可以直接使用Perl的正则表达式,这也是R的一个理念,作为语言就把向量计算做到极致,作为环境,就在各领域都集成最好的。R中有grep系列的函数,可以用最强大的方式处理字符串的所有问题
一个小任务,证明在某个文献看到的这句话:The median length of human transcripts is 2186 nt, with the longest transcripts having sizes of up to 101,206 nt. (These numbers are based on UCSC hg19 annotation.) 我希望大家可以基于gencode的v32也测试看看,如果不行,再去找hg19的。意思是希望大家明白,可观规律是很难因为数据库版本更新而改变
最近学员提出来了一个蛮古老的表达量芯片数据集的讨论,因为 它是做了这个PPARα的基因敲除,但是学员在分析表达量矩阵做差异的时候发现PPARα本身其实并没有统计学显著的差异表达。 数据集是:https
本文以R语言为工具,帮助客户对汽车网站的口碑数据进行抓取,并基于文本数据分词技术进行数据清理和统计。通过词频统计和词云可视化,对口碑中的关键词进行分析,挖掘出消费者对汽车的评价和需求,为汽车制造商和销售商提供重要的市场参考。
如果你对这些文件的理解还不够,继续看 :CellPhoneDB的单细胞通讯结果的理解
就是昨天推文末尾的小测试: GEOquery包的getGEO函数总是无法下载肿么办
当有几类亚群同属于某类细胞时,比如CD4+ T细胞和CD8+ T细胞均属于T细胞,想要将他们合并在一起时,可以使用此代码。
上次推文,我们通过数字和字符进行了简单的行筛选,今天我们继续来探讨 filter()的进阶用法
PS :我看到实习生还自创了一个函数:pca_plot = function(dddd,ggggg),看起来是比较有编程天赋的,值得大力培养!
通常情况下,我们认为转录因子在某个基因的启动子区域结合是调控关系,靶基因。但是这个SATB2居然绝大部分的结合位点都不是各个基因的启动子区域,就很尴尬了。不过,研究者综合motif 富集分析发现了肠道关键转录因子CDX2,HNF4A和转录调控过程中发挥重要作用的转录激活因子P300,提示SATB2可能与CDX2和HNF4A共同参与了增强子激活靶基因的转录调控。
TCGA的isoform转录本表达谱数据搞起来会有些麻烦,主要有两点一个是下载以后会出现重复名字和列的bug,这个需要重新整理一下query文件才能往下进行,另外一个就是hg19注释问题,用的是UCSC knowngene这个是数据注释的那个名字很诡异类似
生存分析指根据试验或调查得到的数据对生物或人的生存时间进行分析和推断,研究生存时间和结局与众多影响因素间关系及其程度大小的方法,也称生存率分析或存活率分析。常用于肿瘤等疾病的标志物筛选、疗效及预后的考
数据的清理 如同列夫托尔斯泰所说的那样:“幸福的家庭都是相似的,不幸的家庭各有各的不幸”,糟糕的恶心的数据各有各的糟糕之处,好的数据集都是相似的。一份好的,干净而整洁的数据至少包括以下几个要素: 1、每一个观测变量构成一列 2、每一个观测对象构成一行 3、每一个类型的观测单元构成一个表 就像我们最常接触的鸢尾花数据: ## Sepal.Length Sepal.Width Petal.Length Petal.Width Species ## 1 5.1 3.5
正则表达式(英语:Regular Expression)原属于计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。在很多文本编辑器里边,正则表达式通常被用来检索、替换那些符合某个模式的文本。许多程序设计语言都支持利用正则表达式进行字符串操作。例如,Perl,Shell,R,Java等等。
最近把这个数据集作为任务安排给最新学徒们,他们反馈给我的结果让我丈二和尚摸不着头脑,居然是百分百还原文献结果,如下所示的差异基因列表:
hello,hello!各位小伙伴们大家好,我是大家的小编豆豆,最近因为南京疫情,导致很多学校被封了,很多实验样品进不来,所以很多做实验的同学开始学生信。前两天,我妹妹在做GEO数据分析时遇到一点问题,就是将芯片数据的探针ID转化为Gene ID。小编以前也是学数据挖掘出身,知道这个是小伙伴们做GEO数据挖掘的第一道坎,今天小编就来写一个函数帮助小伙伴们快速的解决这个问题。
而在个人电脑,通常是Mac或者Windows,都是直接使用界面版本的rstudio更方便的交互式使用R语言。交互式的好处是所见即所得,每个代码随时响应随时看到效果,尤其适合各种各样的统计可视化需求。
如果你不知道basic.sce.pbmc.Rdata 这个文件如何得到的,麻烦自己去跑一下 可视化单细胞亚群的标记基因的5个方法,自己 save(pbmc,file = 'basic.sce.pbmc.Rdata') ,我们后面的教程都是依赖于这个 文件哦!
将你的数据整理好是一个可敬的、某些情况下是至关重要的技能,所以作者使用了数据木匠这个词。这是本书最重要的一章,将涉及以下内容:
前面我们讲过☞miRNA靶基因预测☜,我们知道miRNA靶基因预测一般是通过seed(种子序列)与靶基因序列互补配对来实现的。有很多本地版本的软件都是基于这个原理来预测miRNA靶基因的,例如☞targetscan☜,miRanda,RNAhybrid等等。这些软件都有本地版本,可以下载到自己的电脑上运行。一般输入都是两个文件,一个是miRNA的成熟体序列,因为miRNA的种子序列一般位于miRNA成熟体5‘的2-7位(参考☞miRNA靶基因预测☜),另外一个输入文件就是你要预测的靶基因序列了,这里的靶基因序列可以是mRNA 3’UTR序列,也可以是lncRNA或者circRNA序列。
其中里面的普通转录组数据集链接是:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE243245
搜索推文发现曾老师之前写过一篇,不过他这篇是在后面作图的时候发现画图报错后才转换ID,这种就会比较麻烦,所以我这里就正好在构建surat对象之初把基因名字转换好。
文章标题:《Single-cell RNA sequencing demonstrates the molecular and cellular reprogramming of metastatic lung adenocarcinoma》
计算机语言的学习并不困难,关键是一定要由浅入深的实际操作练习。也许最开始的比较简单,学习者一带而过没有实际操作,之后的进一步学习很可能会陷入不知所云的困境,实际操作所带来的感觉是无法替代的,其价值也是非常重要的。
gbm效果和randomForest相近,但是占用内存更少,且支持多核crossValidation运算。
单细胞专题 | 1.单细胞测序(10×genomics技术)的原理 单细胞专题 | 2.如何开始单细胞RNASeq数据分析 单细胞专题 | 3.单细胞转录组的上游分析-从BCL到FASTQ 单细胞专题 | 4.单细胞转录组的上游分析-从SRA到FASTQ 单细胞专题 | 5.单细胞转录组的上游分析-从FASTQ到count矩阵 单细胞专题 | 6.单细胞下游分析——不同类型的数据读入
本意:TCGA-KIRC的表达矩阵和ccRCC(肾透明细胞癌)免疫治疗后的表达矩阵进行差异分析。
酪氨酸激酶(tyrosine kinase,TKs) 是细胞信号转导途径中的重要因子,参与调节细胞生长,分化和凋亡等一系列生理生化过程,酪氨酸激酶根据其结构可分为两大类:受体酪氨酸激酶和非受体酪氨酸激酶 。我简单代码查看了一下:
目录: 快捷键大全 tips 大全 1)快捷键大全 command + return # 可以运行选择或光标所在行的代码。 alt + -(负号)# 可以快捷返回赋值符号 <- (R 中)。 shift + command + C # 可以直接给行添加或取消注释。 shift + 9 # 可以在选中位置加括号。 shift + command + M # 管道操作符%>% 的快捷键 tab # 自动补全 tab + shift # 补全格式化 shift + ctrl + 1-3 # 聚焦到某个R stud
领取专属 10元无门槛券
手把手带您无忧上云