我们的生信入门班和数据挖掘线上直播课程已经有了三年多的历史,培养了一波又一波优秀的生信人才。新一期的生信入门班学员热情高涨,他们富有探索精神,又乐于助人,这是一个在帮助别人的过程中自己也获得进步的例子,令我们非常开心。
见Y叔的网络在线书籍《clusterProfiler: universal enrichment tool for functional and comparative study》的 Chapter 12 Visualization of Functional Enrichment Result , 自己简单搜索就可以直达这个在线书籍的链接:
在小编的印象中,2年前纯生信文章要是发5分以上还是比较容易的。However,不知什么时候,某个审稿人大脑抽筋,要求做实验来验证,现在的纯生信文章想突破5分还是不容易啊!那么今天,我们就来欣赏这个复旦小哥哥生信文章的魅力吧!文章是今年7月15日发的(最新啊!),题目如下:
有一些基础R包是不能清除的。想重新安装,把我们给学员准备工作的代码从第一行开始运行即可。
原因:随着技术平台的不断发展,许多已发布的实验数据集可以被不同统计方法整合,使得可以同时使用各种方法来解决同一研究问题。但是为了从所有这些选择中获得最大的收益,我们需要以公正的方式整合它们的结果,例如不同实验的差异分析结果。优先排序的基因列表是基因组数据分析应用程序中常见的结果表示方法。因此,秩聚合方法可以成为这一类问题的有用且通用的解决方案。
在一篇论文中,最引人注目的除了标题和摘要,便是嵌于文中的各种图表了。而图形凭借其更为直观的表达效果一直备受学术界青睐,可以说如何用更为美观的图形更恰当、更全面、更精准地展现研究结果,是所有研究者一直在探索的课题。
昨天我们介绍了富集分析的基本的内容:GO分析和KEGG分析都是啥?。但是富集分析还是有很多不同的算法的,对于主要的算法过程其实不用太多了解,这个由专业人士来解决就行。但是对于其输入条件和主要区别还是要了解的,这样能方便我们使用。
毫无疑问,处理数据的首要条件是理解数据从产生,对应到我们这个系列,也就是了解三维基因组的背景知识,如下:
前面我在生信技能树分享过 批量cox生存分析结果也可以火山图可视化 介绍了火山图的基础认识,同时也给了大家代码可以批量做cox分析,并且绘制出来火山图。 最近看到一个文献,是数据集:https://w
首先,让我们再简单回顾下GSEA的操作过程,(1)我们需要按顺序排列好的gene list用于分析,(2)需要参考基因集pre-defined gene set,那么这个从哪里来呢?这么跟大家说吧,在GSEA中富集出来的基因功能类或者基因集合都是提前定义好的,谁定义的呢?当然是GSEA官方或者一些权威数据库(比如KEGG通路数据库,Gene Ontology数据库等)。举个例子,有哪些基因隶属于p53 signaling pathway或者MAPK singaling pathway是不需要我们操心的,有专家已经帮我们定义好了。那么,如何去查看或者下载这些预定义好的基因集合呢?打开如下链接:
当时那篇文章的研究者关注的是差异表达,根据阈值筛选后总共是 15 differential miRNAs and 372 differential mRNAs ,很简单,表达矩阵的差异分析策略我们多次讲解了。走标准分析流程,火山图,热图,GO/KEGG数据库注释等等。这些流程的视频教程都在B站和GitHub了,目录如下:
因为都是标准的代码,所以每次有学徒和实习生我都会让大家两次十几个数据集,凑成为了一个合辑:《1000个基因芯片表达量矩阵数据处理》:
本来我可以起个骚气一点的名字 那一晚,我灌醉了这个男人,逼他说出了所有真相 但是那样很无聊,而且我不觉得有趣,我现在想做的就是,如何成为一位优秀的称职的R语言讲师。 其实我的目标是,中国会做实验的临床医生中最优秀的R语言老师。 这个是可以完成的。 一维世界比的是长度,二维比的是面积,三维空间比的是体积,我限定了实验,临床,R语言这三个维度,已经是很小的世界了。 就跟微博起初限定140字发言,大部分QQ空间用户不能理解一样, 我的课程被限制在3个小时当中,可是3个小时能学啥呢?别人不都是2天48小时的课程
最近在做一个0元,10小时教学视频直播《跟着百度李彦宏学习肿瘤基因组测序数据分析》,直播活动,收集整理文献看到了一个很有意思的研究,节选文章里面的部分图表作为学徒作业哈!
所以最近又有学徒咨询这个细节了,她的疑问是,为什么ssGSEA得分,跟其基因集里面的每个基因的表达量,并不是完全相关的,我这次写了一个例子来讲解。
比如这篇Published: 12 March 2019的文章:Identification of Key Long Non-Coding RNAs in the Pathology of Alzheimer’s Disease and their Functions Based on Genome-Wide Associations Study, Microarray, and RNA-seq Data 就采取了挖掘RNA-seq这样的测序数据的策略。
居然有些人就开始指责我的教程,说这样误导大家了,不同物种的基因对应关系是有相应的同源基因数据库的,不能仅仅是把基因名字修改。让我很无语,难道我不知道可以严谨一点吗?
肿瘤“种子与土壤”学说是肿瘤生物学最具影响力的理论之一,自提出以来就受到了广泛的认可和延伸。该理论认为肿瘤的发生发展不仅是肿瘤细胞遗传学和表观遗传学方面的改变,还有肿瘤微环境作为恶性种子生长繁育的“肥沃土壤”,彼此相互影响,共同进化,促进了肿瘤的产生。肿瘤微环境火了,大家都想把自己的分析向肿瘤微环境靠,今天小编跟大家分享一篇近期发表在frontiers in oncology(IF:4.137)上的肿瘤微环境相关的文章:BTK Has Potential to Be a Prognostic Factor for Lung Adenocarcinoma and an Indicator for Tumor Microenvironment Remodeling: A Study Based on TCGA Data Mining(BTK有可能成为肺腺癌的预后因素和肿瘤微环境重塑的指标:一项基于TCGA数据挖掘的研究)。该研究基于基质评分和免疫评分共同筛选与肺腺癌免疫浸润的预后因子。我们重点学习一下文章的分析思路。
建国70周年大庆即将到来,各行各业都在积极筹备迎接祖国的生日,在这个举国欢腾的时刻,我们决定以一种特殊方式来表达自己对祖国母亲的祝福:一副用R语言绘制的中国地图。
昨天给大家简单的介绍了一下富集分析的常见算法(基因富集分析算法介绍),但是具体要怎么实现基因的富集分析呢?今天给大家推荐个软件,
前面我们发布了 明码标价之普通转录组上游分析,马上就有粉丝提出了需求,是数据集GSE165752,希望我们帮忙走转录组上游分析拿到其表达量矩阵。 但是其实人家本来就是提供了表达量矩阵,链接是:http
基于超几何分布检验的富集分析做KEGG数据库的时候,它总共只有七千多个基因,人类总的背景基因有两万多个,被KEGG记住的只有6500个(一直在增加),假设一条通路有117个基因参与,我们的差异基因中有10个与之重合,这已经是很多了,超几何分布检验会判定是统计学显著。
GSVA分析的文章发表于2013年,GSVA: gene set variation analysis for microarray and RNA-Seq data 同样是broad 研究生出品,其在2005年PNAS发表的gsea已经高达1.4万的引用了,不过这个GSVA才不到300。去年我就介绍过一波它的分析流程,在:使用GSVA方法计算某基因集在各个样本的表现 非常简单的代码,所以各个培训机构,公司人员都开始学习和二次创作进而分享。
为了分析不同类型、组织起源肿瘤的共性、差异以及新课题。TCGA于2012年10月26日-27日在圣克鲁兹,加州举行的会议中发起了泛癌计划。参考:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6000284/ 为此我也录制了系列视频教程在:TCGA知识图谱视频教程(B站和YouTube直达)
前面简单介绍过基因矩阵转置文件格式(* .gmt),并且也展示了如何使用R读取gmt文件,今天我们来看看如何做GSEA(Gene Set Enrichment Analysis,基因集富集分析)以及GSEA的结果如何解读。
教程将提供: 1、所有与教程有关的R的所有脚本、教程所用的教学数据。 2、赠送网易云课程等价值课程。 3、提供免费共享云服务器工具镜像,并享受VIP级的答疑服务。 课程目录: 1、Linux命令与服务器将不是学习生信的障碍——如何建立适合转录组分析的便宜云服务器。 2、如何高速下载SRA数据(RNA-seq原始数据)。 3、这些数据能用吗?(数据的质量与链特异性检测)。 4、STAR分析转录组的流程。 5、相关Linux批量处理数据命令介绍。 6、DEseq2统计分析差异基因。 7、测序数据怎样进行GSEA分析。 8、热图与火山图,GO与KEGG的可视化。
通过前面的讲解,我们顺利的了解了GEO数据库以及如何下载其数据,得到我们想要的表达矩阵,也学会了两个常用的套路分析得到的表达矩阵,就是GSEA分析和差异分析。也通过超几何分布检验的方法成功的理解了我们的统计学显著的差异表达基因的生物学功能。包括 GO/KEGG数据库 以及 Reactome和Msigdb数据库的理解。 历史目录: 解读GEO数据存放规律及下载,一文就够 解读SRA数据库规律一文就够 从GEO数据库下载得到表达矩阵 一文就够 GSEA分析一文就够(单机版+R语言版) 根据分组信息做差异分析-
临床样品的特色是:通常是FFPE样本,在保存过程中往往造成RNA的断裂,不论是qPCR还是RNA-seq都难以进行精准的定量,这个时候Nanostring 仪器就是为了解决这些问题而诞生的。所以它在医院的流行程度很高,而我们要介绍的这篇文章就来自于医院科研人员,所以选择Nanostring就很容易理解啦。
标题:A novel autophagy-related lncRNA prognostic risk model for breast cancer
因为现阶段传统bulk转录组测序项目成为了标准品,无论大家在哪个公司测序都是几百块钱一个样品,简单的3分组的6个样品,就包括了定量和普通差异分析服务,因为都是流程化的。但是有一些情况下是大家并不想自己重新收集样品或者联系公司做转录组测序服务,而是希望可以直接分析已经发表的文献里面的数据,找到一些感兴趣的基因和通路。我们也提供了大量的教学视频和代码,见:
小结 一年了,没想到写了这么多~重要的是这是一个完整的分析流程,非常实用。 从头开始(需要服务器) 当你拿到了测序公司的原始数据或者你想从SRA<- 大牛的数据都存在这里下载到有价值的数据用来分析首先你得有台服务器,看下面的教程“站长,课题组要买一台服务器做转录组分析,怎么破?” “站长,没钱买高配置电脑咋做10次Lasso?” 然后这个教程告诉你省钱的方法10元转录组分析:这次真的是干货了~灰常干 当然如果你想要以下教程中所涉及的工具,看这个教程“站长,有没有丝滑般感受的生信软件安装教程?” 怎么获得
算法本身就不是很好理解,并不强求一定要理解透彻,可以参考2005年的GSEA算法:
前面整理了100多套R代码,因为时间跨度有点长,而且公众号写作后没办法修改,所以安排实习生进行代码审查,看看是不是确实复制粘贴就可以运行。
我写公众号的最初目的就是督促自己学习,分享一些教程,和专门搞生信的大佬们比起来,自己也就是菜鸟一枚,公众号更新也比较佛系,也不做推广,你能自行关注到,完全靠缘分。我就是分享一些生信基础的生信分析技能,以满足大家在科研工作中的生信需求。说实话,大家需要给你自己以定位,自己做纯生信的还是只是借助生信为大家在湿实验中提供思路,或者文章中添加一些生信内容。如果你是做纯生信,那也是分档次和研究方向的,如果只是分析别人的数据,比如预后模型这种,属于比较低端的水平。有的做开发,比如开发一个R包或者一些其他生信分析工具,又或者是建数据库,这些属于开发类。另外,这个也和研究领域有很大关系,植物的,人的,微生物的,是有区别的,当然,很多基础工具都差不多,但需要相关的知识背景。我自己主要是做药,癌症,所以我会的技能主要和自己研究方向相关的,我也不是什么都掌握,因为我觉得,具备基础知识储备后,自己用到什么就去现学现卖,而不是一下子学会很多东西等着以后用,我个人认为这是效率极其低下的。
如果是想通过培训掌握生物信息学,那么可以参考:彻底入门生物信息学,可能需要12天! 推文介绍的。
最近全国巡讲的学员又问到了多个探针对应同一个基因取最大值类似的问题,我们的斯老师找到了我三年前的博客:多个探针对应一个基因,取平均值或者最大值 我看到里面的留言很有趣:
前两天介绍了一个开发中的单细胞数据分析相关R包,内置了,4(热图,气泡图,upset图,堆叠条形图)+4(密度散点图,半小提琴,山峦图,密度热图)美图,见 8种方法可视化你的单细胞基因集打分 ,蛮多小伙伴留言想问一下到底什么是基因集打分,正好学徒投稿了她自己的理解,借花献佛分享给大家。
通过学习,我们知道这个RcisTarget包内置的motifAnnotations_hgnc是16万行,可以看到每个基因有多个motif。而且下载好的 hg19-tss-centered-10kb-7species.mc9nr.feather 文件,也是 24453个motifs的基因排序信息。但是我们留下来了一个悬念,如何从几万个注释结果里面挑选到最后100个富集成功的motif呢?
我们大家应该对通路富集分析都很熟悉,比如GSEA,DAVID等。都是在大量文章中常见的通路富集方法,那么今天我们也给大家介绍一个更加复杂的通路富集分析的前期数据处理包GSVA(gene set variation analysis)。是一种非参数的无监督分析方法,主要用来评估芯片核转录组的基因集富集结果。主要是通过将基因在不同样品间的表达量矩阵转化成基因集在样品间的表达量矩阵,从而来评估不同的通路在不同样品间是否富集。具体的一个分析流程如下:
生信技能树jimmy大神分享过芯片探针注释到基因名的3种方法: 1金标准当然是去基因芯片的厂商的官网直接去下载 2一种是直接用bioconductor的包 3一种是从NCBI里面下载文件来解析 我作
通过前面的讲解,我们顺利的了解了GEO数据库以及如何下载其数据,得到我们想要的表达矩阵,也学会了两个常用的套路分析得到的表达矩阵,就是GSEA分析和差异分析。 历史目录: 解读GEO数据存放规律及下载,一文就够 解读SRA数据库规律一文就够 从GEO数据库下载得到表达矩阵 一文就够 GSEA分析一文就够(单机版+R语言版) 根据分组信息做差异分析- 这个一文不够的 但是差异分析通过自定义的阈值挑选了有统计学显著的基因列表后我们其实是需要对它们进行注释才能了解其功能,最常见的就是GO/KEGG数据库注释咯,
我最早接触的高通量数据就是RNA-seq,后来接触的也基本是高通量测序结果而不是芯片数据,因此我从来没有分析过一次芯片数据,而最近有一个学员在看生信技能树在腾讯课堂发布的课程GEO数据库表达芯片处理之R语言流程(阅读原文购买)遇到了问题问我请教,为了解决这个问题,我花了一个晚上时间学习这方面的分析。
解决方式也简单,加上代码:options( 'download.file.method.GEOquery' = 'libcurl' ) 即可!
正常情况下,应该是存放fastq原始数据,链接是;https://www.ncbi.nlm.nih.gov/sra/PRJNA705464
是时候把生信技能树平台交给后辈了,前面我介绍了;ggplot2绘图基础功不扎实?看完这5个资源 有一个学员从头到尾学完了这些资源,成长为了绘图小牛,还有自己的公众号,我先邀请他投稿一个笔记,后面有机会再推荐他的公众号!
这里我们一起读文献:Circular RNAs expression profiles in plasma exosomes from early‐stage lung adenocarcinoma and the potential biomarkers 来看看cirRNA-seq分析的一般流程。
文章发表于:Oncotarget. 2018; 题目是:Single-cell RNA sequencing reveals gene expression signatures of breast cancer-associated endothelial cells
绝大部分还没有接触单细胞的小伙伴很容易被无良自媒体带节奏,误以为单细胞就等价于CNS级别文章,或者再差也是子刊级别。实际上新技术的红利窗口期非常短暂,从样品量数据量的要求一直在水涨船高!比如我们看看某公司2020第四季度单细胞文章合辑,如下所示:
领取专属 10元无门槛券
手把手带您无忧上云