首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【BMKCloud】转录组分析如此简单-如何免费做转录组个性化分析

纵观近年发表的转录组相关文献,文章的数目增长速度非常之快,但是低水平的文章比例增大,大家最直观的感觉就是:转录组文章越来越不好发表了。这其实也体现了目前发表文章对转录组数据分析挖掘的要求增高了。为了发表较高水平的文章,大家从实验设计的各个角度进行探索和创新。 在高水平转录组文章实验设计方面,大家开始倾向于多因素的研究,尽量地全面和细化实验设计。此外,在转录组实验设计方面,还有不少人另辟蹊径,充分利用这十年以来快速增长的转录组数据库中的公开数据,可直接从数据库筛选多个数据集合来进行整合分析。 这些实验设计上的创新带来了样品数目的增多,这就对数据分析和挖掘提出了更高水平的要求。另外一部分老师来说,如果没有在百迈客做转录组测序,想做一些转录组的个性化分析图表,如果自身没有分析基础,一个简单的分析也对于老师来说也是难于上青天。今天,小编就给各位老师讲讲,如何使用百迈客小工具进行进行转录组个性化分析。(这些小工具大部分都是免费试用的,部分小工具需要消耗云豆,云豆的具体获取方法见文章最后)

首先我们介绍高分文章中杀手锏分析WGCNA。WGCNA(Weighted Gene Co-Expression Network Analysis)就是一种适合进行多样本复杂数据分析的工具。WGCNA被称为加权基因共表达网络分析,通过计算基因间表达关系,鉴定表达模式相似的基因集合(module),解析基因集合与样品表型之间的联系,绘制基因集合中基因之间的调控网络并鉴定关键调控基因。WGCNA本质是基于相关系数的网络分析方法,适用于多样品数据模式,一般要求样本数多于15个。样本数多于20时效果更好,样本越多,结果越稳定。其适合应用于复杂的多样本转录组数据,是发表转录组高分文章的必备技能。 

操作步骤

分析

工具

加权基因共表达网络分析(WGCNA)

输入文件: 表达量总表, 文本格式.

输入目录: 输入存放各个样品表达量的文件夹,文件夹下有五个以上样品表达量文件,命名为 '样品名.geneExpression.xls' , 均为文本格式。

注1: 表达量文件的标题行必须以"#", "GeneID" 或"ID" 开头, 否则无法正确读取。正确的标题行示意:

PKM:阈值筛选——基因表达量均值meanFPKM(默认:1)。

Fold:阈值筛选——Module内基因的倍数筛选值(默认:0.5)。

minModuleSize:阈值筛选——Module内最小基因个数(默认:30)。

Ntop:阈值筛选——Cytoscape和VisANT互作网络中展示的基因数目上限。(默认:150)

运行后主要结果说明:结果文件打包在Result.zip中,包含多种图片和相关的数据文件。其中,readme文件是一个说明文档,对分析原理、分析步骤及结果目录进行了详细介绍。

聚类热图分析,什么是聚类热图?以热图的形式进行聚类结果的展示,可以直观的从图上分析哪些数据具有相似性,哪些数据差异较大。百迈客云(BMKCloud)免费推出的聚类热图工具主要针对矩阵文件(如不同样品的基因表达量、样本相关系数矩阵等)进行聚类分析及图片绘制,并且可以根据研究情况对绘图结果进行交互式操作(如筛选数据,调整图片配色等)。

操作步骤

分析

工具

聚类热图

操作方法:

输入文件 :文件内容应为制表符隔开的文本文件,且大小不可超过10M。默认首行、首列为表头,一般每列表示一个样品,每行表示一个基因,也可统计其他含义的数据矩阵。除表头外,参与统计绘图的内容应为纯数字,文件范例如下:

指定作图列:可对指定列绘图,如只对第 2 到第 5 列和第 10 列作图,可输入:“2-5,10”。若想按特定顺序绘图,需用逗号将绘图列按序列出,并在下方参数中取消按列聚类,如“6,3,2,5,4”。

指定基因:可输入基因列表文件,系统会自动过滤空行或以#开头的行并提取第一列作为指定基因,结合上方输入的矩阵文件进行统计绘图。

配色方案:设置绘图所采用的配色。可以选择预制方案,也可以根据实际实际需要自定义配色方案。

对数取值:对文件数据取对数后再绘图。取对数可以有效解决数据取值范围过大导致的配色问题。

归一化:对行或列进行归一化处理。可最大程度地呈现每行或每列的变化信息,避免超高值掩盖其他数据的变化。绘制基因表达量热图时,常按基因归一化。

聚类方案:可选择是否按行、列聚类。若按特定样本顺序绘制热图,可取消按列聚类。

GO、 KEGG富集图绘制,GO、KEGG分类富集图绘制工具对给定的基因集结合注释信息绘制GO分类富集图、KEGG分类富集及通路富集图。GO分类富集图是通过对基因进行GO terms 富集度统计学的分析,计算出基因的P_value和Corrected_P-value,定位基因最可能相关的GO term。KEGG分类富集图是可以把显著的pathway进行富集,有助于找到实验条件下显著性变化的生物学调控通路。

操作步骤

分析

工具

绘制GO和KEGG富集图

输入文件:Anno: 是所有基因功能注释的结果总表,一般百迈客的有参、无参项目中会有这个数据,通常的命名为All_Database_annotation.xls。

Genes_id: 指需要进行分析的基因集文件,txt文本格式,每一行是一个基因的名字。

GO_top_lines:指定前多少行用于GO富集绘图,在进行GO富集分析的时候,会将结果按P值进行排序,然后挑选前n行进行绘图,默认为20。

注意事项

(1)注释总表(All_Database_annotation.xls),该文件包含Integrated_Function.anno、Function_anno.stat、GO.list、GO_tree.stat、Kegg.pathway、Kegg.ko等6个工作表,其中GO.list、GO_tree.stat、Kegg.pathway、Kegg.ko这四个必须包含,且命名完全一致。

(2)Genes_id和注释总表的基因ID相对应;

(3)文件名称:包含字母数字以及下划线,不能以数字开头,不能有空格,不能有特殊字符等。

(4)如果是在百迈客云上分析的结果,只需要在项目结果中找到All_Database_annotation.xls文件输入即可。如果不是在百迈客做的项目,没有这个文件,您需要先将FASTA格式的文件在云平台的“基因功能注释”小工具中得到All_Database_annotation.xls,如下示意图。

运行后的结果:

转录因子也称反式作用因子,在动植物的生长发育及其对外界环境的反应中起着重要的调控作用,已成为现在生物学研究领域的热点,其功能分析是重要的研究内容之一。因此我们可以通过转录因子注释,或者可通过表达量聚类分析,筛选出关注生物学问题过程中起主要调控作用的一些转录因子。并且可以结合WGCNA鉴定的基因模块,筛选关键转录因子在基因模块中是否为hub gene,并通过预测转录因子的靶基因(MEME),筛选出基因模块中的靶基因,建立以转录因子为hub gene的调控网络。

操作步骤

分析

工具

转录因子注释

Genes:基因序列文件,支持氨基酸序列或者核酸序列,必须以fa或者fasta做后缀,示例如下:

DEG file:输入基因出自的项目的差异表达文件,该文件第一列为Gene ID,最后一列为基因上下调信息,这两列必须存在,没有可以不用选择

Organism:可以只选择研究的物种,分析速度快;也可以选择All,基于所有物种的转录因子进行比对,结果信息会更全,但是分析速度会变慢。

E-Value:进行blast比对设置的期望值,该值越小表示比对特异性越强,核酸一般设置为1e-10,氨基酸一般设置为1e-5

运行后的结果

当然了,以上介绍的只是几款大家在分析中比较经常用到的转录组分析,还有很多分析在云平台小工具上都是免费给各位老师开放使用的。BMKcloud一键式的数据下载操作,避免了繁琐的SRA数据下载、解析、上传等等操作,保存到云平台上,即可使用云平台App图形化的分析流程,完成分析,100+款小工具,将结果图标优化到文章等级。

云豆获取方法

活动来啦!

1.文末留下使用体验及建议,点赞量前2名获得2万云豆或可以免费进行20个转录组样品云分析,其余所有留言人员均可获赠1万云豆(之前参加过转录组分析如此简单已中奖的客户,不能参与此次活动)

2.本次兑奖截止日期到7月31号中午12点。

百迈客现提供测序分析+分子试剂一站式解决方案,与分子实验相关试剂盒如提取试剂盒、反转试剂盒、qPCR试剂盒、PCR Mix、无缝克隆等试剂盒均参与百迈客十一周年庆活动。

文:张倩丽

排版:市场部

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20200709A0LV7L00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券