文章/答案/技术大牛

发布

【BMKCloud】转录组分析如此简单-如何免费做转录组个性化分析

文章来源：企鹅号 - 百迈客生物

纵观近年发表的转录组相关文献，文章的数目增长速度非常之快，但是低水平的文章比例增大，大家最直观的感觉就是：转录组文章越来越不好发表了。这其实也体现了目前发表文章对转录组数据分析挖掘的要求增高了。为了发表较高水平的文章，大家从实验设计的各个角度进行探索和创新。在高水平转录组文章实验设计方面，大家开始倾向于多因素的研究，尽量地全面和细化实验设计。此外，在转录组实验设计方面，还有不少人另辟蹊径，充分利用这十年以来快速增长的转录组数据库中的公开数据，可直接从数据库筛选多个数据集合来进行整合分析。这些实验设计上的创新带来了样品数目的增多，这就对数据分析和挖掘提出了更高水平的要求。另外一部分老师来说，如果没有在百迈客做转录组测序，想做一些转录组的个性化分析图表，如果自身没有分析基础，一个简单的分析也对于老师来说也是难于上青天。今天，小编就给各位老师讲讲，如何使用百迈客小工具进行进行转录组个性化分析。（这些小工具大部分都是免费试用的，部分小工具需要消耗云豆，云豆的具体获取方法见文章最后）

首先我们介绍高分文章中杀手锏分析WGCNA。WGCNA（Weighted Gene Co-Expression Network Analysis）就是一种适合进行多样本复杂数据分析的工具。WGCNA被称为加权基因共表达网络分析，通过计算基因间表达关系，鉴定表达模式相似的基因集合（module），解析基因集合与样品表型之间的联系，绘制基因集合中基因之间的调控网络并鉴定关键调控基因。WGCNA本质是基于相关系数的网络分析方法，适用于多样品数据模式，一般要求样本数多于15个。样本数多于20时效果更好，样本越多，结果越稳定。其适合应用于复杂的多样本转录组数据，是发表转录组高分文章的必备技能。

操作步骤

分析

工具

加权基因共表达网络分析（WGCNA）

输入文件: 表达量总表, 文本格式.

输入目录: 输入存放各个样品表达量的文件夹,文件夹下有五个以上样品表达量文件，命名为 '样品名.geneExpression.xls' , 均为文本格式。

注1: 表达量文件的标题行必须以"#", "GeneID" 或"ID" 开头, 否则无法正确读取。正确的标题行示意：

PKM：阈值筛选——基因表达量均值meanFPKM（默认：1）。

Fold：阈值筛选——Module内基因的倍数筛选值（默认：0.5）。

minModuleSize：阈值筛选——Module内最小基因个数（默认：30）。

Ntop：阈值筛选——Cytoscape和VisANT互作网络中展示的基因数目上限。（默认：150）

运行后主要结果说明：结果文件打包在Result.zip中，包含多种图片和相关的数据文件。其中，readme文件是一个说明文档，对分析原理、分析步骤及结果目录进行了详细介绍。

聚类热图分析，什么是聚类热图？以热图的形式进行聚类结果的展示，可以直观的从图上分析哪些数据具有相似性，哪些数据差异较大。百迈客云（BMKCloud）免费推出的聚类热图工具主要针对矩阵文件（如不同样品的基因表达量、样本相关系数矩阵等）进行聚类分析及图片绘制，并且可以根据研究情况对绘图结果进行交互式操作（如筛选数据，调整图片配色等）。

操作步骤

分析

工具

聚类热图

操作方法：

输入文件：文件内容应为制表符隔开的文本文件，且大小不可超过10M。默认首行、首列为表头，一般每列表示一个样品，每行表示一个基因，也可统计其他含义的数据矩阵。除表头外，参与统计绘图的内容应为纯数字，文件范例如下：

指定作图列：可对指定列绘图，如只对第 2 到第 5 列和第 10 列作图，可输入：“2-5,10”。若想按特定顺序绘图，需用逗号将绘图列按序列出，并在下方参数中取消按列聚类，如“6,3,2,5,4”。

指定基因：可输入基因列表文件，系统会自动过滤空行或以#开头的行并提取第一列作为指定基因，结合上方输入的矩阵文件进行统计绘图。

配色方案：设置绘图所采用的配色。可以选择预制方案，也可以根据实际实际需要自定义配色方案。

对数取值：对文件数据取对数后再绘图。取对数可以有效解决数据取值范围过大导致的配色问题。

归一化：对行或列进行归一化处理。可最大程度地呈现每行或每列的变化信息，避免超高值掩盖其他数据的变化。绘制基因表达量热图时，常按基因归一化。

聚类方案：可选择是否按行、列聚类。若按特定样本顺序绘制热图，可取消按列聚类。

GO、 KEGG富集图绘制，GO、KEGG分类富集图绘制工具对给定的基因集结合注释信息绘制GO分类富集图、KEGG分类富集及通路富集图。GO分类富集图是通过对基因进行GO terms 富集度统计学的分析，计算出基因的P_value和Corrected_P-value，定位基因最可能相关的GO term。KEGG分类富集图是可以把显著的pathway进行富集，有助于找到实验条件下显著性变化的生物学调控通路。

操作步骤

分析

工具

绘制GO和KEGG富集图

输入文件：Anno: 是所有基因功能注释的结果总表，一般百迈客的有参、无参项目中会有这个数据，通常的命名为All_Database_annotation.xls。

Genes_id: 指需要进行分析的基因集文件，txt文本格式，每一行是一个基因的名字。

GO_top_lines：指定前多少行用于GO富集绘图，在进行GO富集分析的时候，会将结果按P值进行排序，然后挑选前n行进行绘图，默认为20。

注意事项

（1）注释总表（All_Database_annotation.xls），该文件包含Integrated_Function.anno、Function_anno.stat、GO.list、GO_tree.stat、Kegg.pathway、Kegg.ko等6个工作表，其中GO.list、GO_tree.stat、Kegg.pathway、Kegg.ko这四个必须包含，且命名完全一致。

（2）Genes_id和注释总表的基因ID相对应；

（3）文件名称：包含字母数字以及下划线，不能以数字开头，不能有空格，不能有特殊字符等。

（4）如果是在百迈客云上分析的结果，只需要在项目结果中找到All_Database_annotation.xls文件输入即可。如果不是在百迈客做的项目，没有这个文件，您需要先将FASTA格式的文件在云平台的“基因功能注释”小工具中得到All_Database_annotation.xls，如下示意图。

运行后的结果：

转录因子也称反式作用因子，在动植物的生长发育及其对外界环境的反应中起着重要的调控作用，已成为现在生物学研究领域的热点，其功能分析是重要的研究内容之一。因此我们可以通过转录因子注释，或者可通过表达量聚类分析，筛选出关注生物学问题过程中起主要调控作用的一些转录因子。并且可以结合WGCNA鉴定的基因模块，筛选关键转录因子在基因模块中是否为hub gene，并通过预测转录因子的靶基因（MEME），筛选出基因模块中的靶基因，建立以转录因子为hub gene的调控网络。

操作步骤

分析

工具

转录因子注释

Genes：基因序列文件，支持氨基酸序列或者核酸序列，必须以fa或者fasta做后缀，示例如下：

DEG file：输入基因出自的项目的差异表达文件，该文件第一列为Gene ID，最后一列为基因上下调信息，这两列必须存在，没有可以不用选择

Organism：可以只选择研究的物种，分析速度快；也可以选择All，基于所有物种的转录因子进行比对，结果信息会更全，但是分析速度会变慢。

E-Value：进行blast比对设置的期望值，该值越小表示比对特异性越强，核酸一般设置为1e-10，氨基酸一般设置为1e-5

运行后的结果

当然了，以上介绍的只是几款大家在分析中比较经常用到的转录组分析，还有很多分析在云平台小工具上都是免费给各位老师开放使用的。BMKcloud一键式的数据下载操作，避免了繁琐的SRA数据下载、解析、上传等等操作，保存到云平台上，即可使用云平台App图形化的分析流程，完成分析，100+款小工具，将结果图标优化到文章等级。

云豆获取方法

活动来啦！

1.文末留下使用体验及建议，点赞量前2名获得2万云豆或可以免费进行20个转录组样品云分析，其余所有留言人员均可获赠1万云豆（之前参加过转录组分析如此简单已中奖的客户，不能参与此次活动）

2.本次兑奖截止日期到7月31号中午12点。

百迈客现提供测序分析+分子试剂一站式解决方案，与分子实验相关试剂盒如提取试剂盒、反转试剂盒、qPCR试剂盒、PCR Mix、无缝克隆等试剂盒均参与百迈客十一周年庆活动。

文：张倩丽

排版：市场部

发表于: 2020-07-092020-07-09 17:00:26
原文链接：https://kuaibao.qq.com/s/20200709A0LV7L00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

【BMKCloud】转录组分析如此简单-如何免费做转录组个性化分析

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐