学习
实践
活动
专区
工具
TVP
写文章

新版转录组测序信息分析,来了!

去年的衣服配不上今年的身材,要更新;昨天养的蛙读不懂今天的心情,要更新;老旧规划满足不了人民对美好生活的需求,要更新……

看到没,更新、更新、更新就是生活的主题啊。做信息分析的产品自然也一样,而且更重要,这关乎文章发表、按期毕业,不“新”怎行?所以,不要等您的转录组测序信息分析出现下面这些“老”问题时,才考虑更新,好吗?

01

数据库和软件版本太低

各种数据库和软件都在不断更新,用旧版、非授权版,分析结果还可信吗?

02

分析内容太旧

没跟上分析新热点,老一套分析内容和别人都一样,要怎么从中挖掘出新发现?

03

被图片丑到哭

发文章图片要炫,结题报告从配色就好老土,要自学P图画画美工特效?

您的这些担忧,我们都懂!新学期要有新装备,是时候了解转录组测序三大产品了。信息分析升级新版本,完美解决以上三大问题。

真核无参转录组测序,

真核有参转录组测序,

RNA-Seq(定量),

获得“国内独一无二”最全最新版的数据库,

与《Science》新文章[1]不谋而合的分析热点。

一、数据库版本“全“”新”升级

囊括13大数据库,更有国内唯一授权KEGG

数据库重要吗?当然重要!数据库是功能注释的基础。测序获得大量表达基因,要依靠比对数据库,才能获得基因的生物学功能。 这么重要的数据库,一定要“全“,要”新”。

,我们不仅有全面型的权威数据库,KEGG、GO、Nt、Nr等,还有专门领域的数据库,动植物转录组因子、植物抗病、真菌致病数据库等。

,全部都升级最新版本数据库,收录了更多的物种、基因注释、功能层次、互作关系,修正旧版本的错误。

将13大功能注释数据库一网尽收,全面升级:

表1 转录组测序的功能注释数据库

更数据库持续定期更新,始终保证您能拿到最全、最新的分析结果!

这里特别要提到的是Pathway分析使用的KEGG数据库,绝大多数的生物信息公司仍然沿用了几年前的免费旧版本。但华大早在几年前就获得KEGG正式许可,是中国唯一一家KEGG授权的商业提供商,保障您拿到的结果安心可靠!

图1 华大基因是中国唯一一家KEGG授权的商业提供商

咱们再说说真核无参转录组测序,增加了组装评价数据库以及升级了七大数据库功能注释。科技君给大家理一理这么多库怎么看才好呢!

1、组装评价

使用单拷贝直向同源数据库BUSCO对组装的转录本进行质量评估,通过与保守基因进行比较,在一定程度上说明转录组组装的完整性。

图2 BUSCO组装评价结果

2、功能注释

为什么需要这么多个库做功能注释呢?为了“全”。每个数据库都有自己偏倚性,为了提高注释的数目和质量,往往采用多个库连用的方式。虽然每个库都很重要,不过如果知道哪些重点先看,就更方便了呀。科技君推荐大家这样看:

(1)Nt、Nr获得全面注释

Nt和Nr是NCBI官方的数据库,公认度高,全面。

Nt是核酸序列数据库,最全面,一般注释上的Unigene总数在七个库中最多。

Nr是蛋白序列数据库,一般注释上的总数仅次于NR,而且可以看注释到不同物种上的比例,占比最多的可能是相对近源的物种。

(2)Swiss-Prot和Pfam预测编码区

Swiss-Prot是经检查过的、 手工注释的蛋白序列数据库,因而质量高,更可信。

Pfam是最全面的蛋白结构域家族数据库,根据蛋白结构域进行家族分类。

这两个数据库除了功能注释,主要用途是在我们的CDS预测这条分析咯。

图3 SwissProt和Pfam预测CDS、CDS长度分布图

(3)KOG、GO、KEGG获得功能分类

这三个库有什么区别呢?简单说,分类的精细程度不同, KOG

KOG是直系同源基因家族数据库,一共是25个功能组,分类较粗;

GO 是基因功能数据库,先分成3个大类,每个大类有很多Term,分类细;

KEGG是信号通路数据库,认可度高,先分为7大类,每个大类下有二级分类等,分类特别细;特别是有一个最大的优点,有非常丰富的信号通路图,一图道尽一个通路上所包含的基因之间相互作用关系。

图4 KEGG数据库的信息通路图

二、分析内容升级

特色分析5图与众不同,热点分析8项助发高分文章

1、5大特色关系网络图,发现基因间相互作用的脉络和核心基因

在功能注释分析上更直观,方便查看基因之间相互关系,聚集一起的基因可能有相似功能或互作关系。

图5 GOTerm关系网络图、KEGG-差异表达基因关系网络图

图6 差异表达基因的蛋白互作网络图

转录因子-差异表达基因关系网络图 WGCNA的基因共表达网络图

2、8项共表达分析热点,分模块展示,透彻展现最深入共表达结果

共表达分析呈现更简约化,按单个模块查看,并和每个样品一一联系起来,还增加深入注释功能。

(1)共表达基因模块与样品相关性图,一张总图查看单个模块和单个样品的相关性

图7 共表达基因模块与样品的相关性图

(2)各个模块单独的共表达基因网络图,每个模块一张图

图8 单个模块的基因共表达网络图

(3)各个模块单独提供的GO和KEGG注释,每个模块一张图

图9 单个模块的共表达基因GO功能分类图、功能富集有向无环图、GOTerm关系网络图

图10 单个模块的差异基因Pathway分类图 、富集结果、KEGG-差异表达基因关系网络图

为什么这次我们在共表达分析上增加了足足8项新内容?

因为共表达分析是如今非常火热的一项分析热点。恰好今年2月9日,《Science》杂志就新发表了一篇文章[1]与我们不谋而合:对五种精神疾病进行转录组研究鉴定基因共表达模式。

对五种主要的精神障碍(孤独症、精神分裂症、躁郁症、抑郁症和酒精中毒)的转录模式进行综合分析,并通过比较病例和对照已发现共表达的基因模块,确定了这些精神疾病间的差异及共享基因表达模式。我们提供的分析和它类似,配图也美得可以登《Science》了,不信您往下看:WGCNA的基因模块(图A)和我们结题报告一样,模块与样品之间相关情况(图B、C和F),单个模块基因表达网络图(图D),GO功能注释(图E)等和我们结果非常相似。

图11 《Science》新文章-五种精神障碍疾病共表达基因模块

三、结题报告展现更美

不仅美观,而且简单明了

1、SNP、可变剪接堆积图

分每个样品展示,每个类型按比例呈现,更加易懂易用。

图12 SNP类型统计、差异可变剪接数目统计堆积图

2、表达量热图配色更美

图13 差异表达基因的表达量热图

四、分析软件升级

1、真核无参转录组测序组装软件Trinity,升级最新版本。

2、真核有参转录组测序差异可变剪接基因检测软件rMATS,升级最新版本。

参考文献:

[1] Michael J. Gandal, Jillian R. Haney,et, al. Shared molecular neuropathology across major psychiatric disorders parallels polygenic overlap.Science, 09 Feb 2018: Vol. 359, Issue 6376, pp. 693-697. DOI: 10.1126/science.aad6469.

撰稿:赵 青

编辑:市场部

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180327B1J61P00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

关注

腾讯云开发者公众号
10元无门槛代金券
洞察腾讯核心技术
剖析业界实践案例
腾讯云开发者公众号二维码

扫码关注腾讯云开发者

领取腾讯云代金券