前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >特别栏目之新型冠状病毒(2019-nCoV)序列分析

特别栏目之新型冠状病毒(2019-nCoV)序列分析

作者头像
一粒沙
发布2020-02-25 13:25:31
1.3K0
发布2020-02-25 13:25:31
举报
文章被收录于专栏:R语言交流中心
我们发现在GISAID 数据库中上传了关于26例新型冠状病毒的基因序列,作为生物信息的一个爱好者,我不禁想通过自己的想法,对这些已知的数据进行一下相应的分析。由于申请限制我们获取了公众号《测序中国》提供的数据源。那么今天我们就介绍一下R语言之外的一个基因序列分析过程:

1. 首先是微生物序列比对的相关软件下载:

MEGA https://www.megasoftware.net/

Clustalw http://www.clustal.org/download/

Clustalx http://www.clustal.org/download/

软件的安装我就不再赘述了,我下载的是老版本的MEGA 7。

2. 我们看下如何操作:

首先打开软件:

接下来就是一个对话框弹出;选择“create a new alignment”,选择“DNA”,接下来就是导入fasta的文件。

当然上面的fasta文件是多个序列合并后的文件,所以在这里我们还需要对单个的文件进行合并,然后再导入,合并需要用到windows 10自带的type功能。

当然了,这样合并后,还需要检查下合并的文件,有可能因为每个序列最后没有换行符导致,直接连起来,通过寻找“>“ 进行换行,形成对应的合并后的序列集合。然后我们看下导入后的结果:

接下来就是分析了,我们直接用默认的参数进行clustalw分析。

不过呢,这个过程如果在windows下面运行需要很长的时间,本人还是建议直接在Linux下面进行分析。至此我们就进行多序列的比对,下面就是将序列比对的结果保存下来,导出两个文件:all_seq.fas 和 all_seq.meg。

接下来,用clustalx打开我们比对好的.fas的文件,结果如下图:

接下来就是导出我们的比对的可视化结果。会输出.ps的文件,ps(PostScript)是一种页面描述语言,主要用于高质量打印。此处的结果我们只展示1-300bp序列以及最后的124个序列:

我们从中可以看出其序列存在大量的差异性。

然后把.meg的文件利用MEGA打开,如下图:

构建树之后就可以看出26个病人中病毒的序列树图:

从上图我们可以看出划红线的两个样本分别是最原始和离根最远的样本。这样说明病毒在不断的更新迭代,接下来,我们对各样本之间序列的距离进行计算。

首先我们计算总体的平均距离为4.476。我们看了上面我们划红线的两个样本发现其之间的距离为5.826>4.476。同时我们发现黄色荧光的两个样本和其他样本都存在一定的距离。

综上所述,我们的这26个序列存在相当大的差异。也就是说病毒本身在不断的进化,那么我们看下我们26个序列的重合的369个位点的进化速率,综合所有的样本平均进化速率为1,26个序列中有195个位点是大于平均演化速率的,如下图:

由于数据的限制,也只能做这么多分析。如果融合临床指标,甚至更多的组学数据也许会加速实验的进程。我们可以猜想如果随着时间的推移,将病毒进行时间序列分析,也许可以预测下一阶段的变化。

望各平台数据分析师聚己之思路,助止病毒之蔓延!

数据分享链接见:https://mp.weixin.qq.com/s/05JJbkcgxT0N5PS4Ub9TZw

(如有侵权望告知!)

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-01-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 R语言交流中心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档