hpv病毒基因研究调研

2015年有一篇文献中提到了hpv的研究现状

As of May 30, 2015, 201 different HPV types had been completely sequenced and officially recognized and divided into five PV-genera: Alpha-, Beta-, Gamma-, Mu-, and Nupapillomavirus.

文献地址: http://www.ncbi.nlm.nih.gov/pubmed/26086163

根据文献,我找到了hpv所有已知测序种类的参考基因组网站:http://www.hpvcenter.se/html/refclones.html

截至到2015年7月已经有了205种,我爬取它们的genebank ID号,然后用python程序批量下载了它们的序列,能下载的序列共179条,都是8K左右的碱基序列。

根据genebank ID或者其它ID号批量下载核酸序列的脚本如下

import sysimport timeimport randomfrom Bio import Entrezids=[]infile=sys.argv[1]for line in open(infile,'r'):line=line.strip()ids.append(line)for i in range(1,len(ids)):#  t = random.randrange(0,5)handle =Entrez.efetch(db="nucleotide", id=ids[i],rettype="fasta",email="jmzeng1314@163.com")#  time.sleep(t)print handle.read()

脚本的使用很简单,保持输入文件是一行一个ID号即可。同时,根据文献我们也能得到hbv病毒提取方法当然,我当年居然写过python???

同样,拿到下载的178条序列我们可以做一个进化树,在那篇文章中已经做好了,我就不做了。

下载179条hpv序列,每条序列都是8KB左右。我还用了R脚本批量下载

library(ape)a=read.table("hpv_all.ID") #输入文件是一行一个ID号即可for (i in 1:nrow(a)){tmp=read.GenBank(a[i,1],seq.names = a[1,1],as.character = T)write.dna(tmp,"tmp.fa",format="fasta", append=T,colsep = "")}

然后用muscle做比对,比对过程相对比较简单,大家感兴趣可以参照我之前的几篇笔记。

  • Muscle进行多序列比对 http://www.bio-info-trainee.com/?p=659
  • Figtree的把进化树文件可视化 http://www.bio-info-trainee.com/?p=660
  • 用phyML对多重比对phy文件来构建进化树 http://www.bio-info-trainee.com/?p=626
muscle -in mouse_J.pro -out mouse_J.pro.amuscle -maketree -in mouse_J.pro.a -out mouse_J.phy

貌似时间有点长呀,最后还莫名其妙的挂掉了,可能是我的这个测试服务器配置有点低。

(非常经典的 segmentation fault )

进化树如下所示:

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2017-06-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI研习社

运用 MXNet Scala API 接口进行图像分类(附代码)

随着 MXNet 1.2.0 版本的发布,新的 MXNet Scala API 接口也发布了。这次发布的 Scala,里面的推理应用程序致力于优化开发者体验。S...

771
来自专栏付越的专栏

深度学习入门篇--手把手教你用 TensorFlow 训练模型

最近笔者终于跑通 TensorFlow Object Detection API的ssd_mobilenet_v1 模型,这里记录下如何完整跑通数据准备到模型使...

3.7K2
来自专栏用户2442861的专栏

caffe python 图片训练识别 实例

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/haluoluo211/article/details...

702
来自专栏fangyangcoder

tensorflow笔记(三)之 tensorboard的使用

http://www.cnblogs.com/fydeblog/p/7429344.html

775
来自专栏云计算教程系列

如何在Ubuntu 16.04上安装和使用TensorFlow

TensorFlow是一款由Google构建的用于训练神经网络的开源机器学习软件。TensorFlow的神经网络以有状态数据流图的形式表示。图中的每个节点表示神...

1468
来自专栏生信技能树

如何选择聚类模块数目

一般来说,类似K-means聚类算法需要我们提取指定聚类得到的cluster数目。 那么问题来了,如何为聚类选择一个适合的cluster数目呢 ? 很遗憾,上面...

53610
来自专栏PaddlePaddle

【使用指南】PaddlePaddle安装编译问题汇总和基本使用概念

编写|PaddlePaddle 排版|wangp Part1 安装编译问题汇总 ? 用户在使用PaddlePaddle GPU的Docker镜像的时候,常常出现...

3719
来自专栏SAP最佳业务实践

想学FM系列(22)-SAP FM模块:派生规则推导策略(5)-派生规则推导使用

4.2 派生规则推导的操作及测试 在派生规则具体维护时其操作界面通常如下: ? ① 显示\修改派生规则。 ② 选中某一条步骤,点击查看该步骤的定义。 ...

4387
来自专栏Hadoop实操

如何在CDH中使用PySpark分布式运行GridSearch算法

当我们在跑机器学习程序,尤其是调节网格参数时,通常待调节的参数有很多,参数之间的组合更是复杂。Python的sklearn包中GridSearch模块,能够在指...

1373
来自专栏Django Scrapy

python2.7搬运--->TensorFlow - 深度学习破解验证码

谷歌的开源深度学习工具 --py 简介 验证码主要用于防刷,传统的验证码识别算法一般需要把验证码分割为单个字符,然后逐个识别,如果字符之间相互重叠,传统的算法就...

4216

扫描关注云+社区