hpv病毒基因研究调研

2015年有一篇文献中提到了hpv的研究现状

As of May 30, 2015, 201 different HPV types had been completely sequenced and officially recognized and divided into five PV-genera: Alpha-, Beta-, Gamma-, Mu-, and Nupapillomavirus.

文献地址: http://www.ncbi.nlm.nih.gov/pubmed/26086163

根据文献,我找到了hpv所有已知测序种类的参考基因组网站:http://www.hpvcenter.se/html/refclones.html

截至到2015年7月已经有了205种,我爬取它们的genebank ID号,然后用python程序批量下载了它们的序列,能下载的序列共179条,都是8K左右的碱基序列。

根据genebank ID或者其它ID号批量下载核酸序列的脚本如下

import sysimport timeimport randomfrom Bio import Entrezids=[]infile=sys.argv[1]for line in open(infile,'r'):line=line.strip()ids.append(line)for i in range(1,len(ids)):#  t = random.randrange(0,5)handle =Entrez.efetch(db="nucleotide", id=ids[i],rettype="fasta",email="jmzeng1314@163.com")#  time.sleep(t)print handle.read()

脚本的使用很简单,保持输入文件是一行一个ID号即可。同时,根据文献我们也能得到hbv病毒提取方法当然,我当年居然写过python???

同样,拿到下载的178条序列我们可以做一个进化树,在那篇文章中已经做好了,我就不做了。

下载179条hpv序列,每条序列都是8KB左右。我还用了R脚本批量下载

library(ape)a=read.table("hpv_all.ID") #输入文件是一行一个ID号即可for (i in 1:nrow(a)){tmp=read.GenBank(a[i,1],seq.names = a[1,1],as.character = T)write.dna(tmp,"tmp.fa",format="fasta", append=T,colsep = "")}

然后用muscle做比对,比对过程相对比较简单,大家感兴趣可以参照我之前的几篇笔记。

  • Muscle进行多序列比对 http://www.bio-info-trainee.com/?p=659
  • Figtree的把进化树文件可视化 http://www.bio-info-trainee.com/?p=660
  • 用phyML对多重比对phy文件来构建进化树 http://www.bio-info-trainee.com/?p=626
muscle -in mouse_J.pro -out mouse_J.pro.amuscle -maketree -in mouse_J.pro.a -out mouse_J.phy

貌似时间有点长呀,最后还莫名其妙的挂掉了,可能是我的这个测试服务器配置有点低。

(非常经典的 segmentation fault )

进化树如下所示:

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2017-06-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏云计算认知升级

【腾讯云的1001种玩法】 Laravel 整合万向优图图片管理能力,打造高效图片处理服务

万象优图是腾讯云旗下的图片处理服务,能够帮助用户快速构建一个方便、快捷、处理性能强的图片处理服务,借助 万象优图 For Laravel 插件,我们可以轻松的在...

1.2K0
来自专栏小詹同学

人脸识别(三)——源码放送

人脸识别相关的基本原理和流程,以及各个步骤的介绍和代码前两篇都有介绍,其实可以通过前两篇自行整合出完整的人脸识别源码,并且适当修改可以实现MFC程...

4918
来自专栏ATYUN订阅号

TensorFlow:使用Cloud TPU在30分钟内训练出实时移动对象检测器

是否能够更快地训练和提供对象检测模型?我们已经听到了这种的反馈,在今天我们很高兴地宣布支持训练Cloud TPU上的对象检测模型,模型量化以及并添加了包括Ret...

2105
来自专栏人工智能LeadAI

逻辑回归 | TensorFlow深度学习笔记

课程目标:学习简单的数据展示,训练一个Logistics Classifier,熟悉以后要使用的数据 Install Ipython NoteBook 可以参考...

3017
来自专栏AI科技大本营的专栏

不会用Photoshop抠图?Mask R-CNN助你一键“除”人

翻译 | 林椿眄 编辑 | 费棋 【AI科技大本营导读】:看过英剧《黑镜》吗?圣诞特别版《白色圣诞节》中有这样一个场景:其中一个未来科技有自由屏蔽人像的功能,可...

4057
来自专栏梦里茶室

毫秒级检测!你见过带GPU的树莓派吗?

树莓派3B+英特尔神经计算棒进行高速目标检测 转载请注明作者梦里茶 ? 代码: 训练数据预处理: https://gist.github.com/ahan...

3.7K8
来自专栏磨磨谈

ceph 的crush算法 straw

很多年以前,Sage 在写CRUSH的原始算法的时候,写了不同的Bucket类型,可以选择不同的伪随机选择算法,大部分的模型是基于RJ Honicky写的RUS...

1952
来自专栏北京马哥教育

手把手教你用 1 行命令实现人脸识别

? 人脸识别很难吗? -- Kangvcar 本文导航 ◈ 环境要求00% ◈ 环境搭建03% ◈ 实现人脸识别19% ◈ 示例一(1 行命令实现人脸识别):...

3266
来自专栏专知

【干货】快速上手图像识别:用TensorFlow API实现图像分类实例

【导读】1月17日,Arduino社区的编辑SAGAR SHARMA发布一篇基于TensorFlow API的图像识别实例教程。作者通过TensorFlow A...

7147
来自专栏PPV课数据科学社区

手把手教你用1行代码实现人脸识别 -- Python Face_recognition

环境要求: Ubuntu17.10 Python 2.7.14 环境搭建: 1. 安装 Ubuntu17.10 > 安装步骤在这里 2. 安装 Python2....

3928

扫码关注云+社区