我有一个Excel文件,其中给出了2000多个生物,其中每个生物都有一个关联的生物项目ID (如PRJNA12997)。我们的想法是使用这些I来获得序列,以便稍后与我在文本文件中的其他五个序列进行多重比对。
有没有人能帮我理解如何使用biopython来做这件事?至少是有生物项目ID的那部分。
发布于 2016-04-08 01:01:44
您可以首先使用Bio.Entrez
获取信息
from Bio import Entrez
Entrez.email = "Your.Name.Here@example.org"
# This call to efetch fails sometimes with a 400 error.
handle = Entrez.efetch(db="bioproject", id="PRJNA12997")
handle = Entrez.esearch(db="nuccore", term="12997[BioProject]")
search_results = Entrez.read(handle)
现在你可以从你的搜索结果efecth
。此时,您应该使用Biopython来解析在efetch步骤中获得的任何内容,使用rettype http://www.ncbi.nlm.nih.gov/books/NBK25499/table/chapter4.T._valid_values_of__retmode_and/
for result in search_results["IdList"]:
entry = Entrez.efetch(db="nuccore", id=result, rettype="fasta")
this_seq_in_fasta = entry.read()
https://stackoverflow.com/questions/36069879
复制相似问题