我有一个蛋白质对的列表,我想将"BLAST Two Sequence“的速度和准确性与Smith-Waterman程序进行比对。我知道在NCBI网站上有一个"Blast Two Sequence“选项,但我想从python脚本运行它。也许Biopython有这个能力?如果我不能使用Blast两个序列,我将比较不同版本的Smith-Waterman,但这不会那么令人兴奋:)或者,如果有人对生物信息学中涉及比较蛋白质对的大四项目有其他想法,请不要犹豫让我知道!提前谢谢你。
大家好,
我开始用Biopython编程,我想知道如何从具有所有特征坐标的基因组GenBank文件(*.gb)中提取基因序列和蛋白质标识符。
我的想法是创建一个包含蛋白质标识符、基因坐标和基因序列的文本文件。
如果你有任何想法,我将不胜感激。
到目前为止,我已经尝试过了:
for seq_record in seq_record.features:
if seq_record.type == 'CDS':
x=seq_record.qualifiers['protein_id']
i=seq_record.location.
如果我有一个有异构体的蛋白质,我想检索每一个蛋白质的序列,我该怎么做呢?
from Bio import ExPASy
from Bio import SwissProt
accessions = ["Q16620"]
handle = ExPASy.get_sprot_raw(accessions)
record = SwissProt.read(handle)
这个例子将从biopython教程中检索第一个带有record.sequence的异构体序列。
我发现,简单地以uniprot["Q16620-1", "Q16620-2",
我需要找出在我的数据集的哪些蛋白质中存在这个氨基酸基序: PoXGXXHyXHy。我用的是biopython和python2.7,但我不是生物信息学家,我被搞砸了。我如何制作seq_record +1之类的东西呢?我尝试过使用in range,但它在SeqIO.parse中不起作用。嗯,我现在一团糟,有人能帮帮忙吗?我会非常感激的。
from Bio import SeqIO
print('enter the path to your fasta file: ' )
user_input = raw_input()
for seq_record in SeqIO.parse
好的,我需要从一个FASTA文件中提取序列的一部分,使用python (biopython,)
我需要从每个序列中获得前10个碱基,并将它们放在一个文件中,保存来自FASTA格式的序列信息。最坏的情况是,如果没有办法保存序列信息,我可以只使用碱基。下面是一个例子:
>gi|2765658|emb|Z78533.1|CIZ78533 C.irapeanum 5.8S rRNA gene and ITS1 and ITS2 DNA
CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGATGAGACCGTGGAATAAACGATCGAGTG
AATCCGGAGG
我想开始使用Biopython来对齐序列文件,但是库总是给我错误。我的代码如下:
from Bio import AlignIO
import Bio
alignment = AlignIO.read("A_prot.fasta","fasta")
print alignment
我确保将A_prot.fasta放在与我的程序相同的目录中,但我收到一个错误消息:
Traceback (most recent call last):
File "bio_seq_align.py", line 5, in <module>
a
这个问题与生物信息学有关。我在相应的论坛上没有收到任何建议,所以我把它写在这里。
我需要删除fasta文件中的非ACTG核苷酸,并使用来自biopython的seqio将输出写入一个新文件。
我的代码是
import re
import sys
from Bio import SeqIO
from Bio.SeqRecord import SeqRecord
from Bio.Seq import Seq
from Bio.Alphabet import IUPAC
seq_list=[]
for seq_record in SeqIO.parse("test.fasta"
因此,这是对我上一个问题的跟进。感谢@mdml。我前面关于如何使用python对齐和比较列表中的两个元素(序列)的问题已经解决了。下面是我正在使用的代码(代码信用到mdml):
# Parse the file which was already split into split_list
lines = open("seq.txt")
for list in lines:
split_list = list.split()
header = "".join(split_list[0:2])
seq = split_list[2]
disorder =
我是Biopython的新手。现在,我正在尝试从fasta格式的几个蛋白质序列(超过100个)中计算蛋白质参数。然而,我发现很难正确解析序列。这是我使用的代码:
from Bio import SeqIO
from Bio.SeqUtils.ProtParam import ProteinAnalysis
input_file = open ("/Users/matias/Documents/Python/DOE.fasta", "r")
for record in SeqIO.parse(input_file, "fasta"):
my