我有一个与反向翻译有关的问题。
问题本身可以描述为:给定20个唯一字母的字符集(对应20个氨基酸),每个字母表由A、T、G、C中的任意3个字符组成的代码生成,生成所有编码给定氨基酸序列/字符串的可能的核苷酸序列。
有64种可能的nucleotideATGC组合用于20种氨基酸。例如:赖氨酸,用字母K表示,由两个三胞胎(=密码子)编码,AAA和GAA。
正向翻译是很好的,因为我可以把三重奏映射到氨基酸码,但问题是反向翻译,在这种情况下,三胞胎的各种组合是可能的,因为大部分的氨基酸可以由多个密码子编码。
这是我的程序的基本框架:
//Map all Amino Acids with their
我有一个脚本,它使用一个基因的位置和链信息(补体,向前)来提取核苷酸序列。一旦提取,脚本使用翻译表和密码子起始位置将核苷酸序列转换为氨基酸序列,并将其与原始氨基酸序列进行比较。理论上,他们应该匹配,但我还没有得到匹配。
例如,我将使用这个E.coliGenBank文件:从第396行开始/靠近第396行,如下所示:
CDS complement(25341..26294)
/gene="repFIB"
/note="Replication protein RepFIB (P307 replicon);
similar to PIR accession nu
我有一个含有风味肽和它们的氨基酸序列的dataFrame,我正在尝试计数每种氨基酸的数量,并将其存储在一个新的dataFrame中。首先,我只是使用一个只有5行的非常小的dataFrame。对于实际的dataFrame,序列可以大于1个字符,如果字符串是:'RPFFLR',那么我希望它计数: 2*F,1*L,1*P和2*R。
这是最初的dataFrame:
ID Name Sequence
0 1 bitter amino acid R
3 4 bitter amino acid P
6
我正在使用一个简单的函数将DNA序列转换为氨基酸序列。在较高的级别上,代码看起来很好,但每当我运行程序时,我都会得到错误KeyError: 'mtD',这个错误的来源显然在第26行(if table[seq[i:i+3]] == "_" :)。唯一的另一次是在我的程序中提到'mtD‘的时候,我只是简单地将我的数据集打印到控制台上,这使得这个问题更加令人困惑。我的代码如下所示。 #Creating the protein sequence column for the data
Protein_Sequence = []
#dna to protein
我正在攻读生物学学位,感觉就像我被python扔进了深渊,因为我以前从来没有编码过,而且“教学”几乎不存在。不管怎样,他们给出了这个基因序列文件,它看起来很像:
En123, ATGCCGAATA
En124, ATGCCAGTAT
但是有了更多的基因就会变得更长。他们想把它转换成蛋白质序列。到目前为止,我得到了..。
with open('DNA_sequences.csv', 'r') as f:
for line in f:
columns = line.rstrip("\n").split(",") #remo
嗨,我想检查氨基酸序列的分数值,我为它写了以下代码,它工作得非常好。但问题是每次我都要编辑文件。我能从命令界面给出氨基酸序列吗。
AA_seq='AVTLSPQRS' # this is the input variable
sum=0
value={"V": 3.1,"Y":3.5,"W":4.7,"T" :5.3,"S":5.1,"P":3.7,
"F":4.7,"M":1.5,"K":8.9,"L":6,"
我对R和一般的编程都很陌生,我想知道循环一列的最佳方法,这样我就可以在数据框架中添加一列,进一步描述我所遍历的观察结果。
我现在有一份氨基酸清单,它们在蛋白质上的位置如下所示:
Residue Position
H 1
R 2
K 3
D 4
E 5
H 6
R 7
K 8
D 9
E 10
我想要这样的东西(其中H,R,K是基本氨基酸,D和E是酸性氨基酸):
Residue Position Properties
H 1 Basic
R 2 Basic
K 3 Basic
D 4 Acidic
E 5 Ac
我试图使用python将大量的氨基酸(以字符串形式存储)一次提交给由ExPasy.org托管的蛋白质预测ExPasy.org。我想把每种蛋白质的结果作为一个列表来存储。到目前为止,这就是我所拥有的;
In[]:
br = mechanize.Browser()
br.open("http://www.expasy.org/proteomics")
response1 = br.follow_link(text_regex=r"TMPred", nr=1)
for i in br.forms():
print i
从这里我可以看到表格。
Out[]:
&
我现在正在尝试创建一个工具,它可以翻译DNA序列,然后将它们相互比较,以删除重复!
我使用以下脚本读取我的fastq文件:
def sequence_cleaner(fastq_file, min_length=0, por_n=100):
# Create our hash table to add the sequences
sequences={}
# Using the Biopython fastq parse we can read our fastq input
for seq_record in SeqIO.parse(fastq_file, "
在LINQ中,我得到了“不支持查询运算符'ElementAt‘”的异常。尝试对从LINQ查询返回的ElementAt扩展方法时。
下面是堆栈跟踪:
at System.Data.Linq.SqlClient.QueryConverter.VisitSequenceOperatorCall(MethodCallExpression mc)
at System.Data.Linq.SqlClient.QueryConverter.VisitMethodCall(MethodCallExpression mc)
at System.Data.Linq.SqlClient.Quer
我的算法为给定的氨基酸序列预测了几个可测量的特性。现在,给出一个包含实际测量值和我的值的表,我如何计算我的算法执行得有多好?
示例:
Sequence Property1 Prediction1
seq1 3l.4 35.0 |Prediction matches well
seq2 23.4 79.9 |Prediction was off
seq3 20.0 20.3 |Prediction as super
==>算法执行得很好。
有没有办法量化这一点?
我试图比较大的序列数据与和没有SNPs和标记snps为非同义或同义。我有来自PLNIK的.fasta序列和.bim文件,带有保守的(参考)和替代核苷酸。
head(test)
pos ALT REF
1 2 G T
2 8 G T
3 65 C G
4 68 C G
5 77 T C
6 78 G C
我可以用替代核苷酸代替参考核苷酸:
ref[test$pos]=as.vector(test$ALT)
我需要说的是,替换会不会导致氨基酸的改变。我想使用seqinr包,也许我走错路了?因此,我有两个字符串,它们是序列( al