文章/答案/技术大牛

发布

问Python for-循环过早停止
EN

Stack Overflow用户

提问于 2020-10-26 02:35:41

回答 2查看 139关注 0票数 1

我想把DNA序列转换成氨基酸序列。我有一本密码词典：

codon_mapping = {'AAA': 'K','AAC': 'N','AAG': 'K','AAT': 'N','ACA': 'T','ACC': 'T','ACG': 'T','ACT': 'T','AGA': 'R','AGC': 'S','AGG': 'R','AGT': 'S','ATA': 'I','ATC': 'I','ATG': 'M','ATT': 'I','CAA': 'Q','CAC': 'H','CAG': 'Q','CAT': 'H','CCA': 'P','CCC': 'P','CCG': 'P','CCT': 'P','CGA': 'R','CGC': 'R','CGG': 'R','CGT': 'R','CTA': 'L','CTC': 'L','CTG': 'L','CTT': 'L','GAA': 'E','GAC': 'D','GAG': 'E','GAT': 'D','GCA': 'A','GCC': 'A','GCG': 'A','GCT': 'A','GGA': 'G','GGC': 'G','GGG': 'G','GGT': 'G','GTA': 'V','GTC': 'V','GTG': 'V','GTT': 'V','TAA': '*','TAC': 'Y','TAG': '*','TAT': 'Y','TCA': 'S','TCC': 'S','TCG': 'S','TCT': 'S','TGA': '*','TGC': 'C','TGG': 'W','TGT': 'C','TTA': 'L','TTC': 'F','TTG': 'L','TTT': 'F'}

以及输入序列：

seq = 'ATGTATGGCTAGCTTACTACTGCGCACTGATGTGGCTATCGATCGCTGGTCGTTGCTGACCGAGCTAAA'

我现在有这样的代码：

#import re
import re

#find the start codons in the sequence
starts=[m.start() for m in re.finditer('ATG', seq)]

#establish new dictionary
seqDictionary={}
#translate sequences
for i in starts:
    mySeq=seq[i:]
    translated=''
    for n in range(0, len(mySeq), 3):
        print(mySeq[n:n+3])
        if codon_mapping[mySeq[n:n+3]] != '*':
            translated += codon_mapping[mySeq[n:n+3]]
        if codon_mapping[seq[n:n+3]] == '*':
            break 
    print("translated: " + translated)
    seqDictionary[i]=(translated)
print(seqDictionary)
            
AA_frame1 = seqDictionary[0] 
AA_frame2 = seqDictionary[4] 
AA_frame3 = seqDictionary[29]
AA_longest = None

问题是，对于第二和第三序列(分别从第4位和第29位)，反循环存在于第四个氨基酸之后，尽管它们不是终止密码子。

上述代码的输出如下：

ATG
TAT
GGC
TAG
translated: MYG
ATG
GCT
AGC
TTA
translated: MASL
ATG
TGG
CTA
TCG
translated: MWLS
{0: 'MYG', 4: 'MASL', 29: 'MWLS'}

我没有收到任何错误消息，我也不知道为什么循环会退出。我知道翻译后的序列的正确解决方案是：

MYG
MASLLLRTDVAIDRWSLLTEL
MWLSIAGRC

编辑，这个最终代码起作用了：

#import re
import re

#find the start codons in the sequence
starts=[m.start() for m in re.finditer('ATG', seq)]

#establish new dictionary
seqDictionary={}
#translate sequences
for i in starts:
    mySeq=seq[i:]
    translated=''
    for n in range(0, len(mySeq), 3):
        if len(mySeq[n:n+3]) < 3:
            break
        if codon_mapping[mySeq[n:n+3]] == '*':
            break
        else:
            translated += codon_mapping[mySeq[n:n+3]]
    seqDictionary[i]=(translated)
print(seqDictionary)

输出：

{0: 'MYG', 4: 'MASLLLRTDVAIDRWSLLTEL', 29: 'MWLSIAGRC'}

python

range

bioinformatics

回答 2

Stack Overflow用户

回答已采纳

发布于 2020-10-26 02:52:48

if codon_mapping[mySeq[n:n+3]] != '*':
    translated += codon_mapping[mySeq[n:n+3]]
if codon_mapping[seq[n:n+3]] == '*':
    break

这里你不是在检查同一件事。首先，if正在检查mySeq，第二个if正在检查seq。

这最好写成if，而不是两个ifs

if codon_mapping[mySeq[n:n+3]] == '*':
    break
else:
    translated += codon_mapping[mySeq[n:n+3]]

票数 1

Stack Overflow用户

发布于 2020-10-26 03:14:41

你必须检查三胞胎是否在字典里。

for i in starts:
    mySeq=seq[i:]
    translated=''
    for n in range(0, len(mySeq), 3):
        subSeq = mySeq[n:n+3]
        print(subSeq)
        aAcid = codon_mapping.get(subSeq)
        if (not aAcid) or aAcid == '*': break
        translated += aAcid
    print("translated: " + translated)
    seqDictionary[i]=(translated)

使用itertools，翻译可以写成一行

import itertools
#establish new dictionary
seqDictionary={}
#translate sequences
for m in re.finditer('ATG', seq):
    start = m.start()
    translated =''.join(itertools.takewhile(lambda aa: aa and aa != '*', (codon_mapping.get(seq[n:n+3]) for n in range(start, len(seq), 3)) ))
    print("translated: " + translated)
    seqDictionary[start] = translated
print(seqDictionary)

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/64530837

复制

相似问题

问Python for-循环过早停止
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Python for-循环过早停止EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Python for-循环过早停止
EN