我收集了几千个字符串(DNA序列)。我想通过排除非常相似的序列,将其减少到几百个(确切的数字并不重要)。
我可以通过使用"Levenshtein“模块进行匹配来实现。它可以工作,但速度很慢,我很确定一定有更快的方法。这里的代码是相同的方法,但应用于单词,以使其更具可测试性;对于我来说,使用这种截止点,它需要大约10秒,并收集大约1000个单词。
import Levenshtein as lev
import random
f = open("/usr/share/dict/words", 'r')
txt = f.read().splitlines()
假设我有一个字符串模板,例如,
string="This is a {object}"
现在我通过格式化这个字符串来创建两个(或更多)字符串,即,
string.format(object="car")
=>"This is a car"
string.format(object="2020-06-05 16:06:30")
=>"This is a 2020-06-05 16:06:30"
现在我不知何故丢失了原来的字符串。有没有办法使用我现在拥有的两个新字符串来找到原始字符串?
注意:我有这些字符
我对此还很陌生。我在python中使用正则表达式,试图在推测的DNA序列中找到特定的密码子。目前代码可以工作,但不会注意到重叠(即,如果密码子前面的最后一个字母是A,后面的两个字母是A和C,它将找到一个并不真正存在的WRC密码子)。有没有办法让我修改一下?
import re
while True:
DNA = input("enter the DNA sequence:")
print('WRC:')
wrcpattern = re.compile(r'(A|T)(A|G)C')
wrcmatches = wrc
我对Python非常陌生,我正在努力提高一段代码的速度。
我有一本包含500 k DNA序列的字典。作为一个键,我有序列的标识符,而作为一个值,我有相应的DNA序列。这些序列是可变长度的(它只是一个包含CTACTA.)的字符串。它可能有200到60k的核苷酸。我需要删除DNA序列,这是大序列的子串。
我写了这个:
def remove_subs():
#Create a list of values based on reversed lenght
LISTA=sorted(list(x for x in finaldic.values()), key=len, revers
我的职能是:
import re
def check_and_clean_sequence(sequence, alphabet):
"""
Function to check and clean up all ambiguous bases in a sequence.
Ambigous bases are bases that are not in the sequence
alphabet, ie. 'ACGT' for DNA sequences.
Inputs:
se
我在试图找出两个字符串之间字母的区别。例如,如果我将单词ATTGCC和GTTGAC放在一起,差别将是2,因为A和G与C和G不是相同的字符。
class DNA
def initialize (nucleotide)
@nucleotide = nucleotide
end
def length
@nucleotide.length
end
def hamming_distance(other)
self.nucleotide.chars.zip(other.nucleotide) { |a,b| a == b }.count
end
pro
我用布宜诺斯艾利斯的街道列表作为语料库:
av. de mayo
av. del libertador
av. diaz velez
一些投标位置字段包含以下文本:
of. de compras hosp. c. durand (diaz velez 5044) c.a.b.a
av. de mayo 525, planta baja, oficina 11, ciudad de buenos aires
oficina de compras - av. diaz velez 5044 - cap. fed. -
我正在阅读这本书,因为它有一个我实现的“位置提取”部分。此代码的问题在于,语料
我试图计算并返回两个长度相同的DNA序列不同的地方。例如,给定字符串"ATGT“和"GTGA",结果应该是数组{ true、false、false、true }。我得到了一个错误: False/true不能解析为变量,这是我到目前为止得到的。
/**
* Calculates and returns where two DNA sequences of equal lengths differ. For
* example, given strings "ATGT" and "GTGA", the result should
我对蟒蛇很陌生。我在网上找到了一些关于这个函数的主体的帮助(我删除了示例以缩短它),但是我对‘返回true’语句相对于整个代码的主体意味着什么感到困惑。我理解第一个if语句,但不理解‘返回真’语句,因为其中没有elif或其他语句。我还注意到,返回True语句没有缩进if语句。这能解释什么吗?谢谢!
def is_valid_sequence(dna):
""" (str) -> bool
Return True if and only if the DNA sequence is valid
(that is, it contains no c