我想使用python中的regex从文件中提取基因边界(如1..234,234..456),但每次我使用此代码时,它都会返回空列表。 下面是示例文件 ? 以下是我到目前为止所掌握的: import re
#with open('boundaries.txt','a') as wf:
with open('sequence.gb','r') as rf:
for line in rf:
x= re.findall(r"^\s+\w+\s+\d+\W\d+",line)
我正在尝试从由csv文件生成的字典中随机提取一组键值对。字典包含有关基因的信息,基因名称是字典的关键字,以及一个数字列表(与基因表达等相关)。就是价值。
# python 2.7.5
import csv
import random
genes_csv = csv.reader(open('genes.csv', 'rb'))
genes_dict = {}
for row in genes_csv:
genes_dict[row[0]] = row[1:]
length = raw_input('How many genes do you
我正在开发验证和linting实用程序,以便与各种提交挂钩集成,包括Git one
目前,每次提交时都会针对整个项目代码库运行验证器和链接器。但是,仅针对更改后的文件运行它们会更理想。为此,我需要知道Git precommit钩子(Python中的)中已更改的文件列表
我有什么选项来提取已更改的文件列表(如果重要的话,在Python中)?
我有一个listA,它看起来像这样:
gene1
gene2
gene11
gene22
gene23
我也没有几个标签分隔的文本文件(*hist.txt),其第4列与列表中的基因匹配。我想从标签分隔的文本文件中提取listA中每个基因的值。
这就是我写的
for i in `cat listA.txt`
do
for a in *hist.txt
do
fn=${a%%_*}
cat $a | awk -v OFS="\t" -v fn="$fn" -v pattern="$i" '$4
我正在编写一个小的python脚本来从数据库中收集一些数据,唯一的问题是当我从mysql中将数据导出为XML时,它在XML文件中包含一个\b字符。我写了删除它的代码,但后来意识到我不需要每次都做这个处理,所以我把它放在一个方法中并调用它,我在XML文件中找到了a \b,只是现在正则表达式不匹配,即使我知道\b在那里。
下面是我正在做的事情:
主程序:
'''Program should start here'''
#test the file to see if processing is needed before parsing
for li
我有一个单词列表,我想提取长度可能在5到10之间的单词,我正在使用以下代码,但似乎不起作用。另外,我只能使用val,而不能使用var。
val sentence = args(0)
val words = sentence.split(" ")
val fullsort = words.sortBy(w => w.length -> w)
val med = fullsort.map(x => if(x.length>3 && x.length<11) x)
def fetch_data(document):
with open('data_file.pickle', 'rb') as fp:
datafile = pickle.load(fp)
matched_word = []
for data in datafile.splitlines():
job_regex = r'[^a-zA-Z]'+data+r'[^a-zA-Z]'
regular_expression = re.compile(job_reg
我有一个基因列表(作为一个bed文件)和一个全基因组RNA-seq数据集(也存储为一个bed文件)。我目前正在尝试开发一个python脚本,它允许我提取转录起始点上游500bp到下游2000bp的读取计数,即基因的开始,并将这些值存储在一个数组中以备将来使用。
目前,我的脚本如下所示:
feature_genes=np.zeros((6576, 2501))
for lines in feature:
for i in range(0,6575):
if line[5]==lines[5] and line[5]=='+' and line[0]==li
我正在制作一个“基因模拟器”,在某一时刻,我想比较基因中的数据,以确定个体的结果。我想出了一个解决办法,但似乎不太实际,我相信有一个正确的方法
现在,我在处理操作的支持类中使用了一个静态方法,但我担心维护会很烦人,因为我计划经常修改属性列表。
public class GeneOps {
public static AttributeList AddAttributeLists (AttributeList a, AttributeList b) {
AttributeList x=new AttributeList();
x.agressiven
我希望在我已经为我的类完成的一串代码中找到一些单词。我想知道我找到的文献摘要中是否包含“基因”或“基因”这两个词。到目前为止,我已经
match = re.search(r"(gene|tic)"
这给出了44个结果;然而,这个表达式拉出了任何包含单词gene或gene的内容(如general或biotic)。我如何才能改变这一点,只提取基因或基因,而不提取其他信息?这必须是正则表达式。
我有一个使用xlrd模块在python中读取的excel文件。我从每一行提取值,添加一些额外的数据,并将其全部写到一个新的文本文件中。然而,我遇到了一个问题,单元格包含分数为3/4的文本。Python将值读取为\xbe,每次我遇到它时,我都会收到以下错误:
UnicodeEncodeError: 'ascii' codec can't encode character u'\xbe' in position 317: ordinal not in range(128)
我正在将每一行的值列表转换为字符串,我尝试了以下操作,但没有成功:
row_vals_
我想制作一个Python程序,其中DNA序列是在文本文件中给出的。它有9000多个字符。我必须将序列剪成3个字符,这样我们的帧就可以从1 to 3中读取,然后从4 to 6,读取,然后从7 to 9中读取,它被称为密码子。
例如,序列是
ACCTGCCTCTTACGAGGCGACACTCCACCATGGATCACTCCCCTGTGAGGAACTACTGTCTTCACGCAGA
然后我要把它切成三个字符。我已经做过了。我的问题是如何从给定的DNA中提取基因序列?基因序列从ATG开始,在TAG、TAA或TGA上终止。
如果我使用Regular Expression,这很容易做到。但问题是,如果你看
因此,我从excel中的Cell中提取文本,然后在该文本中搜索特定的短语。现在,只有当它是精确匹配的单词时,我才需要返回true。例如,如果文本是"The Quick brown fox dog over the lazy dog“,我搜索的是"Qui”,它应该返回false,但如果我搜索"Quick",它应该返回true。类似地,"brown Quick“应返回false,"Quick brown”应返回true。 因此,我在VBA中使用正则表达式进行了尝试,并提出了 With regex
.Pattern = " *