如何使用python获取fasta文件中重复序列的计数_使用fasta文件中的序列ID提取序列_如何使用python获取带条件的顺序计数(以fasta表示)？ - 腾讯云开发者社区

python、converters、fasta

我正在尝试将fasta文件(.fasta)转换为计数文件(.cf)，以便能够将其上传到IQTREE，以便用于系统发育分析。fasta文件是对齐的合并文件，是将个体排序成5个种群中的一个的映射。已附上此文件的示例。我试过R和python，但没有取得任何成功。

浏览 6提问于2022-11-01得票数 -1

2回答

在使用SeqIO解析的fasta文件上使用排序时出现"NotImplementedError: SeqRecord“

python、bioinformatics、biopython、fasta

我尝试按照文件中序列的字母顺序(而不是序列的ID )对fasta文件进行排序。fasta文件包含超过200个序列，我正在尝试在bit master (使用python代码)中查找重复的(我指的是几乎相同的蛋白质序列，但不是相同的ID)。所以我想用fasta文件做一个字典，然后对字典的值进行排序。我尝试使用的代码如下： from Bio import SeqIO input_file = open("PP_Seq.fasta") my_dict = SeqIO.to_dict(SeqIO.parse(input_file, "fasta")) prin

浏览 2提问于2017-02-21得票数 4

回答已采纳

1回答

如何提高生物信息学脚本的运行速度？

python、python-3.x

我正在开发一个用于生物信息学分析的python脚本。首先，该脚本读取整个文件(.fasta -基本上是一个非常长的字符串)来查找所有的scaffold(以‘>’开头的行)，然后打印出找到的scaffold的数量。我有两个类似的输入文件.fasta，一个超过1.5 31，运行时间不到一分钟，第二个85MB，需要超过31个小时。 import sys cabecalho = [] sequencia = [] contador = -1 file_open = open('C:\PYTHON\Chr09.fasta', "r") for line in fi

浏览 0提问于2019-08-06得票数 0

1回答

如何消除fasta文件中的重复序列

bioinformatics、biopython、biological-neural-network

我试图用所有发布的序列来构建细菌数据库类型，使用bowtie2来计算我的读取数据的覆盖率，并利用fasta_library进行映射。为此，我将从ncbi下载的所有基因组序列合并到一个fasta_library中(我在fasta文件中合并了74个文件)，问题是在这个fasta文件(我创建的库)中，我有很多重复的序列，这对覆盖范围有很大的影响，所以我想问是否有任何方法来消除我的Library_File中的重复，或者是否有任何方法来合并没有重复的序列，或者还有其他方法来计算我对引用序列的读取覆盖率我希望我说的够清楚了，如果有什么不清楚的地方请告诉我。

浏览 11提问于2020-04-22得票数 3

回答已采纳

2回答

消除perl中子例程中的空文件

perl、bioinformatics、fasta、fastq、sequencing

我想在下一个脚本中添加一段代码来消除那些空的输出文件。脚本将单个fastq文件或文件夹中的所有fastq文件转换为fasta格式，所有输出的fasta文件保持fastq文件的相同名称；脚本提供了一个选项来排除所有存在确定数量的NNN重复的序列(NNNNNNNNNNNNNNNNNNATAGTGAAGAATGCGACGTACAGGATCATCTA)，我添加了这个选项，因为一些序列在序列中只存在NNNNN，例如:如果-n选项等于15 (-n 15)，它将排除存在15或更多N个重复的所有序列，到这一点，代码工作良好，但它生成一个空文件(在那些fastq文件中，存在15个或更多N个重复的所有序列都被排

浏览 12提问于2017-01-25得票数 0

回答已采纳

1回答

如何从fasta文件中删除重复项，但根据标头保留每个组至少一个

python、fasta

我有一个多快件文件，如下所示： (所有序列均大于100 and，不止一条直线，长度相同) >Lineage1_samplenameA CGCTTCAACGGAATGGATCTACGTTACAGCCTGCATAAAGAAAACGGAGTTGCCGAGGACGAAAGCGACTTTAGGTTCTGTCCGTTGTCTTTGGCGGAAA >Lineage2_samplenameB AAATTCAACGGAATGGATCTACGTTACAGCCTGCATAAAGAAAACGGAGTTGCCGAGGACGAAAGCGACTTTAGGTTCTGTCCGTTGTCTTTGGCGGAAG >

浏览 1提问于2020-07-25得票数 3

回答已采纳

2回答

随机子序列fasta序列与变更序列名

r、bioinformatics、fasta、bioconductor

我有一个fasta文件(fas2)，它有大约1000个fasta序列，下面是fasta序列的两个示例： >gi|108863165-BAdV-2 ATGGCTACTCCTTCGATGATGCCGCAGTGGTCTTACATGCACATCGCCGGGCAGGATGCCTCCGA >gi|108863163-BAdV-1 ATGGCGACGCCGTCGATGATGCCCCAGTGGTCGTACATGCACATCGCCGGGCAGGATGCCTCAGA 我在网上查阅了很多教程，使用readDNAStringSet来读取fasta文件。所以我用这个评论来读我的文件： fas3 <-

浏览 1提问于2015-03-18得票数 0

回答已采纳

1回答

从fasta文件中计算k-mers类单体、二聚体的数量。

python、bioinformatics

这里任何使用Python来解决生物信息学问题的人。这是我所写的代码，用于计数dimers类单体的数量，从fasta文件到hexamer的二聚体。您只需为fasta序列提供ncbi的登录号，然后它就会计算number的数量。如果您有时间，请检查代码，因为我认为它有点长，我使用了try/除了解决IndexError。你的建议很有价值。谢谢。 from Bio import Entrez Entrez.email = 'roshanpra@gmail.com' monomers = list('ATGC') dimers = []

浏览 0提问于2020-10-23得票数 3

回答已采纳

1回答

从引用同一生物体的另一个fasta文件(Tf)的文件中获取fasta序列(蛋白质组)

fasta

基本上我有两个大的fasta序列文件，第一个是蛋白质组fasta序列(所有的蛋白质序列)，第二个是同一生物体的转录因子序列fasta文件，我想知道是否有任何方法可以用这两个文件将非转录序列提取为fasta文件？？非常感谢

浏览 0提问于2016-04-16得票数 0

4回答

将fasta文件格式读入python字典

python

我有一个具有以下格式的文件： >seq1 ATGGGTGTGTGTGTG >seq2 ATGTGTTTGTGTGCTCCTCCTC >seq3 AACGTCGTGACGGGTGCGTGGTGTGTGTCCAA 我想以Python中的字典形式阅读这个文件。我知道BIO函数，但是除了完成我的工作之外，我还想学习python中的脚本。到目前为止，我已经尝试过这个代码： import sys sequence = ' ' fasta = {} with open(sys.argv[1]) as file_one: file_one_content = file

浏览 3提问于2015-03-29得票数 5

回答已采纳

4回答

在unix中使用awk删除重复项

unix、ubuntu、awk

我的文件是格式的 >id1 sequence1 >id2 sequence2 >id1 sequence3 我想要的输出是： >id1 sequence1 >id2 sequence2 也就是说，如果id是重复的，我需要双对删除序列和id。我尝试了下面的代码，但它不起作用。 awk '{ if(NR%2 == 1) { fastaheader = $0; x[fasta_header] = x[fasta_header] + 1; } else { seq = $0; {if(x[fasta_header] <= 1) {pri

浏览 5提问于2014-01-22得票数 0

回答已采纳

1回答

如何从fasta文件中获取索引列表序列？

python、fasta

我比较了两个fasta文件(具有不同的序列长度和名称)，并将共享的序列名称放入一个列表中。我试着用列表中的名字来获取序列。 file1： SRR3350720.1 SRR3350720.3 SRR3350720.5 SRR3350720.6 list = 'SRR3350720.1'，'SRR3350720.5‘ 我尝试了python中的脚本。 import HTSeq fasta_file = HTSeq.FastaReader('file1.fasta', 'r') for line in fasta_file: fo

浏览 1提问于2016-12-01得票数 1

1回答

在DNA序列中找到所有重复的4-mers - Perl。

regex、perl、fasta、dna-sequence

你好, 我试图编写一个程序，它读取一个包含多个DNA序列的FASTA格式文件，识别一个序列中所有重复的4-mers (即所有多次发生的4-mers )，并打印出重复的4-mer和在其中找到它的序列的头。k-mer只是一个k核苷酸序列(例如“aaca”、“gacg”和“tttt”是4-mers). 这是我的密码： use strict; use warnings; my $count = -1; my $file = "sequences.fa"; my $seq = ''; my @header = (); my @sequences = (); my $li

浏览 2提问于2017-06-28得票数 4

2回答

如何在Python中找到相同的序列

python、sequences

我是Python新手，我想知道如何从Python中的Fasta文件中找到相同的序列。例如，这里有4个记录序列读取，如何找到相同的序列并返回它们的ids？非常感谢！！ from Bio import SeqIO record=list(SeqIO.parse("data/dna.txt", "fasta")) for i in range(0,len(record)): print record[i].id,record[i].seq seq1 GAATGCATACTGCATCGATA seq2 CATAAAACGTCTCCATCGCT seq3 TG

浏览 4提问于2014-10-16得票数 1

回答已采纳

1回答

替换dna序列文件中某一位置的核苷酸

python、fasta

我有一个fasta文件，另一个文件包含位置，我想用默认设置替换每个序列的某个位置，例如，我的位置文件看起来像a/c 120，我的替换表看起来像a/c到W，所以我想得到一个新的fasta文件，位置120用w替换。该程序是用Python编写的所以第一个问题是我不能到达正确的位置，例如，如果我使用my_seq_id0:3，我就得到了序列名！而不是序列。位置文件看起来像id1 219 A/C from Bio import SeqIO import sys import string userInput1=raw_input("enter your sequence:") user

浏览 0提问于2014-05-15得票数 0

1回答

多FASTA文件序列的对齐

python、bioinformatics、biopython、fasta、pairwise

我有多个fasta文件，包含超过10,000个fasta序列由下一代测序产生，我想对每个序列与文件中的每个序列进行配对，并将所有结果存储在同一个新文件中，以便在之后进行聚类分析。下面编写了FASTA序列的示例和我用于执行与python成对的序列对齐的代码。 FASTA序列 >m180921_230442_42149_c101464342550000001823297908121882_s1_X0/538/ccs AGAAGCCACTCATCCATCCAGGCAGGAAGACTCTTAGGATCCTGACTTTCTCCTGGTCCCCACATCCCCT AAACCGAGGAAGGGGTCC

浏览 1提问于2019-08-05得票数 3

2回答

AlignIO在FASTA文件中找不到记录

python、biopython

我想开始使用Biopython来对齐序列文件，但是库总是给我错误。我的代码如下： from Bio import AlignIO import Bio alignment = AlignIO.read("A_prot.fasta","fasta") print alignment 我确保将A_prot.fasta放在与我的程序相同的目录中，但我收到一个错误消息： Traceback (most recent call last): File "bio_seq_align.py", line 5, in <module> a

浏览 1提问于2013-03-08得票数 1

1回答

如何在Django web服务器上实现外部python代码？

python、php、html、django、webserver

作为标题，我正在尝试将外部python代码实现到Django web服务器。我对编程非常陌生，所以任何提示都肯定会有所帮助。长话短说:我试图建立一个表单，用户必须插入一个氨酸序列。这个序列应该传递给我的python脚本，它能够将它与数据库中已经存在的所有序列进行比较，从而给出最相似的序列。我的问题是，我不能让我的形式和我的脚本互相交谈。我在这里跟踪了Django文档，，但这并没有太大帮助。此外，网上漫游和浏览已经问到的问题在这里是没有成效的。请在以下文件中找到： BLAST_page.html (尝试了注释和未注释) {% extends "base_generic.html

浏览 2提问于2021-10-13得票数 0

回答已采纳

1回答

解析多fasta文件以提取序列

python、fasta

我试图用python编写一个脚本来解析一个大型的fasta文件，因为我正在学习脚本，所以我不想使用biopython。脚本需要将登录号、序列长度和序列gc内容打印到控制台。我已经能够提取登录号，但无法提取序列，因为它们被读取为行，这使我无法计算序列长度和gc内容。有人能帮我吗？我尝试在列表中对行进行分组，但是这会在一个列表中创建多个列表，我也不知道如何加入它们。 seq="" seqcount=0 seqlen=0 gc=0 #prompt user for file name infile=input("Enter the name of your designa

浏览 1提问于2017-10-18得票数 3

2回答

是否可以将字符串变量传递给BLAST搜索而不是文件？

bioinformatics、biopython、fasta、blast

我正在编写python脚本，如果可能的话，我希望将查询序列信息作为字符串变量而不是FASTA格式文件传递给blastn。我使用Biopython的SeqIO将几个抄本名称存储为键，并将其序列存储为关联值。所以看起来就像这样 transcripts = dict() for record in SeqIO.parse("transcript_sequences.fasta", "fasta"): transcripts[record.name] = record.seq print transcripts 所以字典是这样的 {'var_F':

浏览 6提问于2016-11-03得票数 5

回答已采纳

1回答

使用Bio::DB::Fasta访问Fasta文件

fasta、bioperl

我一直使用模块use Bio::DB::Fasta来访问fasta文件(文档位置：)。我发现这比使用Samtools从fasta文件中提取位置要快得多。但是，我想知道如果查询包含的位置超过了fasta的最大长度，会发生什么。今天，在一个查询中，我尝试访问fasta中的一个位置，它超出了fasta中的最大位置。但是，在这种情况下，该方法没有给出错误。我的fasta文件包含0/1个基数，返回的输出是"1“。我想知道这是不是一个错误，或者实际上它给出了一个有效的输出，但是错误的位置。我尝试查看文档，但找不到有关错误代码的任何信息。我的代码如下： use strict; use warni

浏览 6提问于2014-02-05得票数 0

2回答

如何使用Python根据床文件格式更改坐标格式？

python、bioinformatics、fasta

我有两个fasta文件，我想要匹配较短的序列，在FileB.fasta和原始序列是在FileA.fasta中，以获得它的坐标或位置。但我的输出格式不正确。有谁可以帮我？ FileA.fasta >chr1:2000-2019 ACGTCGATCGGTCGACGTGC FileB.fasta >chr1:2000-2019 GATCGG FileC.bed chr1:2000-2019 6 11 码 from Bio import SeqIO output_file = open('fileC.bed','w') for long_sequence_r

浏览 1提问于2015-07-06得票数 0

回答已采纳

1回答

修改python脚本以针对多个输入文件运行

python、filenames

我对python非常陌生，我有一个针对特定文件(input1.txt)运行的python脚本，并生成了一个输出(output1.fast a)，但我希望为多个文件运行此脚本，例如: input2.txt，input3.txt...and生成相应的输出:output2.fast a，output3.fast a from Bio import SeqIO fasta_file = "sequences.txt" wanted_file = "input1.txt" result_file = "output1.fasta" wanted

浏览 10提问于2017-08-28得票数 0

回答已采纳

2回答

频率加起来不等于1

python、python-2.7、biopython

我正在编写一个函数，它应该通过DNA序列的.fasta文件，并为文件中的每个序列创建一个核苷酸(nt)和二核苷酸(dnt)频率字典。然后，我将每本字典存储在一个名为“频率”的列表中。这是一段奇怪的代码： for fasta in seq_file: freq = {} dna = str(fasta.seq) for base1 in ['A', 'T', 'G', 'C']: onefreq = float(dna.count(base1)) / len(dna) freq

浏览 1提问于2015-05-27得票数 6

回答已采纳

5回答

连接多个.fasta文件

python、concatenation、fasta

我正在尝试将成百上千个.fasta文件连接成一个包含所有序列的大型fasta文件。我还没有在论坛中找到一个具体的方法来实现这一点。我确实遇到了来自的这段代码，我对它进行了一些调整。 Fasta.py包含以下代码： class fasta: def __init__(self, name, sequence): self.name = name self.sequence = sequence def read_fasta(file): items = [] index = 0 for line in file:

浏览 2提问于2012-07-31得票数 2

1回答

从fasta文件中提取序列

python、file、sequences、fasta

如何从fasta文件中提取序列如果我有一个包含9个序列的fasta文件，每次我从文件中提取3个序列，然后计算这三个序列之间的距离： distance(seq1,seq2,seq3) 然后我选择其他三个序列 sequences=[] with open('example.fasta', 'r') as file: for Seq_record in SeqIO.parse(file, 'fasta'): format_string = "%s" % Seq_record.seq sequenc

浏览 0提问于2014-01-20得票数 2

3回答

学习使用python解析fasta文件

python

我正在学习python，我想在不使用BioPython的情况下解析fasta文件。我的txt文件如下所示： >22567 CGTGTCCAGGTCTATCTCGGAAATTTGCCGTCGTTGCATTACTGTCCAGCTCCATGCCCA ACATTTGGCATCGGAGAATGACTCCGCGTGATAAAGTCAGAATAGGCATTGAGACTCAGG GTGGTACCTATTA >34454 AAAACTGTGCAGCCGGTAACAGGCCGCGATGCTGTACTATATGTGTTTGGTACATATCCG ATTCAGGTATGTCAGGGAGCCAGCACCGG

浏览 0提问于2015-04-23得票数 3

3回答

用Python删除FASTA中的重复序列

python、duplicates、biopython、fasta

如果之前有人问过这个问题，我很抱歉，但是我已经搜索了好几天了，但是没有找到Python的解决方案。我有一个很大的fasta文件，包含标题和序列。 >cavPor3_rmsk_tRNA-Leu-TTA(m) range=chrM:2643-2717 5'pad=0 3'pad=0 strand=+ repeatMasking=none GTTAAGGTGGCAGAGCCGGTAATTGCATAAAATTTAAGACTTTACTCTCA GAGGTTCAACTCCTCTCCTTAACAC >cavPor3_rmsk_tRNA-Gln-CAA_ range=chrM:

浏览 9提问于2021-03-03得票数 4

回答已采纳

3回答

使用条件匹配行中的多个模式

python、bioinformatics、fasta

我有这样一个fasta文件：myfasta.fasta >1_CDS AAAAATTTCTGGGCCCCGGGGG AAATTATTA >2_CDS TTAAAAATTTCTGGGCCCCGGGAAAAAA >3_CDS TTTGGGAATTAAACCCT >4_CDS TTTGGGAATTAAACCCT >5_rRNA TTAAAAATTTCTGGGCCCCGGGAAAAAA >6_tRNA TTAAAAATTTCTGGGCCCCGGGAAAAAA 我有一个代码，我想用它来根据它们的I来分离序列，这些I具有“CDS”、“tRNA”等匹配模式。在下面的代码中

浏览 0提问于2019-03-27得票数 4

回答已采纳

5回答

防止在Python中关闭文件

python、file、python-2.7、count

我在从文件中读取字符时遇到了问题。我有一个名为fst.fasta的文件，我想知道字母A和T出现的次数。这是第一个代码示例： f = open("fst.fasta","r") a = f.read().count("A") t = f.read().count("T") print "nbr de A : ", a print "nbr de T : ", t 结果： nbr of A : 255 nbr of T : 0 即使有T，我也会得到0 但在那之后，我尝试了这个： f = ope

浏览 8提问于2015-10-23得票数 0

回答已采纳

1回答

Bash:嵌套时间循环，用于检测重复项并对重复项进行编号

bash、text-processing、sed

所以我有一个文本文件，里面有基因的头，在同一物种下有不同的基因序列。因此，我提取了标题(headers.txt)，并将其复制到另一个文件(uniqueheaders.txt)中。我删除了uniqueheaders.txt中的所有副本。我正在尝试循环读取一行uniqueheaders.txt，然后循环读取headers.txt以检查副本。if语句检测重复，并增加计数器以将其追加到标头。这将对headers.txt中的所有头进行编号，因此我将它们插入到FASTA文件中。我的密码在这里： while IFS= read -r uniqueline do counter=0 whil

浏览 0提问于2020-11-05得票数 0

回答已采纳

1回答

循环两个FASTA文件中的ids

bash、loops、pipe、fasta

我有两个具有多个序列的fasta文件 cat file1.fasta >1 ACGTCGAT >2 ACTTTATT >3 ACGGGG cat file2.fasta >1 CCGGAGC >2 TGTCAGTC >3 CTACGTCTT 对于每个fasta文件，我也有一个ID列表，我想用这些ID来提取特定的序列，创建一个2序列fasta，然后执行一些操作(对齐，计算距离)。列表： cat file1.list 1 3 cat file2.list 2 1 实际上，这些fasta文件和列表有数千个序列/行长我正在尝试循环列表中的每一行，以提取与特定

浏览 3提问于2017-02-20得票数 1

2回答

使用Biopython Entrez从fasta记录中访问序列元素

python、biopython、fasta、ncbi

我有一个refseq (keys_list)列表，我使用BioPython Entrez将其用于下拉序列记录。我只想访问返回的fasta记录中的序列，但我不想为了这样做而将记录写到文件中。我在试着写代码 for key in key_list: Entrez.email = "myemailaddress" handle = Entrez.efetch(db='nuccore', id=key, rettype='fasta') record = SeqIO.parse(handle, "fasta")

浏览 1提问于2013-07-21得票数 1

回答已采纳

2回答

'if‘求值中存在Python逻辑错误

python、python-3.x、docker、python-3.5、ubuntu-16.04

我刚刚犯了一个最奇怪的错误。我还没有机会完全调试它，但我想发布这篇文章，看看其他人是否也有类似的问题。问题下面的代码在一个下载文件的函数中。如果存在最终文件，则if语句逻辑用于跳过下载步骤。 log.debug('force: {}, isfile: {}'.format(force, os.path.isfile(fasta_path))) log.debug('if result: {}'.format(force or not os.path.isfile(fasta_path))) if force or not os.path.isfile(fa

浏览 3提问于2017-02-15得票数 0

2回答

提取具有特定fasta ID的fasta序列块

python、fasta

我是python的新手，我试着浏览了这里所有与我想要的相关的问题，但还没有得到答案。我想提取文件中具有特定fasta ID的连续fasta序列的块，并将序列写在单独的文件中。文件内容是异构的(在某些地方，fasta is后面没有序列)。输入文件如下所示： >ENS00000004062_species1 >ENS00000004062_species2 >ENS00000004062_species3 ATGGGCTTTTCCACAGAGCTTGCAT >ENS00000004062_species4 ATGGGCTTTTCCACAGAGCTTGCAAC

浏览 1提问于2013-11-21得票数 0

2回答

使用python和Biopython连接不同的FASTA文件

python、biopython、fasta

我必须创建一个软件，挑选多个fasta文件，并创建另一个与所有序列。为此，我编写了以下代码： import sys,random from Bio import SeqIO from Bio.Seq import Seq from Bio.SeqRecord import SeqRecord from Bio import AlignIO # Use: python join_fasta.py infile1.fasta infile2.fasta outfile.fasta infile1 = sys.argv[1] #N

浏览 63提问于2021-08-25得票数 1

回答已采纳

1回答

从具有大小的列表中删除fasta中的起始序列

bash

我想用ID删除列表中的特定序列，并从大型fasta文件中提取序列。输入test.fasta文件： >GHAT8X MKFNDIRNDGHEDCFNNIIFASKLSSHKNVLKLTGCCLETRIPVIVFESVKNRTLADHIYQNQPHFEPLLLSQRLRIAVHIANAIAYLHIGFSRPILHRKIRPSRIFLDEGYIAKLFDFSLSVSIPEGETCVKDKVTGTMGFLAPEYI >GHAMNO MRLIGCCLETENPVLVFEYVEYGTLADRIYHPRQPNFEPVTCSLRLKIAMEIAYGIAYLHVAFSRPIVFRNVKPSNILF

浏览 3提问于2022-02-18得票数 0

1回答

将输出存储到FASTA文件

python-3.x、output、biopython

from Bio import SeqIO from Bio import SeqRecord from Bio import SeqFeature for rec in SeqIO.parse("C:/Users/Siva/Downloads/sequence.gp","genbank"): if rec.features: for feature in rec.features: if feature.type =="Region":

浏览 4提问于2015-10-14得票数 1

回答已采纳

1回答

使用Python拆分FASTA序列

python、biopython

当我尝试运行以下脚本时，出现以下错误消息:背景:我正在尝试根据基因id将一个大的FASTA文件(~45Mb)拆分成较小的文件。每次出现">“的时候，我都想把它切掉。下面的.py脚本允许我这样做。然而，时不时地我会得到以下错误。任何反馈都将非常感谢。 Script: import os os.chdir("/vmb/Flavia_All/Python_Commands") outfile = os.chdir("/vmb/Flavia_All/Python_Commands") import sys infile = open(

浏览 4提问于2017-07-22得票数 1

1回答

函数来读取更新python后无法工作的fasta文件。

python、iterator、python-itertools

我有一个很好的代码来读fasta文件： from itertools import groupby def is_header(line): return line[0] == '>' def parse_fasta(filename): if filename.endswith('.gz'): opener = lambda filename: gzip.open(filename, 'rb') else: opener = lambda filename: open(fil

浏览 5提问于2022-07-30得票数 0

回答已采纳

3回答

函数，它读取文件的内容并创建带有大写内容的新文件。

python、formatting、filenames、uppercase、fasta

如果有人已经问过这个问题，我会事先表示歉意，但我已经花了几个小时寻找答案。我是Python (3.5.1，Windows 10)的新学生，我的任务是编写一个函数，读取Fasta文件的内容(该文件的名称由用户指定)，并创建一个新文件(用户也给出的名称，可以是.fasta或.txt)，并使用大写的Fasta序列。fasta文件是格式化的，因此序列的标题前面有插入符号，后面的行是字符(我想大写的)。一个fasta文件可能包含多个>行在整个文件中，我不想大写这些行。 import sys def fasta_upper(fasta_input_file, fasta_output_file):

浏览 4提问于2016-04-07得票数 0

1回答

用Python提取Fasta Moonlight蛋白序列

python、database、data-mining、bioinformatics、protein-database

我想通过Python从兼职蛋白质数据库( www.moonlightingproteins.org/results.php?search_text= )中提取含有氨基酸序列的FASTA文件，因为这是一个迭代过程，我宁愿学习如何编程而不是手动操作，b/c来吧，我们在2016年了。问题是我不知道如何写代码，因为我是一个新手程序员：基本的伪代码是： for protein_name in site: www.moonlightingproteins.org/results.php?search_text=: go to the uniprot option dow

浏览 4提问于2016-09-21得票数 0

2回答

perl-从多fasta文件中提取重复序列

perl

我有一个很大的fasta文件input.fasta，它包含许多重复序列。我想输入一个标题名称，并提取出与匹配的标题的所有序列。我知道使用awk/sed/grep可以很容易地做到这一点，但是我需要一个Perl代码。 input.fasta >OGH38127_some_organism PAAALGFSHLARQEDSALTPKHYTWTAPGEGDVRAPCPVLNTLANHEFLPHNGKNITVDK AITALGDAMNISPALATTFFTGGLKTNPTPNATWFDLDMLHKHNVLEHDGSLSRRDMHFD TSNKFDAATFANFLSYFDANATVLGVNETADA

浏览 0提问于2018-11-06得票数 0

回答已采纳

1回答

如何使用Biopython中的SeqIO打印前几条记录

python、bioinformatics、biopython、enumerate、fasta

我有一个包含数百条记录的fasta文件，但我试图返回一个只包含前20条记录(记录描述、AA长度和名称)的表。我的代码不工作，我想知道如何只返回前20条记录-最好是以表格式返回。这是我的python代码： #!/usr/local/bin/python3 import cgi import re form = cgi.FieldStorage() from Bio import SeqIO for index, record in enumerate(SeqIO.parse("e_coli_k12_dh10b.faa", "fasta")): print(re

浏览 0提问于2019-03-06得票数 2

1回答

重叠记分矩阵生物工程

python、string-comparison、overlap、biopython

我有一个包含DNA序列和序列名称的FASTA文件，我需要建立一个重叠分数的矩阵。我在Biopython中找到了模块pairwise2，它似乎做得很好。除了我的序列已经对齐，当我使用pairwise2时，它再次尝试对齐序列，这花费了很长的时间，显然每次对齐都得到相同的重叠分数。因此，我的问题是，如何获得重叠评分，而不试图再次对齐序列？以下是我到目前为止所拥有的： from Bio.Alphabet import IUPAC from Bio import SeqIO from Bio import pairwise2 fasta_file = SeqIO.parse('unambigu

浏览 4提问于2017-01-10得票数 3

回答已采纳

1回答

如何将FASTA读入d3.js中的数据并提取FASTA文件的子序列

javascript、parsing、d3.js、fasta

我有一个很小的DNA序列fasta文件，看起来如下：序列1> 序列2> 问题如何在d3.js中解析它？像计算平均序列，从大约100的序列，存储在fasta格式，以及如何捕获它像2D对象在d3。 2.如何在(开始、结束)位置提取子序列？

浏览 2提问于2016-12-13得票数 2

回答已采纳

2回答

如何从文件列表中替换特定位置的字符？

bash、sequence、biopython

我有一个文件包含一个序列： >sequence TAGGACTGAGGGCTGGACAGGGCTGCGGGAG 另一个包含代表立场的数字： 3 6 11 我希望在第二个文件中定义的位置获得一个包含'N‘而不是A、C、G、T的新文件，例如： >sequence TANGANTGAGNGCTGGACAGGGCTGCGGGAG 是否有一种使用bash /sed的方法，或者我是否应该使用python脚本和来自biopython的SeqIO？编辑：下面是python脚本的一个开始： from Bio import SeqIO import sys import s

浏览 3提问于2022-03-14得票数 0

回答已采纳

2回答

记录分隔符中的记录分隔符

perl、hash、record、bioinformatics

如何使用记录分隔符，然后同时使用子记录分隔符？也许这不是思考我想要做的事情的最好方式。我的目标是：我希望在指定的项目行中，一次对一个由制表符分隔的项执行while循环。对于每一行(行)选项卡分隔的项，我需要将所有while循环的结果打印到一个唯一的文件中。允许下面的例子来帮助澄清。我的输入文件将如下所示。它将被称为"Clustered_Barcodes.txt“ TTTATGC TTTATGG TTTATCC TTTATCG TTTATAA TTTATAA TTTATAT TTTATAT TTTATTA CTTGTAA 我的perl代码如下所示：

浏览 3提问于2016-06-06得票数 2

回答已采纳

3回答

如何跳过Python中的位置参数

python、arguments、argparse

我使用argparse来解析脚本的参数。现在，如果第一个参数(在程序名之后)是工具的名称(在类中关闭)，我想编写一个运行特定工具的程序。例如，如果我想运行“计数器”工具，我必须键入： python myscript.py counter filename 然而，如果我想运行"fasta2bed“，则必须键入： python myscript.py fasta2bed filename 我编写了这段代码，但似乎不能跳过arg解译中的位置参数： import argparse parser=argparse.ArgumentParser( usage="""

浏览 3提问于2015-11-02得票数 2

回答已采纳

3回答

在python循环中，打印交替文件中的行

python、bioinformatics、biopython、fasta、fastq

我正在尝试使用python在两个单独的文件中查找感兴趣的四行代码块，然后按受控顺序打印出其中的一些行。下面是两个输入文件和一个所需输出文件的示例。请注意，Input.fasta中的DNA序列与Input.fastq中的DNA序列不同，因为.fasta文件已被读取并更正。 Input.fasta >read1 AAAGGCTGT >read2 AGTCTTTAT >read3 CGTGCCGCT Input.fastq @read1 AAATGCTGT + '(''%$')) @read2 AGTCTCTAT + &---+2010 @r

浏览 29提问于2018-03-01得票数 1

回答已采纳