如何使用python获取带条件的顺序计数(以fasta表示)？_如何使用python获取fasta文件中重复序列的计数 - 腾讯云开发者社区

unix、cat

如果我有一堆如下所示的文件： fasta_Watson_0 fasta_Watson_1 fasta_Watson_2 ... fasta_Watson_190 我该如何写一个awk脚本来自动将所有文件连接成一个文件？手工打字： cat fasta_Watson_0 fasta_Watson_1 ... 太乏味了！

浏览 0提问于2014-08-02得票数 1

2回答

重命名几个多重文件的头

bash、text-processing、awk

我有以P开头的多fasta文件(例如PANS_1_2、PANS_1_5、PANS_200_2、PANS_200_2)。这些文件的头如下所示 >1_1262659_105.258519 >2_809301_107.252177 >3_422941_112.146787 >4_413692_100.238323 我正在尝试用filename_ctg1替换这些文件的头。如果输入fasta文件是PANS_1_2，那么输出文件(PANS_1_2.fasta)中的头应该是： >PANS_1_2_ctg1 >PANS_1_2_ctg2 >PANS_1_2_ctg3

浏览 0提问于2021-01-14得票数 1

回答已采纳

1回答

将fasta文件(.fasta)转换为计数文件(.cf)

python、converters、fasta

我正在尝试将fasta文件(.fasta)转换为计数文件(.cf)，以便能够将其上传到IQTREE，以便用于系统发育分析。fasta文件是对齐的合并文件，是将个体排序成5个种群中的一个的映射。已附上此文件的示例。我试过R和python，但没有取得任何成功。

浏览 6提问于2022-11-01得票数 -1

3回答

使用bash循环重命名多个文件

bash、for-loop、batch-rename

我需要重命名45个文件，我不想一个接一个地重命名。以下是文件名： chr10.fasta chr13_random.fasta chr17.fasta chr1.fasta chr22_random.fasta chr4_random.fasta chr7_random.fasta chrX.fasta chr10_random.fasta chr14.fasta chr17_random.fasta chr1_random.fasta chr2.fasta chr5.fasta

浏览 2提问于2012-01-18得票数 27

回答已采纳

2回答

在使用SeqIO解析的fasta文件上使用排序时出现"NotImplementedError: SeqRecord“

python、bioinformatics、biopython、fasta

我尝试按照文件中序列的字母顺序(而不是序列的ID )对fasta文件进行排序。fasta文件包含超过200个序列，我正在尝试在bit master (使用python代码)中查找重复的(我指的是几乎相同的蛋白质序列，但不是相同的ID)。所以我想用fasta文件做一个字典，然后对字典的值进行排序。我尝试使用的代码如下： from Bio import SeqIO input_file = open("PP_Seq.fasta") my_dict = SeqIO.to_dict(SeqIO.parse(input_file, "fasta")) prin

浏览 2提问于2017-02-21得票数 4

回答已采纳

3回答

如何跳过Python中的位置参数

python、arguments、argparse

我使用argparse来解析脚本的参数。现在，如果第一个参数(在程序名之后)是工具的名称(在类中关闭)，我想编写一个运行特定工具的程序。例如，如果我想运行“计数器”工具，我必须键入： python myscript.py counter filename 然而，如果我想运行"fasta2bed“，则必须键入： python myscript.py fasta2bed filename 我编写了这段代码，但似乎不能跳过arg解译中的位置参数： import argparse parser=argparse.ArgumentParser( usage="""

浏览 3提问于2015-11-02得票数 2

回答已采纳

1回答

只需要新文件中的前100个条目

python

from Bio import SeqIO path_to_file = ("/Users/richard/Desktop/AllSurfaceGlycoproteinSeqs.fasta") with open(path_to_file, mode='r') as handle: out = open("/Users/name/Desktop/texas1.fasta", 'w') for record in SeqIO.parse(handle, 'fasta'): identifer

浏览 2提问于2021-12-21得票数 0

回答已采纳

1回答

读取蛋白质fasta文件并在Arginine(R)上拆分读取的字符串，然后炸掉这些肽以获得匹配项？

split、bioinformatics、biopython、fasta、bioperl

我有以下fasta文件： '>gi|277456704|dbj|ID_P|Gene name LLL MDGFAGSLDDSISAASTSDVQDRLSALESRVQQQEDEITVLKAALADVLRRLAISEDHVASVKKSVSSKV YRRKHQELQAMQMELQSPEYKLSKLRTSTIMTDYNPNYCFAGKTSSISDLKEVPRKNITLIRGLGHGAFG EVYEGQVSGMPNDPSPLQVAVKTLPEVCSEQDELDFLMEALIISKFNHQNIVRCIGVSLQSLPRFILLEL MAGGDLKSFLRETRPRPSQPSSLAMLDLL

浏览 1提问于2013-06-08得票数 1

回答已采纳

1回答

用python/biopython计算DNA序列

python、bioinformatics、biopython、dna-sequence

下面的脚本正在计算标准FASTA文件中“CCCCAAAA”和“GGGGTTTT”序列的出现情况： >contig00001 CCCCAAAACCCCAAAACCCCAAAACCCCTAcGAaTCCCcTCATAATTGAAAGACTTAAACTTTAAAACCCTAGAAT 脚本在这里对CCCCAAAA序列进行3次计数 CCCCAAAACCCCAAAACCCCAAAA(CCCC不计算) 请有人告诉我，我将如何包括CCCC序列的结尾，作为一个一半的计数，以返回一个值3.5的这一点。到目前为止，我的尝试一直没有成功。我的剧本如下..。 from Bio import SeqIO

浏览 0提问于2014-04-01得票数 3

回答已采纳

2回答

如何从文件列表中替换特定位置的字符？

bash、sequence、biopython

我有一个文件包含一个序列： >sequence TAGGACTGAGGGCTGGACAGGGCTGCGGGAG 另一个包含代表立场的数字： 3 6 11 我希望在第二个文件中定义的位置获得一个包含'N‘而不是A、C、G、T的新文件，例如： >sequence TANGANTGAGNGCTGGACAGGGCTGCGGGAG 是否有一种使用bash /sed的方法，或者我是否应该使用python脚本和来自biopython的SeqIO？编辑：下面是python脚本的一个开始： from Bio import SeqIO import sys import s

浏览 3提问于2022-03-14得票数 0

回答已采纳

2回答

Flutter，FileReader()在编译到安卓时崩溃

flutter、dart、flutter-web

我正在开发一个多平台的应用程序，它在Android，IOS和网络上工作。我为每个平台调用了不同的服务，在其中一个服务中，我使用FileReader()从web版本上传文件，它可以工作，但如果我不注释FileReader()对象，它就不让我编译安卓版本，以下是输出： Launching lib/main.dart on Mi 9T in debug mode... Running Gradle task 'assembleDebug'... Unhandled exception: Crash when compiling file:///Users/danielcardona

浏览 80提问于2019-12-15得票数 0

2回答

这条计算fasta文件中核苷酸数目的awk线是如何工作的？

unix、awk、bioinformatics

我目前正在学习使用awk，并找到了我需要的awk命令，但并不完全理解其中发生了什么。这一行代码获取一个名为fasta的基因组文件，并返回其中每个序列的所有长度。对于那些不熟悉fasta文件的人来说，它们是txt文件，可以包含多个称为contigs的基因序列。它遵循以下一般结构： >Nameofsequence Sequencedata like: ATGCATCG GCACGACTCGCTATATTATA >Nameofsequence2 Sequencedata 这条线在这里找到： cat file.fa | awk '$0 ~ ">" {if (N

浏览 0提问于2021-09-26得票数 1

回答已采纳

3回答

如何使用gnu-parallel来处理有两个输入的脚本？

parallel-processing、gnu-parallel

我正在尝试运行具有两个输入的Python脚本，如下所示。我得到了这两个输入中的大约300个，所以我想知道是否有人可以建议如何在并行中运行它们。单次运行如下所示： python stable.py KOG_1.fan KOG_1.fasta > KOG_1.stable 我的并行测试不起作用： ls *.fan; ls *.fasta | parallel python stable.py {} {} > {.}.stable 但我如何指定它必须与_1.fan和_1.fasta一起运行；然后与_2.fan和_1.fasta等一起运行……直到_300.fan和_300.fasta。

浏览 4提问于2016-02-05得票数 3

1回答

Snakemake:使用--debug-dag检测循环依赖

snakemake

我在NGS分析的工作流程中使用了snakemake。在一条规则中，我利用了来自另一条规则的唯一(临时)输出。这条规则的rule.The输出也是唯一的，有助于创建最终的输出。在这些规则上使用简单的通配符{sample}。我没有看到任何循环依赖，但是snakemake告诉我有： Snakefile第xxx行中的CyclicGraphException :对规则的循环依赖我知道有一个选项可以调查这个问题：--debug-dag。我如何解释输出？候选人与被选中的是什么？这是规则的我的(伪)代码： rule split_fasta: input: dataFile="

浏览 22提问于2019-07-26得票数 2

3回答

在python循环中，打印交替文件中的行

python、bioinformatics、biopython、fasta、fastq

我正在尝试使用python在两个单独的文件中查找感兴趣的四行代码块，然后按受控顺序打印出其中的一些行。下面是两个输入文件和一个所需输出文件的示例。请注意，Input.fasta中的DNA序列与Input.fastq中的DNA序列不同，因为.fasta文件已被读取并更正。 Input.fasta >read1 AAAGGCTGT >read2 AGTCTTTAT >read3 CGTGCCGCT Input.fastq @read1 AAATGCTGT + '(''%$')) @read2 AGTCTCTAT + &---+2010 @r

浏览 29提问于2018-03-01得票数 1

回答已采纳

2回答

FASTA上的Biopython迭代不工作吗？

python

我是编程领域的新手，我试图掌握python循环背后的结构和逻辑。有谁能给我解释一下，为什么这东西不起作用？ from Bio.SeqUtils import GC from Bio import SeqIO i = 0 record = SeqIO.read(open("group_%d.fasta"), "fasta")% i for x in record.seq: print GC(record.seq) i+=1 上面的代码会产生以下错误： IOError: [Errno 2] No such file or directory:

浏览 3提问于2014-04-25得票数 1

回答已采纳

2回答

使用awk计算每个物种id在多个fasta文件中发生的次数。

unix、awk、count、fasta

我搜索了这个话题，却找不到。我有5593个多fasta文件，我需要计算每一个物种id在每个文件中发生的次数。我只能识别每个物种中的序列总数，但我不能识别输入文件。输入文件1.快件： >hsa ATCGATCGATCAGACTACG >eco ATCGATCGATCAGACTACG 文件2.快件： >hsa GATCGATCAGACTACGAAA >hsa GATCGATCACAGACTACGAAA 文件3.快： >hsa CTAGACTAGATAGACACATAGAGA >ecj CTAGACTAGCTAGACCCATAGAGA >mmu

浏览 2提问于2014-08-07得票数 0

回答已采纳

1回答

如何使用Biopython中的SeqIO打印前几条记录

python、bioinformatics、biopython、enumerate、fasta

我有一个包含数百条记录的fasta文件，但我试图返回一个只包含前20条记录(记录描述、AA长度和名称)的表。我的代码不工作，我想知道如何只返回前20条记录-最好是以表格式返回。这是我的python代码： #!/usr/local/bin/python3 import cgi import re form = cgi.FieldStorage() from Bio import SeqIO for index, record in enumerate(SeqIO.parse("e_coli_k12_dh10b.faa", "fasta")): print(re

浏览 0提问于2019-03-06得票数 2

1回答

如何提高生物信息学脚本的运行速度？

python、python-3.x

我正在开发一个用于生物信息学分析的python脚本。首先，该脚本读取整个文件(.fasta -基本上是一个非常长的字符串)来查找所有的scaffold(以‘>’开头的行)，然后打印出找到的scaffold的数量。我有两个类似的输入文件.fasta，一个超过1.5 31，运行时间不到一分钟，第二个85MB，需要超过31个小时。 import sys cabecalho = [] sequencia = [] contador = -1 file_open = open('C:\PYTHON\Chr09.fasta', "r") for line in fi

浏览 0提问于2019-08-06得票数 0

3回答

在bash脚本中插入python代码

python、bash、variables

我有以下bash脚本： #!/bin/bash while read line do ORD=`echo $line | cut -c 7-21` if [[ -r ../FASTA_SEC/${ORD}.fa ]] then WCR=`fgrep -o N ../FASTA_SEC/$ORD.fa | wc -l` WCT=`wc -m < ../FASTA_SEC/$ORD.fa` PER1=`echo print $WCR/$WCT.*100 | python`

浏览 9提问于2017-01-03得票数 0

回答已采纳

3回答

如何将python脚本作为不同文件的循环运行？

python、loops

我有一个python脚本如下： #!/usr/bin/python from Bio import SeqIO fasta_file = "input.fa" # Input fasta file wanted_file = "A_ids.txt" # Input interesting sequence IDs, one per line result_file = "A.fasta" # Output fasta file wanted = set() with open(wanted_file) as f: for line i

浏览 4提问于2016-11-11得票数 0

回答已采纳

5回答

如何使用readline()从第二行开始？

python

我正在用Python编写一个简短的程序，它将读取一个FASTA文件，该文件通常采用以下格式： >gi|253795547|ref|NC_012960.1| Candidatus Hodgkinia cicadicola Dsem chromosome, 52 lines GACGGCTTGTTTGCGTGCGACGAGTTTAGGATTGCTCTTTTGCTAAGCTTGGGGGTTGCGCCCAAAGTGA TTAGATTTTCCGACAGCGTACGGCGCGCGCTGCTGAACGTGGCCACTGAGCTTACACCTCATTTCAGCGC TCGCTTGCTGGCGAAGCTG

浏览 0提问于2011-04-22得票数 5

3回答

函数，它读取文件的内容并创建带有大写内容的新文件。

python、formatting、filenames、uppercase、fasta

如果有人已经问过这个问题，我会事先表示歉意，但我已经花了几个小时寻找答案。我是Python (3.5.1，Windows 10)的新学生，我的任务是编写一个函数，读取Fasta文件的内容(该文件的名称由用户指定)，并创建一个新文件(用户也给出的名称，可以是.fasta或.txt)，并使用大写的Fasta序列。fasta文件是格式化的，因此序列的标题前面有插入符号，后面的行是字符(我想大写的)。一个fasta文件可能包含多个>行在整个文件中，我不想大写这些行。 import sys def fasta_upper(fasta_input_file, fasta_output_file):

浏览 4提问于2016-04-07得票数 0

1回答

将">“的每个实例替换为">{InstanceNumber}_”

parsing、awk、sed

关于.fasta文件的快速背景，从第一行开始的每一行都以>开头，之后我们有标题名称。文件中没有其他地方可以找到>。因为有时候合并2个fasta文件会导致非唯一的头名，所以我想要一个简单的脚本，使每个头名都是唯一的。我有： for i in {1..4013}; do awk '/>/{c++;if(c=='"$i"'){sub(">",">'"$i"'_")}}1' Combined_Pass_2D_nanocorrect_round1_renamed

浏览 3提问于2016-04-02得票数 1

回答已采纳

1回答

在python中使用变量作为新文件名的一部分

python、fasta

我对python相当陌生，而且我的python脚本(split_fasta.py)也有问题。下面是我的问题的一个例子： list = ["1.fasta", "2.fasta", "3.fasta"] for file in list: contents = open(file, "r") for line in contents: if line[0] == ">": new_file = open(file + "_chromosome.fa

浏览 2提问于2016-09-15得票数 1

回答已采纳

1回答

去掉输出中的括号

python、python-3.x、bioinformatics、biopython

我认为这对你来说是一个简单的问题，因为我是python3的初学者。当打印fasta文件的标题时，它包含括号。我怎么才能把它们移除？ import sys from Bio import Entrez from Bio import SeqIO #define email for entrez login db = "nuccore" Entrez.email = "someone@email.com" #load accessions from arguments if len(sys.argv[1:]) > 1: accs

浏览 3提问于2017-03-27得票数 1

回答已采纳

1回答

更改.fasta文件名

text-processing

我有像2000 fasta文件这样的结构： Name_ID#_Name2_ID1...2000.fasta 我想将文件名的顺序更改为： Name2.Name_ID#_ID1...2000.fasta 有人对我如何做到这一点有建议吗？

浏览 0提问于2020-07-12得票数 -3

回答已采纳

1回答

在不使用Biopython的情况下将fasta文件中的头与序列分开

python、file、parsing、fasta

我一直试图在一个fasta文件中将多个DNA序列从头中分离出来，方法是使用Python3.5构建一个字典，而不使用Biopython。我不能让它正常工作。如有任何建议，将不胜感激。非常感谢。标题在标号'>‘>后面下面是一个fasta文件的示例： >XM_021728176.1 PREDICTED: Ictidomys tridecemlineatus forkhead box N1 (Foxn1), transcript variant X1, mRNA ATGGTGTCGCTACTCCCGCCACAGTCTGACGTCACGCTGCCTGGCCCCACCAGACT

浏览 3提问于2017-07-05得票数 1

1回答

在bash脚本中嵌入python

python、linux、bash、embed

我对python非常陌生，我正在尝试将它嵌入到bash脚本中。我有以下bash脚本： #!/bin/bash while read line do ORD=`echo $line | cut -c 1-7` if [[ -r ../FASTA_SEC/COMBI_RAW/${ORD}_COMBI_RAW.fa ]] then touch ../Results/Log_Files/Log_${ORD}.txt for (( win = 2; win < 20; win += 2 )); do printf &

浏览 2提问于2017-01-15得票数 0

回答已采纳

1回答

无法使用stdin在python解释器中线程多个外部脚本

python、subprocess、stdout、stdin、popen

我有以下脚本，perl脚本(fasta.pl)接受一个输入文件(Abc)并给出字符串。 $ ./fasta.pl abc.txt 我第一次尝试 p1= subprocess.Popen(["./pdb_fasta.pl","abc.txt"],stdout=subprocess.PIPE); 然后我确认了p1是一个文件对象 >>> type(p1.stdout) <type 'file'> 我还有另一个脚本count.py，它接受一个文件作为输入 $ ./count.py p1.stdout 现在，当我尝试对此脚本

浏览 0提问于2013-06-15得票数 1

回答已采纳

1回答

将大型fasta拆分为多个文件，无法使用GI编号命名它们

python、biopython、fasta

首先，我应该说我对Python和Biopython都是新手。我正在尝试将一个大的.fasta文件(具有多个条目)拆分为单个文件，每个文件都有一个条目。我在Biopython wiki/ Cookbook站点上找到了以下大部分代码，并对其进行了一点修改。我的问题是，这个生成器将它们命名为"1.fasta“、”2.fast a“等，而我需要用一些标识符来命名它们，比如GI number。 def batch_iterator(iterator, batch_size) : """Returns lists of length batch_size.

浏览 2提问于2012-05-30得票数 0

3回答

计算Perl中模式匹配的数量

regex、perl、multiple-matches

我对perl和一般的编程都很陌生。在过去的几天里，我一直在寻找如何计算模式匹配的数量；我很难理解其他解决方案，并将它们应用到我已经编写的代码中。基本上，我有一个序列，我需要找到与TCCCTGGAAGC匹配的所有模式我想我已经记下来了。但是我被困在计算每个模式匹配的出现次数。有没有人知道如何编辑我已经需要做的代码？欢迎任何建议。谢谢! #!/usr/bin/perl use strict; use warnings; use diagnostics; # open fasta file for reading unless( open( FASTA, "<", &#

浏览 2提问于2016-10-20得票数 1

1回答

如何更改带有特定单词的文件以结束linux中的in.fasta

linux、filenames、fasta

如何选择并更改包含特定单词的文件，使其全部以".fasta“结尾？例如，我正在选择包含单词"car“的文件。 find /home/user -name "*car*" 这给了我 /home/user/car.txt /home/user/scar.fa /home/user/cart.fa /home/user/scart.fasta 但我不知道如何更改它们，使它们都以".fasta“结尾所以最终的结果是 /home/user/car.fasta /home/user/scar.fasta /home/user/cart.fasta /home/u

浏览 1提问于2017-11-03得票数 0

1回答

从fasta文件中计算k-mers类单体、二聚体的数量。

python、bioinformatics

这里任何使用Python来解决生物信息学问题的人。这是我所写的代码，用于计数dimers类单体的数量，从fasta文件到hexamer的二聚体。您只需为fasta序列提供ncbi的登录号，然后它就会计算number的数量。如果您有时间，请检查代码，因为我认为它有点长，我使用了try/除了解决IndexError。你的建议很有价值。谢谢。 from Bio import Entrez Entrez.email = 'roshanpra@gmail.com' monomers = list('ATGC') dimers = []

浏览 0提问于2020-10-23得票数 3

回答已采纳

1回答

搜索基元打印头

regex、perl

我有一个包含多个字符串的文件，比如data.fa。 sp|P08246|ELNE_HUMAN Neutrophil elastase OS=Homo sapiens GN=ELANE PE=1 SV=1 MTLGRRLACLFLACVLPALLLGGTALASEIVGGRRARPHAWPFMVSLQLRGGHFCGATLI APNFVMSAAHCVANVNVRAVRVVLGAHNLSRREPTRQVFAVQRIFENGYDPVNLLNDIVI LQLNGSATINANVQVAQLPAQGRRLGNGVQCLAMGWGLLGRNRGIASVLQELNVTVVTSL CRRSNVCTLVRGRQA

浏览 2提问于2014-04-09得票数 0

回答已采纳

1回答

我需要改进一个解析多个fasta文件的函数，用一个尝试注释处理来检查是否压缩。

python、bioinformatics、fasta

嗨，伙计们，我正在处理一个巨大的gz压缩fasta文件，我有一个很好的fasta解析器，但是我想让它变得更一般，在我可以检查压缩的方式，解析一个gz或一个非压缩的文件。我试着用这个代码： def is_header(line): return line[0] == '>' def parse_multi_fasta_file_compressed_or_not(filename): if filename.endswith('.gz'): with gzip.open(filename, 'rt') as

浏览 1提问于2020-01-27得票数 0

回答已采纳

2回答

在python3.5中写入gzipped文件

python、python-3.5、biopython

我刚刚将工具中的所有模块从python 2迁移到python 3，遇到了一个我无法解决的问题--我不知道如何写到gzipped文件。 with gzip.open("sample.fasta.gz", "w") as file: print("writing...") for oid, seq in temp_data.items(): # prepare row row = SeqRecord(Seq(seq), id=str(oid), description=temp_tax[oid])

浏览 1提问于2016-12-08得票数 1

回答已采纳

4回答

在postgres中使用极限时不使用的索引

sql、postgresql、indexing

我有一个带索引的words表(language_id，state)。以下是解释分析的结果：无限制 explain analyze SELECT "words".* FROM "words" WHERE (words.language_id = 27) AND (state IS NULL); Bitmap Heap Scan on words (cost=10800.38..134324.10 rows=441257 width=96) (actual time=233.257..416.026 rows=540556 loops=1) Recheck C

浏览 8提问于2011-12-19得票数 12

回答已采纳

1回答

为文件输入创建dcg的一般模式是什么？

prolog、swi-prolog、dcg、fasta

我似乎总是很难编写DCG来解析输入文件。但看起来应该很简单吗？有什么窍门或窍门可以考虑这个问题吗？对于一个具体的例子，让我们说我想解析一个fasta文件。()。我想读每一个描述和每一个序列的回溯跟踪。 :- use_module(library(pio)). :- use_module(library(dcg/basics)). :- portray_text(true). :- set_prolog_flag(double_quotes, codes). :- set_prolog_flag(back_quotes,string). fasta_file([]) -->[]. fa

浏览 1提问于2015-07-11得票数 5

回答已采纳

1回答

显示MySQL表java中的数据

mysql

我在MySQL中显示一个表中的数据。我正在显示一场高尔夫比赛的结果，其中的数据是按照从最高点到最低点的顺序显示的。我希望该列显示1、2和3。这是我在JSP页面上的代码，用于显示表。 <th>Place</th> <th>Name</th> <th>Handicap</th> <th>Score</th> <tr> <

浏览 2提问于2015-04-19得票数 1

2回答

如何使用awk提取多快件文件中的最后一个连体

awk、fasta

我正在尝试提取多个快速文件的第一次也是最后一次。它们都有不同的名称，所以我不想使用特定的名称，而是根据文件中的位置。我使用这个awk命令awk '/^>/{if(N)exit;++N;} {print;}' in.fasta来获得第一个contig，但是我不知道如何获得文件中的最后一个contig。我的fasta文件看起来像这样(但是有更多的contigs)： >PA257_2806 RPGRNPKTGEEIPITARRVVTFRPGQKLKARVEAYAGTKS 我想取出文件中的第一个和最后一个contig，这样它们就在两个单独的fasta文件中(就像

浏览 4提问于2022-09-06得票数 1

回答已采纳

2回答

如何在Linux命令提示符下调用外部输入和输出文件名来运行Python程序

python、linux、file-io、command-prompt

在我的Python程序中，我有可以打开输入文件的行： f = open('/home/han/fasta.txt',"r") 并编写输出文件： with open("output.txt", "w") as text_file: text_file.write ("{:<16}{:<16}{:<16}{:<16}{:<16}".format('','A','C','G','T')+'\n&#

浏览 12提问于2015-06-16得票数 1

回答已采纳

4回答

将fasta文件格式读入python字典

python

我有一个具有以下格式的文件： >seq1 ATGGGTGTGTGTGTG >seq2 ATGTGTTTGTGTGCTCCTCCTC >seq3 AACGTCGTGACGGGTGCGTGGTGTGTGTCCAA 我想以Python中的字典形式阅读这个文件。我知道BIO函数，但是除了完成我的工作之外，我还想学习python中的脚本。到目前为止，我已经尝试过这个代码： import sys sequence = ' ' fasta = {} with open(sys.argv[1]) as file_one: file_one_content = file

浏览 3提问于2015-03-29得票数 5

回答已采纳

1回答

API请求帮助

rest

我对调用第三方REST API是个新手。我有一个需要ID (/sites/{id}/.因为我不知道我头顶上的ID，所以我想查询多个ID，有没有通配符可以让它运行并检查实例ID的1到10？或者这更像是一个python集成？

浏览 1提问于2021-11-15得票数 0

4回答

使用awk在fasta标头中保留分隔符后的文本

bash、awk、fasta

我有一个简单的问题，但我缺乏知识却阻碍了我。我想清理fasta文件的头部，该文件的格式如下： >HWGG454_Clocus2_Locus3443_allele1 ATTCTACTACTACTCT >GHW757_clocus37_Locus555662_allele2 CTTCCCTACGATG >TY45_clocus23_Locus800_allele0 TTCTACTTCATCT 我想清理每一个标题(行开始">")，只保留信息部分，这是第二个"_Locus*“是否有等位基因部分。我原以为awk是个简单的方法，但我无法让它发挥作用。如

浏览 3提问于2015-02-23得票数 1

回答已采纳

4回答

在unix中使用awk删除重复项

unix、ubuntu、awk

我的文件是格式的 >id1 sequence1 >id2 sequence2 >id1 sequence3 我想要的输出是： >id1 sequence1 >id2 sequence2 也就是说，如果id是重复的，我需要双对删除序列和id。我尝试了下面的代码，但它不起作用。 awk '{ if(NR%2 == 1) { fastaheader = $0; x[fasta_header] = x[fasta_header] + 1; } else { seq = $0; {if(x[fasta_header] <= 1) {pri

浏览 5提问于2014-01-22得票数 0

回答已采纳

2回答

JavaScript For循环保持无限循环

javascript、for-loop

我编写了下面的函数，作为通过web接口处理FASTA格式化文件的更大应用程序的一部分。出于某种原因，当从baseCounts()内部调用我的baseCounts()函数时，它决定进入无穷大。值得注意的是，这两个函数都由同一个父函数封装。函数baseCounts()以100+ long数组的形式返回有效数据，console.log确认这不是罪魁祸首，所以问题必须是makePretty()。欢迎任何帮助。 function baseCount(records){ // Count instances of Bases in array var basecounts = Array(

浏览 2提问于2014-09-30得票数 0

回答已采纳

1回答

解析多fasta文件以提取序列

python、fasta

我试图用python编写一个脚本来解析一个大型的fasta文件，因为我正在学习脚本，所以我不想使用biopython。脚本需要将登录号、序列长度和序列gc内容打印到控制台。我已经能够提取登录号，但无法提取序列，因为它们被读取为行，这使我无法计算序列长度和gc内容。有人能帮我吗？我尝试在列表中对行进行分组，但是这会在一个列表中创建多个列表，我也不知道如何加入它们。 seq="" seqcount=0 seqlen=0 gc=0 #prompt user for file name infile=input("Enter the name of your designa

浏览 1提问于2017-10-18得票数 3

1回答

使用os.walk的循环只运行第一个周期

python-3.x、pandas、loops、os.walk

我正在尝试获取列表中的一组文件的路径。这些文件位于不同的子文件夹中。我使用os.walk和循环来遍历不同的文件，并将完整路径附加到新的数据帧，以便在不同的程序中使用。但是代码中有一个错误，它只会让它运行循环的第一个周期。代码基于这个线程：我在MacOS10.14.6上使用python3.6，我不确定这是否重要，但目录在外部硬盘驱动器上。 import pandas as pd import os dir = "/Volumes/dir1/dir2" fastafiles = ["file1", "file2"

浏览 15提问于2019-08-14得票数 0

回答已采纳

4回答

子进程无法捕获标准输出

python、subprocess、biopython

我正在尝试用fasta文件输入和MuscleCommandline对齐来生成树 import sys,os, subprocess from Bio import AlignIO from Bio.Align.Applications import MuscleCommandline cline = MuscleCommandline(input="c:\Python26\opuntia.fasta") child= subprocess.Popen(str(cline), stdout = subprocess.PIPE,

浏览 4提问于2010-05-18得票数 1

回答已采纳