在python中根据数据帧重命名fasta文件_使用for循环在Python中重命名数据帧_在Python中连接两个fasta文件 - 腾讯云开发者社区

python-3.x、pandas、loops、os.walk

我正在尝试获取列表中的一组文件的路径。这些文件位于不同的子文件夹中。我使用os.walk和循环来遍历不同的文件，并将完整路径附加到新的数据帧，以便在不同的程序中使用。但是代码中有一个错误，它只会让它运行循环的第一个周期。代码基于这个线程：我在MacOS10.14.6上使用python3.6，我不确定这是否重要，但目录在外部硬盘驱动器上。 import pandas as pd import os dir = "/Volumes/dir1/dir2" fastafiles = ["file1", "file2"

浏览 15提问于2019-08-14得票数 0

回答已采纳

1回答

将Blast+与本地数据库配合使用

database、blast、ncbi

我目前正在使用Blast+进行Blast步骤，但是我没有得到任何结果(我应该得到，因为我blast的序列在我的数据库文件中)。我知道我正在做一些不正确的事情，如果有人能把我送上正确的轨道，我会很高兴的。这是我正在使用的代码：制作数据库： makeblastdb -in input.fasta -parse_seqids -blastdb_version 5 -title "Database1" -dbtype prot 爆炸： blastp -db my_dbfile.fasta -query my_query.txt 感谢您的帮助:)

浏览 21提问于2020-05-15得票数 0

1回答

在Unix中更改文件名中已有数字的多个文件名

unix、file-rename

所以我想批量更改具有以下类型名称的名称文件(大约400个文件)： L1_Mviridis.fasta L2_Mviridis.fasta L3_Mviridis.fasta... 要这样做： L1_1_Mviridis.fasta L2_2_Mviridis.fasta L3_3_Mviridis.fasta 我也没有“重命名”功能。谢谢你的建议！

浏览 0提问于2018-05-08得票数 1

1回答

按因数组合列

我有因子lang和alg的数据，我喜欢比较所有alg之间选定的lang对的差异。 > perf[perf$lang == "java", c("alg", "cpu")] alg cpu 173 binarytrees 0.196 174 chameneosredux 0.404 175 fannkuchredux 0.648 > perf[perf$lang == "python3", c("alg", "cpu")]

浏览 3提问于2016-03-06得票数 0

1回答

在Python2中，通过Python3将信息保存在字典中可以很好地工作

python、dictionary

在我合作的一个python项目中，我们最初打算将输入fasta文件中的信息解析到字典中。解析方法已经实现了(和)，问题是:代码在Python3中运行时运行良好(fasta文件被加载，其信息被解析为FDB数据结构，然后将其保存在新的fdb文件中)，但当它在Python2中运行时，生成的字典不包含读取fasta文件的值信息，只包含键。上面的链接显示了为解析而开发的代码，下面的块包含我们执行的测试(它在Python3上工作得很好，但不能将fasta信息保存在Python2中)。 print("Instantiating a FastaDB object...") fasta_db

浏览 8提问于2016-07-18得票数 0

2回答

'if‘求值中存在Python逻辑错误

python、python-3.x、docker、python-3.5、ubuntu-16.04

我刚刚犯了一个最奇怪的错误。我还没有机会完全调试它，但我想发布这篇文章，看看其他人是否也有类似的问题。问题下面的代码在一个下载文件的函数中。如果存在最终文件，则if语句逻辑用于跳过下载步骤。 log.debug('force: {}, isfile: {}'.format(force, os.path.isfile(fasta_path))) log.debug('if result: {}'.format(force or not os.path.isfile(fasta_path))) if force or not os.path.isfile(fa

浏览 3提问于2017-02-15得票数 0

1回答

更改.fasta文件名

text-processing

我有像2000 fasta文件这样的结构： Name_ID#_Name2_ID1...2000.fasta 我想将文件名的顺序更改为： Name2.Name_ID#_ID1...2000.fasta 有人对我如何做到这一点有建议吗？

浏览 0提问于2020-07-12得票数 -3

回答已采纳

3回答

读取大文件(>8GB)并将数据转储到字典中并再次加载的最快方法

python、python-2.7、large-files、file-access

我正在处理一个大型蛋白质序列(fasta)文件(>8GB)，我的想法是创建字典，其中键和值分别是蛋白质id和序列。现在，我可以使用pickle创建数据并将数据转储到字典中，然后尝试用cpickle打开(我看到pickle转储数据更快，cpickle加载数据更快)。但是，这里的主要问题是时间:将其作为字典生成和转储需要花费太多的时间和内存(PC有8GB内存)。是否有更快的选项可用于处理Python中的大型文件？下面是我创建字典和转储数据的Python代码： from Bio import SeqIO import pickle,sys fastaSeq = {} with open

浏览 7提问于2014-02-28得票数 7

回答已采纳

2回答

将colname替换为colname的子字符串

我想知道如何将数据帧的名称替换为原始名称中唯一的字符串？ > colnames(df.iso) [1] "../trimmed/100G.tally.fasta" "../trimmed/100R.tally.fasta" "../trimmed/106G.tally.fasta" [4] "../trimmed/106R.tally.fasta" "../trimmed/122G.tally.fasta" "../trimmed/122R.tally.fasta" [7] ".

浏览 1提问于2016-03-27得票数 3

回答已采纳

1回答

用Biopython从ID列表中提取fasta文件

python、bioinformatics、biopython、fasta

我正在使用Biopython在fasta文件中查找与包含选定ID的.txt文件中的ID匹配的序列。当手动搜索fasta文件中的ID名称时，我确实得到了匹配结果，但以下脚本没有找到/提取任何序列： #!/usr/bin/env python3 from Bio import SeqIO wanted_ids = "transcript.orthogroup7.txt" input_filename = "hq_isoseq_transcripts.fasta" output_filename = "wanted_hq_isoseq_transcripts.

浏览 16提问于2021-11-17得票数 0

1回答

如何更改文件类型，然后保存到新目录？

python、directory、biopython

我一直试图将某一类型文件夹中的所有文件更改为另一种类型，然后将它们保存到我创建的另一个文件夹中。在我的示例中，这些文件将从“.dna”文件更改为“.fasta”文件。我已经通过以下代码成功地完成了这一任务： files = Path(directory).glob('*.dna') for file in files: record = snapgene_file_to_seqrecord(file) fasta = record.format("fasta") print(fasta) 我现在的问题

浏览 6提问于2022-11-23得票数 0

2回答

Spark如何读取分布式文件

apache-spark、fasta

Fasta文件是一个多行文件。它的结构类似于 >ID_1 ACGTAGCATGC >ID_2 AGCTAGTACATC 因此，为了得到序列，我必须读取2行中的1行。我有多个大的fasta文件(每个文件120Go)要读取。我使用spark来读取这些文件。我目前使用它来获取数据帧上的所有序列： val sequences = sc.textFile("path/to/directory").sliding(2, 2).map{case Array(id, seq) => seq} 这个命令是否允许获取所有知道文件分布在spark集群上的序列?)

浏览 0提问于2018-05-14得票数 2

1回答

在python中使用变量作为新文件名的一部分

python、fasta

我对python相当陌生，而且我的python脚本(split_fasta.py)也有问题。下面是我的问题的一个例子： list = ["1.fasta", "2.fasta", "3.fasta"] for file in list: contents = open(file, "r") for line in contents: if line[0] == ">": new_file = open(file + "_chromosome.fa

浏览 2提问于2016-09-15得票数 1

回答已采纳

1回答

如何使用包含R中特定ID的数据帧对fasta文件进行子集？

r、bioinformatics

我有一个复杂的fasta文件，包含794个条目，我想根据我创建的各种ID列表进行子集。 fasta文件的格式如下： >5_B1_CZ.1:572-889 ID:5_B1 Contig:1 ATGTCCTGGATDCGTTACTTGTGTATTGCCGGTCCTC 基于之前的回答，我使用下面的代码读取了fasta文件。 fastafile<- read.fasta(file = "test.fasta", seqtype = "AA",as.string = TRUE, set.attributes = FALSE) 然后使用下面的行根据包含ID列表

浏览 2提问于2017-03-09得票数 1

回答已采纳

1回答

从文件名、重叠群标识符和序列长度创建数据帧

python、bioinformatics、fasta

我正在尝试从包含头部(重叠群的名称)和DNA序列的fasta文件创建数据帧。在我的数据帧的第一列，我想要文件名，在第二行，我想要重叠群的名称，在第三列，我想要重叠群序列的长度(基对的数量-我不必计算这个-它也在重叠群ID中，这样我以后就可以拆分了)。在jupyter笔记本中(嵌入在bash shell中)，我尝试了以下方法： files = [] identifiers = [] # r=root, d=directories, f = files for r, d, f in os.walk(path): for file in f: if '.fasta

浏览 21提问于2019-04-06得票数 2

1回答

Bowtie索引失败(tophat2，bowtie2)

bioinformatics

(注意:标记应该是tophat2和bowtie2，但我没有创建新标记的要点) 问候:我正在使用Tophat2 (命令行)来分析RNA-seq数据，我遇到了一些错误。这里是呼叫： tophat2 -o tophat2_results/ -G ref_data/BA000007.2.gtf --transcriptome-index=transcriptome_data/RNA_LBG01b_241_filteredQ indices/BA000007.2 data_files/RNA_LBG01b_241_filteredQ.fastq 这里是错误： [2015-12-29 12:58:33]

浏览 7提问于2015-12-29得票数 1

回答已采纳

2回答

提取氨基酸两侧的fasta序列

python、biopython、fasta

我正在尝试想出一个python脚本来提取一个12个氨基酸的序列，该序列位于一个给定的氨基酸(每个方向6个)的两侧，一个fasta序列。输入我有两个输入:一个fasta文件和一个熊猫数据帧。 fasta文件如下所示： > sp|P00001| some text here 1 MKLLILTCLVAVALARPKHPIKKVSPTFDTNMVGKHQGLPQEVLNENLLRFFVAPFPEVFGKEKVSLDAGPGMCSRNE >sp|P00002| some text here 2 MSSGNAKIGHPAPNFKATAVMPDGQFKDISLSDYKGKYVVFFFYPL

浏览 2提问于2014-03-06得票数 1

1回答

gnu并行--生成空输出文件的管道

python、gnu-parallel

我正在努力尝试并行运行gnu。我有一个shell脚本，它使用不同的输入参数调用python程序数千次： python /path/to/program/run.py A_02_01 input.fasta > /path/to/output/out.txt python /path/to/program/run.py A_02_02 input.fasta > /path/to/output/out.txt 我尝试使用gnu并行，如下所示： cat iedb_classi_call.sh | parallel --recstart 'python' --rece

浏览 1提问于2018-08-04得票数 1

1回答

如何更改带有特定单词的文件以结束linux中的in.fasta

linux、filenames、fasta

如何选择并更改包含特定单词的文件，使其全部以".fasta“结尾？例如，我正在选择包含单词"car“的文件。 find /home/user -name "*car*" 这给了我 /home/user/car.txt /home/user/scar.fa /home/user/cart.fa /home/user/scart.fasta 但我不知道如何更改它们，使它们都以".fasta“结尾所以最终的结果是 /home/user/car.fasta /home/user/scar.fasta /home/user/cart.fasta /home/u

浏览 1提问于2017-11-03得票数 0

1回答

在Ubuntu中使用python而不是python3运行

python、python-3.x、ubuntu

我在windows中通过ubuntu运行Linux。我的终端有python3而不是python。我正在使用一个名为PASTA的包，它使用与python一起的命令如下： python run_pasta.py -i input_fasta 既然我有python3，我就试着这样运行它： python3 run_pasta.py -i ALL_FASTA.fasta -d protein --aligner=probcons 这给了我以下错误，谁能告诉我如何解决这个问题吗？意大利面信息:执行整个数据矩阵的初始对齐.意大利面食失败是因为它试图运行的一个程序失败了。失败的调用是："/mnt/

浏览 10提问于2022-06-03得票数 1

回答已采纳

4回答

将文件名替换为bash中多个文件中第一行的字符串。

linux、string、bash、bioinformatics、fasta

我有多个fasta文件，其中第一行总是包含一个包含多个单词的>，例如： File_1.fasta: >KY620313.1 Hepatitis C virus isolate sP171215 polyprotein gene, complete cds File_2.fasta: >KY620314.1 Hepatitis C virus isolate sP131957 polyprotein gene, complete cds File_3.fasta: >KY620315.1 Hepatitis C virus isolate sP127952 poly

浏览 0提问于2020-09-20得票数 1

回答已采纳

1回答

Biopython找不到文件

biopython、blast

我尝试在Python提示符下运行qblast，在导入所有需要的库后，Python找不到我的文件： >>> record = SeqIO.read(open("sinchimeras_1.fasta"), format="fasta") Traceback (most recent call last): File "<stdin>", line 1, in <module> IOError: [Errno 2] No such file or directory: 'sinchimeras_1.f

浏览 0提问于2012-09-17得票数 0

1回答

从python中的FASTA文件中解析序列

python、fasta

我有一个文本文件： >name_1 data_1 >name_2 data_2 >name_3 data_3 >name_4 data_4 >name_5 data_5 我想存储标题(name_1，name_2.)在一个列表和数据中(data_1，data_2.)在Python程序中的另一个列表中。 def parse_fasta_file(fasta): desc=[] seq=[] seq_strings = fasta.strip().split('>'

浏览 5提问于2015-02-18得票数 0

回答已采纳

2回答

如何使用python代码处理文件夹中的所有文件

process、python、wildcards

我在python中有以下代码： #/usr/bin/python from Bio import SeqIO count = SeqIO.convert(“genome1.gbk”, “genbank”, “genome1.fasta”, “fasta”) print("Converted %i records" % count) 此代码将genbank文件"genome1.gbk“转换为fasta文件”genome1.Quicka“。但是现在我想用这段代码来转换当前文件夹中的所有文件。当前文件夹中的所有文件都是genbank文件，我希望它们用此代码转换为fast

浏览 0提问于2019-11-26得票数 2

回答已采纳

1回答

对具有多个命令的循环文件运行，当第一个命令完成上一个文件时运行下一个文件

python、bash、shell

对于一个项目，我创建了多个python脚本，并希望在shell脚本中的文件目录上运行这些脚本。在这个shell脚本中，我已经创建了一个带有多个命令的for循环。第一个命令是一个python脚本，它在本地数据库上启动输入文件并占用大部分内核。接下来的命令占用的内核要少得多，但是要花很多时间。对于每个文件来说，命令都是连续运行的，这一点非常重要。为了节省时间，我想修改shell脚本，使其运行文件的第一个命令，并在完成后，同时对输出和下一个文件运行下一个命令。有人能帮我吗？我试着自己搜索，但我找不到答案。我还没有尝试运行这个脚本，因为我已经在没有shell脚本的情况下运行python脚本。这是目

浏览 1提问于2018-11-09得票数 1

1回答

sqlite和python...快速而狂暴

python、performance、sqlite

我用python实现了一个从protein fasta文件构建一些数据库的程序。fasta文件是包含一些大分子序列的文本文件。你可以阅读更多关于的内容。我的程序从每种蛋白质中生成一个肽的列表，它们是蛋白质的片段。出于我的目的，该程序在SQLite中构建和查询一个数据库。您知道在python中是否有许多技巧可以更快地填充或查询sqlite数据库吗？如果我使用像SQLAlchemy这样的层或or，我能提高性能吗？

浏览 0提问于2011-09-23得票数 4

回答已采纳

3回答

函数，它读取文件的内容并创建带有大写内容的新文件。

python、formatting、filenames、uppercase、fasta

如果有人已经问过这个问题，我会事先表示歉意，但我已经花了几个小时寻找答案。我是Python (3.5.1，Windows 10)的新学生，我的任务是编写一个函数，读取Fasta文件的内容(该文件的名称由用户指定)，并创建一个新文件(用户也给出的名称，可以是.fasta或.txt)，并使用大写的Fasta序列。fasta文件是格式化的，因此序列的标题前面有插入符号，后面的行是字符(我想大写的)。一个fasta文件可能包含多个>行在整个文件中，我不想大写这些行。 import sys def fasta_upper(fasta_input_file, fasta_output_file):

浏览 4提问于2016-04-07得票数 0

1回答

基于存储在列表数据帧中的in的fasta文件中子集序列数据

r、subset、fasta、seq

我试图根据存储在数据帧列表中的I将一个FASTA文件(包含多个序列)子集为几个较小的文件(以及我有一个叫做fastafile的FASTA像这样： fastafile <- dput(fastafile) structure(list(r1 = "acatattggaggccgaaacaatgaggcgtgatcaactcagtatatcac", r2 = "ctaacctctcccagtgtggaacctctatctcatgagaaagctgggatgag", r3 = "atttcctcctgctgcccgggaggtaa

浏览 1提问于2015-06-19得票数 2

回答已采纳

3回答

如何将python脚本作为不同文件的循环运行？

python、loops

我有一个python脚本如下： #!/usr/bin/python from Bio import SeqIO fasta_file = "input.fa" # Input fasta file wanted_file = "A_ids.txt" # Input interesting sequence IDs, one per line result_file = "A.fasta" # Output fasta file wanted = set() with open(wanted_file) as f: for line i

浏览 4提问于2016-11-11得票数 0

回答已采纳

2回答

如何在文件名中使用匹配的字符串来禁止两个文件？

python、python-2.7、filenames、cat

所以我有一个目录，里面有~162 K文件。其中一半文件的文件名为"uniquenumber.fasta“，另一半文件的文件名为"uniquenumber.fasta letters”。例如： 12345.fasta 12345.fasta Somebacterialtaxaname 67890.fasta 67890.fasta Someotherbacterialtaxaname ...for another many thousand "pairs" 我想把共享唯一fasta号码的两个文件放在一起。连接的顺序并不重要(即在新创建的组合文件中，哪些内容放在第一

浏览 1提问于2015-01-19得票数 1

回答已采纳

4回答

如何在bash中重命名文件以增加名称？

linux、bash、rename

我有几千个文件命名如下： Cyprinus_carpio_600_nanopore_trim_reads.fasta Cyprinus_carpio_700_nanopore_trim_reads.fasta Cyprinus_carpio_800_nanopore_trim_reads.fasta Cyprinus_carpio_900_nanopore_trim_reads.fasta Vibrio_cholerae_3900_nanopore_trim_reads.fasta 对于前两个单词的

浏览 0提问于2018-10-04得票数 5

回答已采纳

3回答

使用条件匹配行中的多个模式

python、bioinformatics、fasta

我有这样一个fasta文件：myfasta.fasta >1_CDS AAAAATTTCTGGGCCCCGGGGG AAATTATTA >2_CDS TTAAAAATTTCTGGGCCCCGGGAAAAAA >3_CDS TTTGGGAATTAAACCCT >4_CDS TTTGGGAATTAAACCCT >5_rRNA TTAAAAATTTCTGGGCCCCGGGAAAAAA >6_tRNA TTAAAAATTTCTGGGCCCCGGGAAAAAA 我有一个代码，我想用它来根据它们的I来分离序列，这些I具有“CDS”、“tRNA”等匹配模式。在下面的代码中

浏览 0提问于2019-03-27得票数 4

回答已采纳

1回答

如何使用命令行参数同时输入fasta文件和文本文件

python、command-line、argparse

我有一个fasta文件和一个文本文件，我想使用命令行参数通过python输入我的文件。我想使用类似这样的东西： python3 myprogram.py --fasta_file test_seq.fasta --enzyme_file enzymes.fasta

浏览 1提问于2019-11-04得票数 0

1回答

如何从fasta文件中获取索引列表序列？

python、fasta

我比较了两个fasta文件(具有不同的序列长度和名称)，并将共享的序列名称放入一个列表中。我试着用列表中的名字来获取序列。 file1： SRR3350720.1 SRR3350720.3 SRR3350720.5 SRR3350720.6 list = 'SRR3350720.1'，'SRR3350720.5‘ 我尝试了python中的脚本。 import HTSeq fasta_file = HTSeq.FastaReader('file1.fasta', 'r') for line in fasta_file: fo

浏览 1提问于2016-12-01得票数 1

2回答

在使用SeqIO解析的fasta文件上使用排序时出现"NotImplementedError: SeqRecord“

python、bioinformatics、biopython、fasta

我尝试按照文件中序列的字母顺序(而不是序列的ID )对fasta文件进行排序。fasta文件包含超过200个序列，我正在尝试在bit master (使用python代码)中查找重复的(我指的是几乎相同的蛋白质序列，但不是相同的ID)。所以我想用fasta文件做一个字典，然后对字典的值进行排序。我尝试使用的代码如下： from Bio import SeqIO input_file = open("PP_Seq.fasta") my_dict = SeqIO.to_dict(SeqIO.parse(input_file, "fasta")) prin

浏览 2提问于2017-02-21得票数 4

回答已采纳

1回答

如何将输出重定向到STDOUT文件？

shell、command-line、io-redirection、tcsh

然而，类似于这里的如何将输出从文件重定向到标准输出？问题，给出的解决方案并不是通用的。我的问题是:我有一个生成输出到STDOUT的命令。同时，我可以指定via参数来生成另一个直接指向文件的输出。 tcsh$ hmmscan --domtblout FILEOUTPUT Pfam-A.hmm query.fasta Pfam是数据库文件(输入)；query.fasta也是输入文件 How我能把FILEOUTPUT重定向到STDOUT吗? 背景:我计划在数千个输入上使用这个命令，我需要对每个输入分别运行它。该命令在Python脚本中调用，我希望使用子进程模块将其FILEOUTPUT直接读入内存/

浏览 0提问于2018-10-22得票数 5

2回答

遍历FASTA条目并重命名重复项

r、bioinformatics、fasta

我有一个包含大量条目的FASTA文件。虽然所有的DNA序列都不同，但FASTA的一些名字是相同的。如果一个名字有多个副本，我想附加一个数字，使它们成为唯一的名字。例如： >NAME ATTTTTGGGGGGTGTGTG >NAME ATTTTTTTTCGCGCGC >NAME AAACCCTTTGTG 会变成： >NAME_1 ATTTTTGGGGGGTGTGTG >NAME_2 ATTTTTTTTCGCGCGC >NAME_3 AAACCCTTTGTG 谢谢。更新。因为我计划在R中使用它，所以我将fasta序列导入到R中，并将其作为数据帧df。然后，我可

浏览 1提问于2011-10-19得票数 2

回答已采纳

1回答

迭代FASTA文件中的多个序列以获得最大的ORF长度

python、bioinformatics、biopython

我已经编写了迭代FASTA文件的代码，它工作得很好，但是我得到了错误的长度。我不知道如何修改其余的代码，以便从每个序列中产生最大的ORF，这样就可以列出所有ORF，然后排序以获得最大的长度。代码只需要从第二读帧返回最长的ORF的长度，并且只在3'->5‘的方向返回。在使用translate()从DNA序列中提取氨基酸序列之后，我使用len(pro)*3+3来获得ORF长度。我还用不同的参数尝试了translate()。结果还是不对。我不知道密码有什么问题。可以在下面的代码和输出下面找到带有序列的文件的链接。代码 from Bio import SeqIO records =

浏览 1提问于2020-04-15得票数 0

1回答

如何在python中重定向不同文件中的输出

python、input、output

我使用的python脚本接受两个输入文件(goodProteins.fasta和list.txt)，并将结果保存到gene.fasta输出文件中。 fasta_file = "goodProteins.fasta" # First input wanted_file = "list.txt" # Second input result_file = "result.txt" # Output fasta file wanted = set() with open(wanted_file) as f: for line in f:

浏览 0提问于2013-06-14得票数 0

1回答

即使在安装之后，BiGSCAPE也会出错

biopython

我不是编码人，但我尽我最大的努力处理问题。所以我安装了BiGSCAPE来观察次级代谢物簇。我正在conda中运行它，它似乎安装得很好。因为它提供了版本号。不过，我一直在犯这个错误。我也用示例数据对其进行了测试。并返回与我安装的版本相同的结果/错误-SCAPE 1.1.4 (2022-04-14) (大景观)Shaheens-MacBook: bigscape.py $ python bigscape.py -i /-i/gbks -o ResultsAndres BiopythonDeprecationWarning: Bio.SubsMat已经被废弃，我们打算在Biopython的未来版本中

浏览 41提问于2022-09-29得票数 0

1回答

使用python排序fasta序列的顺序

python、fasta

我有一个fasta文件(由>头和序列行组成)，如下所示： myfasta >S.sclerotiorum_Ch16_153_209 AACCCTAACCCTAACCCTTGATTGATTGATTGATTGATTGAT TGATTGATGAAATTATAGTCTCCGTAAAGCAAATAAAGCATT TAGTAAACGTTGAAGAGCTAGAAAAGCTTTAATACAAAAAGG >S.sclerotiorum_Ch16_153_209 AACCCTAACCCTAACCCTTGATTGATTGATTGATTGATTGAT TAGTAAACGTTGAAGAGCTAGAA

浏览 38提问于2019-04-05得票数 1

3回答

用Biopython实现基于IDS的FASTA文件过滤

python-2.7、bioinformatics、biopython

我对python编程非常陌生。我有一些fasta文件，包含一些植物物种的蛋白质序列。我想根据每个序列包含的氨基酸数量来过滤它们。标准是那些>20个氨基酸的序列。通过上的资源，我可以得到20个以上的氨基酸序列。但是，当我试图在文件中写入它们时，它给出了这个。我无法解决此错误。此外，我还希望在输出文件中有每个序列的in。请帮帮我! 代码： import Bio from Bio import SeqIO for s_record in SeqIO.parse('arabidopsis_thaliana_proteome.ath.tfa','fasta'):

浏览 0提问于2016-11-23得票数 2

3回答

自动检索多个文件的fasta序列

python、loops、fasta

我有一个包含许多序列的fasta文件，如下所示： >gi|2765658|emb|Z78533.1|CIZ78533 C.irapeanum 5.8S rRNA gene CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGATGAGACCGTGGAATAAACGATCGAGTG AATCCGGAGGACCGGTGTACTCAGCTCACCGGGGGCATTGCTCCCGTGGTGACCCTGATTTGTTGTTGGG >gi|2765659|emb|Z78553.1|CIZ78553 C.irapeanum 5.8S rRNA gene AATTT

浏览 2提问于2017-02-02得票数 0

1回答

将fasta文件(.fasta)转换为计数文件(.cf)

python、converters、fasta

我正在尝试将fasta文件(.fasta)转换为计数文件(.cf)，以便能够将其上传到IQTREE，以便用于系统发育分析。fasta文件是对齐的合并文件，是将个体排序成5个种群中的一个的映射。已附上此文件的示例。我试过R和python，但没有取得任何成功。

浏览 6提问于2022-11-01得票数 -1

2回答

解析标头中具有特定名称的fasta

python、regex、python-3.x、biological-neural-network

我有一个包含多个fasta序列的txt文件(我愿意解析这些序列，特别是基因名称。请帮助选择标题中具有特定名称的序列。谢谢 txt文件中的原始数据。 lcl|NC_045512.2_gene_6 gene=ORF6 db_xref=GeneID:43740572 gbkey=Gene 在python中解析后的预期数据 ORF6 我用过这个，我能得到 ***from Bio import SeqIO for record in SeqIO.parse("mytext.txt", 'fasta'): print(record.name)

浏览 6提问于2020-04-09得票数 0

2回答

如何在函数中传递命令行？

python、python-2.7

我正在尝试解压缩fasta.gz文件，以便与它们一起工作。我使用cmd创建了一个脚本，它是基于我以前做过的一些事情，但现在我无法处理新创建的函数。见下文： import glob import sys import os import argparse import subprocess import gzip #import gunzip def decompressed_files(): print ('starting decompressed_files') #files where the data is stored input_folde

浏览 1提问于2020-02-02得票数 0

1回答

如何使用特定扩展名输入文件名？

python、bioinformatics、biopython

我正在尝试创建一个使用python的程序，该程序将用户输入一个fasta文件，该文件稍后可用于修剪引物。我正在尝试使用BioPython来完成这个任务，但是我经常会遇到错误。我尝试过的代码如下： from Bio import SeqIO in_file = input("Enter filename with extension:") def is_fasta(in_file): with open(in_file) as handle: fasta = SeqIO.parse(handle, "fasta") re

浏览 1提问于2018-12-02得票数 2

回答已采纳

2回答

连接不同文件夹中的fasta文件

python、loops、concatenation

我在不同的子文件夹中有大量的fasta文件(这些只是文本文件)。我需要的是一种方法来搜索目录中具有相同名称的文件，并将这些文件连接到一个与输入文件同名的文件中。我不能手动做这件事，因为我有10000+基因，我需要做这件事。到目前为止，我有以下Python代码，它先查找其中一个目录，然后使用这些文件名搜索其他目录。这将返回一个列表，其中包含每个文件的完整路径。 import os from os.path import join, abspath path = '/directoryforfilelist/' #Directory for sou

浏览 2提问于2013-03-13得票数 1

回答已采纳

1回答

将变量从python传递给bowtie

python

我想从python传递一个存储在变量inp_a中的输入fasta文件到bowtie，并将输出写到另一个out_a中。我想使用os.system ('bowtie inp_a out_a')，你能帮我吗

浏览 0提问于2015-01-21得票数 0

1回答

使用python删除部分FASTA文件标题注释的基因组

python、fasta、rna-seq

我想删除FASTA基因组文件的部分标题/注释，这样我就可以只维护位点标签和蛋白质描述。例如：转换： β链 lcl|CP000438.1_cds_ABJ14958.1_2 gene=dnaN protein=DNA聚合酶Ⅲ to : locus_tag=PA14_00020 我想以这种方式修改FASTA文件中的所有头。我是最近才开始学习python的，所以我在为这样的任务编写代码方面非常糟糕。如果有人能帮忙，我会非常感激的。

浏览 8提问于2022-10-26得票数 1