如何在不使用Biopython的情况下找到FASTA数据集中的所有序列长度

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

3回答

、、

假设我们有一个这样的FASTA文件： >header1>header2>header3header2 10 header3 16 请不使用Biopython回答此问题。我认为这里可以使用re.match('^>')来区分标题行和其他序列行(需要先导入re )，但我需

浏览 90提问于2021-10-02得票数 1

1回答

使用“如果不在”循环时动作太慢

、、、、

我正在使用Biopython解析器处理氨基酸序列，但是不管数据格式如何(格式是fasta，也就是说，您可以将它们想象成字母字符串，如下面的id所示)，我的问题是，我有大量的数据，尽管我尝试过与j强有力并行，但运行这个简单代码所需的时间估计为400小时。基本上，我有一个包含一系列in的文件，这些in必须从原始数据集( ids_to_drop )中删除(original_dataset)，以创建一个新文

浏览 6提问于2021-12-31得票数 0

回答已采纳

6回答

删除短于某一长度及以上的行(删除FASTA文件中的短序列)

、、

我有一个包含以下文本的文件：GAAATCATCTCGGGAGACATTCCGTGCC 如果一个不以">“开头的行短于5个字符，我想删除它及其上方的一行

浏览 28提问于2022-07-17得票数 3

回答已采纳

4回答

按序列大小对fasta进行排序

、、、

目前，我想按序列大小对一个杂乱的fasta文件(+10**8行和序列)进行排序。fasta是一种明确的生物学格式，用于存储序列(遗传或蛋白质)： ..。我运行了一个以tsv格式提供给我的工具：标识符的标识符、长度和以字节为单位的位置。现在，我要做的是按照length列对这个文件进行排序，然

浏览 7提问于2016-12-20得票数 3

回答已采纳

2回答

这条计算fasta文件中核苷酸数目的awk线是如何工作的？

、、

我目前正在学习使用awk，并找到了我需要的awk命令，但并不完全理解其中发生了什么。这一行代码获取一个名为fasta的基因组文件，并返回其中每个序列的所有长度。对于那些不熟悉fasta文件的人来说，它们是txt文件，可以包含多个称为contigs的基因序列。NameofsequenceGCACGACTCGCTATATTATA

浏览 0提问于2021-09-26得票数 1

回答已采纳

2回答

在使用SeqIO解析的fasta文件上使用排序时出现"NotImplementedError: SeqRecord“

、、、

我尝试按照文件中序列的字母顺序(而不是序列的ID )对fasta文件进行排序。fasta文件包含超过200个序列，我正在尝试在bit master (使用python代码)中查找重复的(我指的是几乎相同的蛋白质序列，但不是相同的ID)。所以我想用fasta文件做一个字典，然后对字典的值进行排序。我尝试使用的代码

浏览 2提问于2017-02-21得票数 4

回答已采纳

2回答

频率加起来不等于1

、、

我正在编写一个函数，它应该通过DNA序列的.fasta文件，并为文件中的每个序列创建一个核苷酸(nt)和二核苷酸(dnt)频率字典。然后，我将每本字典存储在一个名为“频率”的列表中。dinucleotide)) / (len(dna) - 1) frequency.append(freq) (顺便说一句，我使用的是生物biopython</em

浏览 1提问于2015-05-27得票数 6

回答已采纳

1回答

不同序列长度批次的多头自关注输出尺寸

、

我有一个关于变压器自我注意层的问题。在处理小批中不同长度的序列时，我们使用pad序列，使批处理中的所有序列都具有相同的长度。假设数据集中的大多数序列都是<500个元素长，但是有一些非常长的序列可以是1000s的元素长。如果我想在不截断的</em

浏览 0提问于2022-09-08得票数 0

回答已采纳

2回答

AlignIO在FASTA文件中找不到记录

、

我想开始使用Biopython来对齐序列文件，但是库总是给我错误。我的代码如下：import Bio print alignment我确保将A_prot.fasta放在与我的程序相同的目录中，但我收到一个错误消息： Traceback (most

浏览 1提问于2013-03-08得票数 1

1回答

聚类多元时间序列数据集

、、

我是新来的，我有一家汽车制造公司的质量测试数据。我有100000 datasets.each数据集有4个变量力，电压，电流，距离。每个变量都是一个连续的时间序列，每个变量有8000个数据点(1到17000毫秒)。时间序列的长度因数据集的不同而异。必须将一个数据集中的所有变量与另一个数据集进行

浏览 0提问于2017-05-17得票数 0

回答已采纳

2回答

在文件中查找氨基酸序列

我有一个蛋白质序列的文件。我想知道hxxhcxc序列是否存在于文件中，如果存在，则打印拉伸。在这里，h=hydrophobic，c=charged，x=any (包括剩余的)剩余/秒。我能想到的是做3个阵列-疏水，带电和所有残基。将每个数组与具有FASTA序列的文件进行比较。除此之外，我想不出任何其他的东西，特别是如何维持秩序--这是主要的事情。我是Perl的初学者，所以

浏览 2提问于2012-09-03得票数 0

2回答

FASTA算法解释

、

我试图了解FASTA算法在数据库中搜索类似查询序列的基本步骤。算法的步骤如下：我混淆了使用PAM250分数矩阵的第3和第4步，以及如何“加入使用<

浏览 5提问于2011-12-03得票数 7

1回答

如何将FASTA读入d3.js中的数据并提取FASTA文件的子序列

、、、

我有一个很小的DNA序列fasta文件，看起来如下： 2.如何在(开始、结束)位置提取子序列？

浏览 2提问于2016-12-13得票数 2

回答已采纳

1回答

基于gff特性的Biopython解析提取CDS

、、、

你好，我正在尝试从一个fasta文件中提取编码序列，它使用一个gff文件，借助biopython ()。我试过做本教程所描述的事情，但有些事情我似乎因为某些原因而不正确:当我迭代序列记录的特性时，只有'gff_type':'gene‘是被识别的。下面是我的gff文件的一个示例：如您所见，我的文件清楚地包含了gff_type='CDS‘条目但是当我运行

浏览 5提问于2022-05-16得票数 0

回答已采纳

2回答

寻找几个序列之间的共享基序

、、

我需要写一个脚本，它将循环通过序列列表，找到它们之间的共享主题(可能存在不同主题的多个解决方案)，并打印此主题，这已在所有序列之间共享。在下面的示例中AT是其中一个共享的主题。我将非常感谢这类任务的任何解决方案，包括BioPython函数的使用。最近，我做了

浏览 2提问于2014-04-02得票数 1

1回答

使用外部库kseq.h读取多个fasta序列

、

我试图使用外部头文件kseq.h (如： )从一个大fasta文件(包含80000 fasta序列)中找到用户提供的5个in/名称的fasta序列。当我在for循环中运行程序时，我必须一次又一次地打开/关闭大fasta文件(代码中有注释)，这使得计算时间变慢。相反，如果我只在循环之外打开/关闭一次，那么如果程序遇到一个在大fasta文件中不存在

浏览 2提问于2014-07-11得票数 0

3回答

BLAST通过Biopython* NCBIWWW。在哪里可以找到完整的数据库列表？*

、、

我正在使用模块Biopython模块NCBIWWW在线销毁一些序列。我想在可用的不同数据库上爆炸我的序列，但是我找不到它们的完整列表。这是一个使用"blastn“算法对核苷酸集合数据库进行简单查询的示例。from Bio.Blast import NCBIWWW result_handle = NCBIWWW.qblast("blastn", "nt&quo

浏览 1提问于2015-02-06得票数 1

1回答

Python :为什么python不快速返回我的输出文件？使用计数器、csv和组-by

、、、、

我对python很陌生，我正在尝试创建一个以序列对齐开始的脚本，例如，一个'AAGGTTCC‘的字符串。脚本应该遍历一个具有多个序列的文件(只计算第二行，因为第一行只是“序列名称”)，并计算“-”符号出现的次数，计算整个文件的空白数(“-”)及其频率。实际上，我的脚本似乎工作得很好--它生成了我想要的输出文件。问题是，如果序列长度是100甚至1,000，它会非常快地工作，

浏览 1提问于2014-07-28得票数 1

回答已采纳

4回答

删除Python中特定的尾行中断

、、

我有一个很长的fasta文件，我需要格式化行。我尝试了很多事情，但由于我不是很熟悉的python，所以我无法精确地解决问题。XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

浏览 17提问于2021-12-20得票数 0

回答已采纳

2回答

用HDF5库读取NetCDF数据集

、、、

我唯一能找到的用于阅读HDF5的纯Java(即非JNI)库是NetCDF。看来，我可以使用HDF5 Variable从NetCDF数据集中读取一列数据。但是，没有办法从数据集中读取整个数据表吗？是用于数据集的NetCDF API仅仅是访问一组完全无关的变量(具有潜在的独立数组长度等)，还是允许将这些数据作为真

浏览 3提问于2013-04-18得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云