Biopython:从修改过的GenBank记录中提取CDS？

文章/答案/技术大牛

发布

1回答

我对python有一些基本的了解，并且一直在从genbank记录中提取编码序列。然而，我不确定如何处理编码序列已被修改的记录(例如，由于更正内部停止密码子)。这类序列的一个示例是 (如果链路不工作，则为XM_021385495.1 )。在这个例子中，我可以翻译我可以访问的两个编码序列，但它们都有内部终止密码子-根据注释，也有indels！这是我访问CDS的方式:1- gb_record.seq 2

浏览 9提问于2020-03-05得票数 1

1回答

如何识别BioPython中的基因编码框

、、

我正在使用BioPython遍历GenBank文件中的开放阅读框。更具体地说，我考虑了在GenBank中标注为“CDS”的特性。所以我的代码是这样的：gbk_dat = SeqIO.read(genbank_filepath, 'genbank') if fe

浏览 0提问于2016-03-04得票数 0

3回答

使用python/biopython对整个genbank文件进行不完全解析

、、

我的脚本的主要目标是将genbank文件转换为gtf文件。我的问题是从codon_start所有 CDS条目中提取CDS信息(基因、位置(例如CDS 2598105..2598404)、protein_id、db_xref)。我的脚本应该打开/解析一个genbank文件，从每个CDS条目中提取信息，并将信息写入另一个文件。脚本不会产生错

浏览 7提问于2015-12-17得票数 2

回答已采纳

1回答

SeqIO：“在句柄中找不到记录”

、、、

我刚刚开始使用Python和BioPython，而且没有太多的编程经验。我很感激你们能帮我的忙。代码行的内容为：record = SeqIO.read(handle, "ge

浏览 2提问于2014-03-25得票数 0

回答已采纳

3回答

在Biopython中提取CDS序列

、

大家好，如果你有任何想法，我将不胜感激。到目前为止，我已经尝试过了： if seq_record.type == 'CDS': x=seq_record

浏览 0提问于2014-04-28得票数 1

2回答

在Biopython中捕获Genbank文件解析错误

、

我已经使用genbank Entrez模块下载了一个与类似的BioPython文件列表。在随后解析这些文件时，我遇到了一个错误，因为我从Entrez下载的genbank文件是给予基因组不完整的有机体的临时RefSeq的一部分()。当我尝试读取这个文件时，我得到一个记录错误，并且我的脚本停止。我正在尝试编写一个函数来避免这些记录。最简单的方法是按大小过滤记录，但我想

浏览 0提问于2012-12-08得票数 1

回答已采纳

1回答

基于gff特性的Biopython解析提取CDS

、、、

你好，我正在尝试从一个fasta文件中提取编码序列，它使用一个gff文件，借助biopython ()。有两件事我不明白：gff_type: {(

浏览 5提问于2022-05-16得票数 0

回答已采纳

2回答

Python:获取重复一组数字的正则表达式

、、、

我正在处理一个文件，即Genbank条目(类似于)。我的目标是提取CDS行中的数字，例如：但是，我的regex还应该能够从多行中提取数字，如下所示：CDS join(1200..1401,1550..1613,1900..2010,2200..2250,

浏览 5提问于2016-03-10得票数 0

1回答

使用Biopython从FASTA文件获取ID

、、

我正在使用Biopython从带有核苷酸序列的FASTA文件中获取一些信息。但是，我只想从这个文件中获取ID和序列。我有这样的代码： print(seq_nucleotides.description) print(seq_nucleotides

浏览 4提问于2022-04-15得票数 0

回答已采纳

1回答

生物巨细胞FeatureLocation比较

我正在使用生物工程来完成一个简单的任务:从一个特定的基因库中填充，提取一个基因ID和相关信息到一个表中。这个问题是这样解决的，但我仍然在徘徊，这是出于某种原因，还是因为某种原因，比较方法还没有建立起来。以下是我提出这个问题的过程：首先，我只从genbank文件中提取feat.type == 'CDS'信息，发现所有伪基因都丢失了。然后我想出了一个想法，在feat.type

浏览 0提问于2017-07-07得票数 1

回答已采纳

2回答

如何识别基因组中特定位置的特征

、

我感兴趣的是确定基因组特定位置的特征(即基因/cds)。例如，什么基因(如果有的话)包含2,000,000个位置。我知道如何使用for循环和循环遍历基因组中的每个特征(代码包含在下面)，但这是我想要在随机化研究中做数亿次的事情，这将花费比我希望的更长的时间。", "r"), "genbank") interesting_position = random.

浏览 4提问于2013-07-26得票数 3

1回答

从genbank文件中按特征提取dna序列

、

我有genbank文件，包含多个带注释的contigs。我想要做的是把它分离到一个数据库中，其中包含每个CDS特征的单独基因记录，以及它的dna和氨基酸序列。record in SeqIO.parse(open_file, 'gb'): if feature.type == 'CDSgenbank文件<

浏览 5提问于2015-04-23得票数 1

回答已采纳

1回答

在基因中寻找外显子/内含子边界

、

我想通过一个基因，从每个feature.type =='mRNA'获得一个包含外显子/内含子边界的10 go长序列的列表。我似乎需要使用compoundLocation，以及'join'中使用的位置，但我不知道如何做到这一点，也无法找到教程。有谁能给我举个例子或者给我介绍一个教程吗？

浏览 2提问于2015-01-04得票数 2

3回答

用Biopython实现基于IDS的FASTA文件过滤

、、

我有一些fasta文件，包含一些植物物种的蛋白质序列。通过上的资源，我可以得到20个以上的氨基酸序列。但是，当我试图在文件中写入它们时，它给出了这个。我无法解决此错误。此外，我还希望在输出文件中有每个序列的in。请帮帮我!

浏览 0提问于2016-11-23得票数 2

4回答

在特定列中使用awk提取模式

我想修改一个文件(gff3格式)，只接受上一列的一个特定部分！ NW_015494524.1 Gnomon 1220137,1220159。-0 ID=cds20267;Parent=rna22739;Dbxref=GeneID:107513619，Genbank:XP_016006018.1;Name=XP_016006018.1;gbkey=CDS;gene=A3GALT2;product=alpha_1%2C3-galactosyltr

浏览 2提问于2017-10-21得票数 3

回答已采纳

1回答

使用文件子集中的信息从文件中提取单词(多个步骤)

、、、

+ 0 ID=cds43608 Parent=rna48098 Dbxref=GeneID:102908761,Genbank:XP_006997436.2 Name=XP_006997436.2product=MYCBP associated protein%2C transcript variant X4 transcript_id=XR_001580019.1( Step 1)将第1列(例如NW_006527876.1)中</e

浏览 0提问于2018-03-03得票数 0

回答已采纳

1回答

将核苷酸序列转换为氨基酸序列

、、

我有一个脚本，它使用一个基因的位置和链信息(补体，向前)来提取核苷酸序列。一旦提取，脚本使用翻译表和密码子起始位置将核苷酸序列转换为氨基酸序列，并将其与原始氨基酸序列进行比较。例如，我将使用这个E.coliGenBank文件：从第396行开始/靠近第396行，如下所示：/gene="repFIB" /尽管genbank文件指出该基因从25341位

浏览 1提问于2015-12-22得票数 0

回答已采纳

2回答

Delphi -更改具有数据的TClientDataSet的字段定义

、

我正在将TClientDataSet物理保存到一个磁盘文件中。我尝试使用以下代码删除现有的FieldDefs，以便添加新的代码。改变FieldDefs和Fields的正确方法是什么？

浏览 6提问于2014-01-22得票数 0

回答已采纳

3回答

修改genbank功能的位置

、、

编辑：我知道feature.type会给出基因/CDS，feature.qualifiers会给出“db_xref”/“locus_tag”/“推论”等等。这个URL提供了一些更多的信息，虽然我不知道如何将它用于我的目的.我正在尝试修改GenBank文件中特性的位置。本质上，我想修改GenBank文件的以下部分： /

浏览 1提问于2014-07-08得票数 2

回答已采纳

3回答

awk's代用品

、、

- 0 ID=cds-XP_009769289.1;Parent=rna-XM_009770987.1;Dbxref=GeneID:104217587,Genbank- 0 ID=cds-XP_009769289.1;Parent=rna-XM_009770987.1;Dbxref=GeneID:104217587,Genbank- 0 ID=cds-XP_009769289.1;Parent=rna-XM_009770987.1;D

浏览 0提问于2020-07-06得票数 0

点击加载更多