如何根据ID从包含多个基因组序列的Genbank文件中删除无效序列 - 腾讯云开发者社区

biopython、dna-sequence、genbank

我有一个大约3 GB的Genbank文件，其中包含大约20,000个细菌基因组序列的完整Genbank注释。我的目标是使用BioPython解析这些序列，并为非重复序列编写单独的fasta文件，如下所示： from Bio import SeqIO records = SeqIO.parse(r'C:\Users\aaa\aaa\file.gb', 'genbank') for record in records: if seq_name not in organism_dict: with open(output_folder + s

浏览 41提问于2019-06-26得票数 0

1回答

如何修改GenBank记录的顺序？

python、sequence、biopython、genome

我想要做的是在基因组文件中将GenBank记录的所有非假定序列都用小写字母表示。到目前为止，我设法获得了gbk中蛋白质的起始和结束位置。在此基础上，我执行以下操作： start = feature.location.nofuzzy_start end = feature.location.nofuzzy_end gb_record.seq[start:end] 现在我有了基因组中序列的开始和结束位置。但是我如何修改基因组文件呢？gb_record.seq[start:end].lower()或类似的东西不能做到这一点。当我分配gb_record.seq = gb_record.seq[st

浏览 0提问于2012-03-12得票数 0

1回答

如何识别BioPython中的基因编码框

python、bioinformatics、biopython

我正在使用BioPython遍历GenBank文件中的开放阅读框。更具体地说，我考虑了在GenBank中标注为“CDS”的特性。所以我的代码是这样的： from Bio import SeqIO gbk_dat = SeqIO.read(genbank_filepath, 'genbank') for feature in gbk_dat.features: if feature.type == 'CDS': # Identify coding frame 我想知道是否有可能确定一个基因相对于整个基因组在哪个编码框架中？即。如果一个基

浏览 0提问于2016-03-04得票数 0

3回答

在Biopython中提取CDS序列

sequences、biopython

大家好，我开始用Biopython编程，我想知道如何从具有所有特征坐标的基因组GenBank文件(*.gb)中提取基因序列和蛋白质标识符。我的想法是创建一个包含蛋白质标识符、基因坐标和基因序列的文本文件。如果你有任何想法，我将不胜感激。到目前为止，我已经尝试过了： for seq_record in seq_record.features: if seq_record.type == 'CDS': x=seq_record.qualifiers['protein_id'] i=seq_record.location.

浏览 0提问于2014-04-28得票数 1

1回答

Python Regex用于提取基因组序列

regex、python-2.7、genome

我正在尝试使用Python正则表达式从基因组数据库中提取基因组序列；我已经粘贴了下面数据库的一个片段。 >GSVIVT01031739001 pacid=17837850 polypeptide=GSVIVT01031739001 locus=GSVIVG01031739001 ID=GSVIVT01031739001.Genoscope12X annot-version=Genoscope.12X ATGAAAACGGAACTCTTTCTAGGTCATTTCCTCTTCAAACAAGAAAGAAGTAAAAGTTGCATACCAAATATGGACTCGAT TTGGAGTCGTAGTG

浏览 6提问于2015-03-19得票数 2

2回答

在Biopython中捕获Genbank文件解析错误

python、biopython

我已经使用genbank Entrez模块下载了一个与类似的BioPython文件列表。在随后解析这些文件时，我遇到了一个错误，因为我从Entrez下载的genbank文件是给予基因组不完整的有机体的临时RefSeq的一部分()。当我尝试读取这个文件时，我得到一个记录错误，并且我的脚本停止。我正在尝试编写一个函数来避免这些记录。最简单的方法是按大小过滤记录，但我想知道如何更“生物地”地做这件事--测试一个文件是否包含记录，如果不包含，则排除它。当前的ValueError消息被引发，但将停止脚本。 #the error message is something like this fro

浏览 0提问于2012-12-08得票数 1

回答已采纳

2回答

如何根据序列的同源性从基因组中提取序列？

python、extract、sequence、biopython、genome

我有一个序列，在某些物种中有同系物，还有这些同系物的分数。这是gff文件中的一个示例记录： 4592637 Beutenbergia_cavernae_DSM_12333 TILL 70731 70780 . 0 . clst_id=429;SubjectOrganism=Thermofilum_pendens_Hrk_5;SubjectScore=0.343373493975904;SubjectOrganism=Ignicoccus_hospitalis_KIN4_I;SubjectScore=0.323293172690763;SubjectOrganism=

浏览 5提问于2014-07-09得票数 0

回答已采纳

3回答

如何在biopython entrez.esearch中下载完整的基因组序列

python、download、biopython

我只需要从NCBI (GenBank(full)格式)下载完整的基因组序列。我对“全基因组”而不是“全基因组”感兴趣。我的脚本： from Bio import Entrez Entrez.email = "asiakXX@wp.pl" gatunek='Escherichia[ORGN]' handle = Entrez.esearch(db='nucleotide', term=gatunek, property='complete genome' )#title='complete genome[titl

浏览 4提问于2013-08-27得票数 3

1回答

GenBank格式文件到FASTA格式的转换

java、netbeans-6.9、fasta、biojava、genbank

我对Java非常陌生，我想要构建一个可以将GenBank文本文件转换成FASTA格式的程序。基本上有两个文本框:一个是我上传GenBank格式文件的地方，另一个是显示转换后的FASTA格式文件的文本框。这是一个GenBank格式文件： LOCUS AB000263 368 bp mRNA linear PRI 05-FEB-1999 DEFINITION Homo sapiens mRNA for prepro cortistatin like peptide, complete cds. ACCESSIO

浏览 2提问于2012-09-06得票数 1

1回答

SeqIO.parse python:特性表中行的过早结束

python、parsing、bioinformatics

以前有人有这个问题吗？对原因有什么建议吗？脚本创建包含基因组序列的文件，但它出现在过程的末尾。我剧本里的行 File "scripts/list_ncbi_download_genome_vs_02.py", line 97, in <module> SeqIO.write(SeqIO.parse(genbank_file, "genbank"), genome_file, "fasta") 出现的警告： File "/usr/lib/python2.7/dist-packages/Bio/SeqIO/__in

浏览 4提问于2017-12-13得票数 0

回答已采纳

1回答

BioSeqIO不识别.gbff文件

python、biopython、genbank

为了解析序列，我尝试将一堆.gbff基因库文件转换为.gbk。我有以下代码来工作和转换单个文件， import Bio from Bio import SeqIO count = SeqIO.convert("filename.gbff", "genbank", "filename.gbk", "genbank") 但是，我不能让任何代码与"*.gbff“工作。例如。 from Bio import SeqIO count = SeqIO.convert("*.gbff", "genbank"

浏览 10提问于2021-10-27得票数 0

3回答

使用python/biopython对整个genbank文件进行不完全解析

python、biopython、genbank

我的脚本的主要目标是将genbank文件转换为gtf文件。我的问题是从codon_start所有 CDS条目中提取CDS信息(基因、位置(例如CDS 2598105..2598404)、protein_id、db_xref)。我的脚本应该打开/解析一个genbank文件，从每个CDS条目中提取信息，并将信息写入另一个文件。脚本不会产生错误，但在终止之前只会从genbank文件的前1/2写入信息。这是我的密码。 import Bio from Bio import GenBank from Bio import SeqIO fileList = ['data_files/e_coli_

浏览 7提问于2015-12-17得票数 2

回答已采纳

2回答

如何识别基因组中特定位置的特征

python、biopython

我感兴趣的是确定基因组特定位置的特征(即基因/cds)。例如，什么基因(如果有的话)包含2,000,000个位置。我知道如何使用for循环和循环遍历基因组中的每个特征(代码包含在下面)，但这是我想要在随机化研究中做数亿次的事情，这将花费比我希望的更长的时间。下面包含的代码提供了我正在尝试做的更具体的示例： from Bio import SeqIO import random GenomeSeq = SeqIO.read(open("reference_sequence.gbk", "r"), "genbank") interesting_p

浏览 4提问于2013-07-26得票数 3

2回答

将FASTA转换为GenBank

biopython、fasta、genbank

有没有一种方法可以使用BioPython将FASTA文件转换成Genbank格式？关于如何从Genbank转换到FASTA，有很多答案，但不是相反的。

浏览 4提问于2015-05-12得票数 6

1回答

如何使用biopython编辑genbank文件的序列并将其保存到新的genbank文件中？

python、biopython、genbank

我有一个错误的.gbk文件，并且我有以下格式的更正列表核苷的地址:正确核苷酸 1:T 2:C 4:A 63:A 324:G etc... 我知道如何打开和解析精确的原始序列 list(SeqIO.parse(sys.argv[1], "genbank"))[0].seq 我只需要知道如何用我自己的核苷酸校正来代替它。我试过了 seq_records[0].seq = "".join(dna_refseq) 而dna_refseq只是一个构成整个基因组的列表我在文档或在线的任何地方都找不到这个特定的动作，直观地说，这是生物工程应该能够做到的事情。

浏览 7提问于2016-04-07得票数 1

回答已采纳

3回答

根据字符串中的ID删除重复行

bash、awk、sed

我想根据输入行中GeneID:后面的数字删除重复项(只保留第一个副本)。我只知道如何按column：awk '!seen[$3]++'进行过滤，但这在这里不起作用。输入(制表符分隔)： Gene1 mRNA ID=rna74353;Parent=gene38534;Dbxref=GeneID:109200613;Genbank:XM_019356191.2,Genbank:XM_025904163.1 Gene2 mRNA ID=rna74354;Parent=gene38534;Dbxref=GeneID:109200613;Genbank:XM_019356192.2

浏览 3提问于2019-06-05得票数 1

1回答

没有基因组序列的GBK文件的Biopython解析

python、biopython、genbank

我编写了一个脚本，它使用GenBank文件和Biopython从GBK文件的序列部分获取给定基因的序列，我的同事在他们的工作中使用该序列。我们现在在一个新的数据集上遇到了一些问题，结果是下载的GBK文件没有包含序列(从NCBI的GenBank网站下载时很容易发生这种情况)。Biopython没有抛出错误，而是在使用record.seq[start:end]时返回很长的Ns序列。从一开始就抓住这个问题的最简单的方法是用错误消息停止脚本吗？

浏览 4提问于2014-08-28得票数 0

回答已采纳

1回答

如何使用Perl从NCBI中获取FASTA核苷酸格式的基因特征？

database、perl、fasta、bioperl、ncbi

我可以手动下载一个FASTA文件，如下所示： >lcl|CR543861.1_gene_1... ATGCTTTGGACA... >lcl|CR543861.1_gene_2... GTGCGACTAAAA... 通过点击“发送到”并选择“基因特征”，FASTA核苷酸是上唯一的选项(这很好，因为这就是我想要的)。用这样的脚本： #!/usr/bin/env perl use strict; use warnings; use Bio::DB::EUtilities; my $factory = Bio::DB::EUtilities->new(-eutil =>

浏览 1提问于2014-02-27得票数 5

回答已采纳

2回答

蛇、熊猫和NCBI:我如何将熊猫数据与远程NCBI搜索结合起来？

pandas、snakemake

我对Snakemake还是很陌生的，我一直在尝试写一条规则时遇到了麻烦。我一直试图将使用snakemake.remote.NCBI与访问熊猫数据和使用通配符结合起来，但我似乎无法做到这一点。我有一个名为genomes.tsv的tsv文件，它有几个列，其中每一行都是一个物种。其中一个是" id“，并拥有该物种基因组的genbank id。另一种“物种”对每个物种都有一个独特的短字符串。在我的Snakefile中，genomes.tsv作为基因组被导入，只有id和物种列，然后将物种作为基因组指数并从基因组中删除。我希望在我的工作流程中使用“物种”中的值作为通配符{物种}的值，我希望我

浏览 0提问于2019-08-29得票数 1

回答已采纳

1回答

如何打印一个特殊的字符串？

command-line、bash、scripts

我有一个文件，其内容如下： NC_014378.1 Protein Homology CDS 192004 192117 . + 0 ID=cds185;Parent=gene211;Dbxref=Genbank:WP_013277182.1;Name=WP_013277182.1;gbkey=CDS;inference=COORDINATES: similar to AA sequence:RefSeq:WP_005487032.1;product=50S ribosomal protein L36;protein_id=WP_013277182.1;transl_ta

浏览 0提问于2019-05-03得票数 -1

1回答

检测目标区域内或外部的BLAST匹配

output、sequence、blast

在那里，我将从一个目标序列位点提取一段DNA序列，用它来攻击一个基因组。然后从blast结果输出中，我想知道除了匹配目标站点之外，是否还有来自其他区域的匹配序列。如何从BLAST输出中知道？基因组站点有什么指标吗？谢谢

浏览 0提问于2014-06-02得票数 0

1回答

如何在FASTA文件中找到基因的第一个碱基的编号？

bioinformatics、dna-sequence、gff

为了手动修改我拥有的.gff文件，我需要在我的动物的FASTA格式的基因组中找到我的基因的起始位置(即序列中的#碱基是什么？)。我有这个基因的序列。我如何尽可能容易地做到这一点(这不是一种其基因组在互联网上很容易获得的动物)？我所拥有的: FASTA格式的基因组；包含该有机体基因组注释的GFF文件(需要彻底更新)；该基因的序列。谢谢!

浏览 19提问于2019-01-15得票数 0

1回答

请帮助我从磁盘读取genbank文件并将其转换为fasta

smalltalk、pharo、fasta、genbank

请指导我使用biosmalltalk (Pharo版)将GenBank序列转换为其等效的FASTA格式。我已经想好了从磁盘读取一个文件：| GenBank x y m| x:=Time millisecondClockValue。file := BioFile on：(FileStream readOnlyFileNamed: BioObject testFilesDirectoryName asFileReference / 'AF165912.gbk')。m:=BioParser tokenizeMultiFasta:文件内容。y:=Time millisecondCloc

浏览 4提问于2014-09-26得票数 0

2回答

如何筛选基因组进行成分研究？

bioinformatics、genome

我正在研究2600+基因组，希望研究不同群体的基因组、基因和基因间的特征。如果分类组只有很少的代表，就没有问题。在分类组具有多个基因组的情况下，我应该在什么基础上删除相似的基因组，以便从每个分类组中只获得几个代表。我是否应该使用lenght或GC%或其他特征来删除基因组-例如，如果两个基因组的GC%变异小于1%，我将删除它。类似这样的事情。请建议接受的方式，并友好地解释原因以及。 Example: I have around 60 genomes of Mycobacterium sps More than 20 are of M. tuberculosis alone which have

浏览 1提问于2013-09-27得票数 0

3回答

我不知道如何为要在python中打开的文件指定路径

python、biopython

我是Python的新用户，我尝试导入genbank和fasta格式的文件。在他们的文档中，他们提供了一个示例，说明如何将数据集导入到Python中。具体地说，他们在Biopython教程和Cookbook的第16页中提供了以下示例： from Bio import SeqIO for seq_record in SeqIO.parse("ls_orchid.gbk", "genbank"): print seq_record.id print repr(seq_record.seq) print len(seq_re

浏览 0提问于2012-02-13得票数 1

1回答

如何生成自定义床文件，以用于床头工具的相交？

bioinformatics、intersection、genome、sequencing、bedtools

我有一个定制的参考基因组，gene.fa和18个床文件。我想要生成一个床文件，其中包含一个感兴趣的区域，5100-5600 bp，作为一个单一的条目，我可以使用我的18个床文件上的床工具相交，用于交叉口。我正在考虑从参考基因组中复制/粘贴感兴趣序列的区域，并将其对齐以生成我的床文件。问题是，我的参考基因组是一个三聚体，所以这个序列被重复了三次，在比对中会出现错误。有更好的方法吗？你能使用与文本文件相交的工具吗？我是新的生物信息学和测序，所以我可能是过度思考这个问题。

浏览 12提问于2022-05-25得票数 0

回答已采纳

1回答

这是有效的Genbank功能描述还是Biopython错误？

parsing、biopython

我偶然发现了一个Genbank格式的文件(这里显示为一个最小的虚拟示例)，其中包含一个嵌套特性，如下所示： FEATURES Location/Qualifiers xxxx_domain complement(complement(1..145)) 这样的功能会使当前的Biopython Genbank解析器(1.59版本)崩溃，但在以前的版本(例如1.55)中显然不会。显然，该行为已经在1.57中(参见下面的评论)。从Biopython bugtracker来看，旧的locationparser代码似乎在1.56中被删除了：从我对和的格式描述中

浏览 2提问于2012-04-18得票数 2

1回答

Perl:沿着多个散列比较散列键

perl、hash

我不知道我是否能很好地面对这个问题。我有一个带有标识的文件，然后有10个文件，其中一些标识带有数据库名称(每个Id相同，但文件之间不同)。我尝试做的是将这10个文件的所有I与只有标识的文件进行匹配，除非之前已经匹配了标识。这10个文件如下所示： File 1: Id Data Data Data Database_name Id1 ... ... ... GenBank ... Id20 ... ... ... GenBank File 2: Id Data Data Data Database_name Id2 ... ... ...

浏览 0提问于2013-07-18得票数 0

回答已采纳

1回答

BioPython:如何在GenBank中使用"Locus“键进行解析

python、pandas、bioinformatics、biopython、genbank

我有一个包含许多序列的Genbank文件。我还有另一个文本文件，其中包含这些序列的名称以及TSV中的一些其他信息，我将其作为pandas数据帧读入。我使用.sample函数从该数据中随机选择一个名称，并为其分配了变量n_name，如下面的代码块所示。 n = df_bp_pos_2.sample(n = 1) n_value = n.iloc[:2] n_name = n.iloc[:1] n_name与genbank文件中的轨迹名称相同，并且大小写准确。我正在尝试解析genbank文件并提取包含locus = n_name的序列。genbank文件名为all.gb。我有： from Bio

浏览 20提问于2019-10-31得票数 1

1回答

使用biopython仅下载部分genbank文件

python、parsing、biopython、genbank

我刚接触Biopython，在解析genbank文件时遇到了性能问题。我必须解析很多gb文件，从中我有登录号。在解析之后，我只想检查文件的分类法和器官。现在，我有这样的代码： from Bio import SeqIO from Bio import Entrez gb_acc1 = Entrez.efetch(db='nucleotide', id=access1, rettype='gb', retmode='text') #Where access1 contents the accession number rec = SeqIO.

浏览 8提问于2016-07-27得票数 1

1回答

R基因组比对查看器

r、ggplot2、overlay、genome、sequence-alignment

目前，我已经阅读了一个genbank文件，并使用它来用genoplotR绘制R中的基因组 plot_gene_map(dna_segs=list(mo),xlims=xlims,annotations=annotMED,annotation_height=5,main="Region",gene_type="side_blocks",dna_seg_scale=TRUE, scale=FALSE) 我还在其相应的排序bam文件中阅读过，并使用rbamtools制作了覆盖图。 start<-130000 end<-140000

浏览 4提问于2013-11-08得票数 0

1回答

genbank文件中的SeqIO.parse抛出错误

biopython、seq、genbank

我正在处理一些genbank文件，并有以下代码： for seq_record in SeqIO.parse("datafile_location, "genbank"): 虽然它可以通过seq文件中的大多数seqs运行(其中包含多个seqs)，但我得到以下错误。对如何解决这个问题有什么想法吗？也许会删除冒犯的seq？它可以记录92126 of 93145，然后抛出错误。我试过重新下载seq文件，但这并不能解决问题。文件"C:\python38\lib\site-packages\Bio\GenBank\Scanner.py"，第516行，在pa

浏览 1提问于2020-05-15得票数 0

1回答

R中如何从genbank文件中提取基因

r、bioinformatics、genbank

我问这个问题是因为我不知道怎么做。我有一个gb格式的基因组(YJ016_I.gb)，所以我想在R中导入，然后输出所有的核苷酸格式的基因，或者使用基因的名称获取其中的一个序列。 library(genbankr) library(stringr) library(purrr) gb <- genbankr::readGenBank("YJ016_I.gb") GENES <- GenomicFeatures::genes(gb) GenesDF <- data.frame(GENES) seqnames start end width stra

浏览 6提问于2022-07-10得票数 0

回答已采纳

1回答

获取GC含量和基因长度列表

genetic-algorithm

我想从50k+基因中获得一个包含该基因、该基因的GC含量和基因长度的表。我听说我可以从UCSC基因组浏览器上得到这个，但我不知道如何...非常感谢您的帮助！

浏览 1提问于2014-06-24得票数 0

1回答

使用列表中的登录号运行BLAST+ BLASTn

bioinformatics、blast

我想使用NCBI BLAST+针对一个参考基因组对几个序列进行BLASTn，并且只输出带有登录号、E值和其他信息的行，从BLAST+输出(因为从BLAST+输出有几条无关的行)输出到csv。我有这些文件：带有人类基因序列登录号的文本文件，每行一个：GSEA-toBLASTaccession.txt 参考基因组：botznik-chr.fa 输出csv：GSEABLAST.csv 下面是我编写的执行以下代码的代码： for acc in `cat GSEA-toBLASTaccession.txt`; do echo $acc | blastn -db botznik-chr.fa -

浏览 2提问于2018-07-27得票数 1

回答已采纳

1回答

我必须使用TIFF图像中的哪个颜色通道？

dataset、computer-vision、image-segmentation

我将使用下面的数据集来使用U-Net网络进行语义分割。 LGG分割数据集此数据集包含脑部MR图像和手动FLAIR异常分割口罩。图像取自肿瘤影像档案馆(TCIA)。它们对应于包括在癌症基因组图谱(TCGA)低级别胶质瘤收集中的110名患者，至少有流体衰减反转恢复(FLAIR)序列和可获得的基因组聚类数据。肿瘤基因组簇和患者数据在data.csv文件中提供。我发现大脑图像是TIFF格式的，而且是RGB格式的(有三个通道)。我和Gimp一起开了一个： 📷 我不知道每个彩色频道上是否有任何特殊的信息，因为这个问题很奇怪(我不明白)。如果我想使用灰度图像，我必须使用哪个频道？或者我可以把它们转换成

浏览 0提问于2020-08-03得票数 0

回答已采纳

1回答

连接NCBI以使用"read.GenBank“访问蛋白质序列时出现的错误

r、macos、ncbi

我试图使用read.Genbank函数访问R中NCBI中的蛋白质序列数据：例如： ref.proteins <- c("XP_005327622", "XP_026241994", "NP_001107354", " XP_007536378", "NP_001268234 XP_004712197", "XP_017531808", "PBC34963","BAN21060",

浏览 0提问于2018-12-02得票数 1

1回答

尝试读取FASTA格式的文件，然后以Genbank格式写入另一个文件

python、bioinformatics、biopython、fasta、genbank

尝试使用Seq和SeqIO对象在BioPython中读取包含基因组序列的文件。无法使用“打开”命令。程序应该接受一个命令行参数，其中包含包含输入基因组的FASTA文件的名称。它生成了文件，但文件中没有任何内容。不知道我错过了什么？这就是我所拥有的： from Bio.Seq import Seq from Bio import SeqIO from Bio.SeqRecord import SeqRecord from Bio.Alphabet import I

浏览 7提问于2019-11-25得票数 0

1回答

为什么在需要或使用成功后不能调用模块的函数？

perl、require、perl-module、subroutine

我有一个名为genbank.pm的Perl模块文件，它有一个子例程new；这个Perl模块没有使用Exporter，也没有定义@EXPORT或@EXPORT_OK。在同一个目录中，我有一个名为test.pl的Perl文件，test.pl的代码是： require 'genbank.pm'; use strict; our $result = genbank::new(); 当我用Komodo运行它时，它报告： Undefined subroutine &genbank::new called at /home/mrs/scripts/test.pl line 3; 在我

浏览 1提问于2013-08-30得票数 0

1回答

在进行成对序列比对时，序列文件的典型大小是多少？

bioinformatics、dna-sequence、genome、sequence-alignment

在进行成对序列比对时，序列文件的典型大小是多少？我们能把生物体的整个基因组统一起来吗？

浏览 4提问于2014-04-06得票数 0

回答已采纳

1回答

即使路径正确，TopHat也找不到bowtie索引文件

bash、bioinformatics、sungridengine

我在bash脚本中使用bowtie索引生成了bowtie索引文件，如下所示： bowtie-build $FA_FILE $OUTPUT_BASE (在这里可以找到脚本：) 我希望我的集群中的每个节点将我的序列文件与染色体对齐，而不是与整个基因组对齐。因此，理论上，如果我对每个节点上的同一序列文件对每个染色体运行tophat实例，它应该比对整个基因组在一个节点上运行tophat更快。我确保我的bowtie索引文件的位置被导出如下： export BOWTIE_INDEXES="$(dirname ${EBWT})/" 然后像这样执行tophat： tophat -p 4 -G

浏览 4提问于2014-10-05得票数 0

回答已采纳

1回答

是否将biopython对象的输出保存到文件中？

python、biopython、genbank

这里我写了一个代码，用"id“来提取基因的"locus_tag”。如何将输出结果以制表符分隔的格式保存到文件中?代码采用并修改了 from Bio import SeqIO foo = open("geneid.txt") lines = foo.read().splitlines() genbank_file = open("example.gbk") for record in SeqIO.parse(genbank_file, "genbank"): for f in record.features:

浏览 0提问于2016-03-10得票数 0

1回答

在DNA序列中找到所有重复的4-mers - Perl。

regex、perl、fasta、dna-sequence

你好, 我试图编写一个程序，它读取一个包含多个DNA序列的FASTA格式文件，识别一个序列中所有重复的4-mers (即所有多次发生的4-mers )，并打印出重复的4-mer和在其中找到它的序列的头。k-mer只是一个k核苷酸序列(例如“aaca”、“gacg”和“tttt”是4-mers). 这是我的密码： use strict; use warnings; my $count = -1; my $file = "sequences.fa"; my $seq = ''; my @header = (); my @sequences = (); my $li

浏览 2提问于2017-06-28得票数 4

3回答

C++：可变模板参数(用于遗传算法)

c++、templates、generics、oop

我正在使用C++、MPI和CUDA编写并行进化算法库。我需要从面向对象的设计中提取原始数据，并将其粘贴到平面数组(或std：：)中，以便将其发送到节点或cuda设备。整个设计相当复杂，有大量的继承，以保持库的灵活性。但感兴趣的类别如下：基因组类-包含数据向量。浮标或汽笛。群体类-包含基因组对象的载体，并与基因组对象相关联。首先创建一个基因组对象，然后将对它的引用传递给人口类构造器，该构造函数根据传递的基因组创建自己的基因组向量。(希望这是合理的！) 所以我想我应该添加另一个成员向量，比如rawData到人口类中。但是rawData的类型需要依赖于存储在基因组(或原始基因组对象)中的数据

浏览 4提问于2009-04-22得票数 1

回答已采纳

1回答

如何使用床上工具覆盖率来评估基因组组装？

dna-sequence、genome

我一直在尝试使用"bedtools coverage“命令来评估我的基因组集合的覆盖率和任何倒置的存在等等。我肯定对某些事情有一个根本的误解:我使用BWA从我的illumina读取和参考基因组创建了一个BAM文件。我的印象是，这份BAM文件是我与上述基因组的比对。那么为什么我需要将基因组输入到床上工具的覆盖范围--我的BAM文件不应该已经包含了相关的基因组吗？对于如何处理这个问题，或者第二个合适的输入是什么，有什么建议吗？

浏览 0提问于2018-12-12得票数 0

3回答

如何访问存储在此对象中的数据？

string、perl、oop、object、bioperl

我使用BioPerl模块从一组参数中获取字符串。我跟踪了。该模块显然返回一个散列对象。如何从散列对象中获取实际字符串？ use Bio::DB::GenBank; use Data::Dumper; my $gb = Bio::DB::GenBank->new(-format => 'Fasta', -seq_start => 1, -seq_stop => 251,

浏览 6提问于2015-10-27得票数 1

回答已采纳

2回答

使用Biojava或Biopython检索某些生物的全基因组genbank文件

bioinformatics、biopython、ncbi、biojava

谁知道如何使用BIopython或BioJAVA从FTP ncbi中自动搜索和解析gbk文件。我在BIojava中搜索了实用程序，但没有找到任何实用程序。我也尝试过BioPython，下面是我的代码： from Bio import Entrez Entrez.email = "test@yahoo.com" Entrez.tool = "MyLocalScript" handle = Entrez.esearch(db="nucleotide", term="Mycobacterium avium[Orgn]") record

浏览 22提问于2014-03-14得票数 1

1回答

如何消除fasta文件中的重复序列

bioinformatics、biopython、biological-neural-network

我试图用所有发布的序列来构建细菌数据库类型，使用bowtie2来计算我的读取数据的覆盖率，并利用fasta_library进行映射。为此，我将从ncbi下载的所有基因组序列合并到一个fasta_library中(我在fasta文件中合并了74个文件)，问题是在这个fasta文件(我创建的库)中，我有很多重复的序列，这对覆盖范围有很大的影响，所以我想问是否有任何方法来消除我的Library_File中的重复，或者是否有任何方法来合并没有重复的序列，或者还有其他方法来计算我对引用序列的读取覆盖率我希望我说的够清楚了，如果有什么不清楚的地方请告诉我。

浏览 11提问于2020-04-22得票数 3

回答已采纳

1回答

用于迭代trhough变量URL的循环(Python)

python、loops、url、dna-sequence

巨蟒纽比在这里。我正在为DNA序列开发一个简单的序列搜索程序。其主要思想是从NCBI数据库中获得特定基因组和起始点的不同序列。到目前为止，我能够对一个基因组和一个特定的位置进行简单的搜索： import urllib genome="NC_009089.1" start="359055" end= "359070" link = "https://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=nuccore&id=%s&rettype=f

浏览 0提问于2019-03-07得票数 2

1回答

条件跳转或移动取决于在for循环中使用strcat的未初始化值。

c++、c、malloc、valgrind

我有一个包含3个染色体字符串的文件，我想把它连接到一个基因组中。然后，我必须跨多个线程访问这个连接字符串(我使用pthread_t)。为此，我必须在提取数据时使用pthread_mutex_lock，然后使用strcat连接使用const *函数fai_fetch提取的数据，然后将数据保存为char* (参见下文)。 // genome_size the size of all the chromosomes together // chr_total the number of chromosomes I wish to concatenate char* genome = (char*)

浏览 1提问于2021-10-01得票数 0

回答已采纳