使用python更快地读取大型fastq文件

文章/答案/技术大牛

发布

1回答

python、multithreading、multiprocessing、fastq

我有几个平均有500.000.000行(125.000.000序列)的fastq文件。有没有更快的方法来读取这些fastq文件。import gzipfor file in files[:]: if not file.endswith(".<e

浏览 4提问于2018-02-14得票数 1

回答已采纳

5回答

从4组大文本文件中读取行

python、text-processing、readline、text-files

几天后，我就面临着与python有关的问题。我是一个生物信息学，没有基本的编程技能，我正在处理巨大的文本文件(25 am左右)。我必须去处理。我必须逐行读取txt文件，每次4行，这意味着前4行必须被读取和处理，然后我必须读取第二组4行，以此类推。显然，我不能使用readline()操作符，因为它会使我的内存超载，而且我必须使用这4行中的每一行来识别字符串。我考虑在range操作符中使用for循环： openfile = open(pa

浏览 8提问于2012-03-14得票数 3

回答已采纳

2回答

阅读fastq的最快方法

python-3.x、bioinformatics、skbio

我正在尝试使用读取fastq格式的文本文件。f = 'Undetermined_S0_L001_I1_001.fastq' seq_dic[seq] +=1

浏览 5提问于2016-08-25得票数 3

回答已采纳

3回答

在python循环中，打印交替文件中的行

python、bioinformatics、biopython、fasta、fastq

我正在尝试使用python在两个单独的文件中查找感兴趣的四行代码块，然后按受控顺序打印出其中的一些行。下面是两个输入文件和一个所需输出文件的示例。请注意，Input.fasta中的DNA序列与Input.fastq中的DNA序列不同，因为.fasta文件已被读取并更正。这允许将质量信息恢复到读取的校正后的.fasta文件。这是我最接近的失败尝试： fastq = open(Input.fas

浏览 29提问于2018-03-01得票数 1

回答已采纳

3回答

用python包装器并行化python脚本

python、parallel-processing、bioinformatics、joblib、fastq

我有一个python脚本heavy_lifting.py，它使用wrapper.sh包装器脚本wrapper.sh调用的parallelized并行化。我使用它来处理fastq格式的文件，请参阅下面的example.fastq。虽然这是可行的，但要求使用两个解释器和一组依赖项是不优雅的。我想使用python重写bash包装器脚本，同时实现同样的并行化。 example.fastq --这是一个需要处理的输入文

浏览 5提问于2021-01-03得票数 0

回答已采纳

2回答

Python等价物将zcat结果通过管道传送到Perl中的文件句柄

python、perl、pipe、filehandle、zcat

我有一个用Python语言编写的巨大的管道，它使用非常大的.gz文件(大约14 an压缩)，但需要一种更好的方法来将某些行发送到外部软件()。我有一个很久以前有人为我写的Perl脚本，它可以非常快地完成这项工作，但我需要在Python中做同样的事情，因为管道的其余部分都是用Python编写的，我必须保持这种方式。Perl脚本使用两个文件句柄，一个用于保存.gz文件的zcat，另一个用于存储软件所需的行(每4行中有2行)并将其用作输入。

浏览 5提问于2015-05-06得票数 7

1回答

如何在snakemake中传递变量值作为输入？

snakemake

我想使用使用Snakemake的SRR ID从SRA数据库下载fastq文件。我使用python代码读取一个文件以获取SRR。 SAMPLES = [line.strip() for line in/srrL

浏览 0提问于2019-04-12得票数 3

回答已采纳

1回答

在python中找出管道

bash、python-2.7、pipe、subprocess

我目前正在用python编写一个程序，而且我被困住了。因此，我的问题是:我有一个程序，它读取文件并打印一些行到标准输出，如下所示：import sys numArgs = len(sys.argv)谢谢你的帮忙这样做的目的是让“文本文件”和程序在集群上，所以我不需要从集群中复制任何文件。我只想登录到集群上，

浏览 0提问于2015-01-09得票数 0

回答已采纳

1回答

我已经从SRA下载了一个fastq文件，并且在将它读取到我的工作区时遇到了问题。是否有另一种将fastq文件读入R的方法？

r、bioconductor

，pattern = "fastq")错误:输入/输出没有找到dirPath: /readFastq/dirPath_data.Quickq。模式: fastq

浏览 2提问于2020-02-17得票数 0

1回答

如何从其他文件写入fastq文件

python-3.x、sequence、bioinformatics、biopython

我被要求读取两个文件(左读和右读) Aip02.R1.fastq和Aip02.R2.fastq，并使用zip函数获得一个交错的fasta文件。左边和右边的文件都是fastq文件，但是当我把它们压缩在一起生成一个新的fastq文件时，writer函数就不再起作用了。它给出错误"SeqRecord (id=)有一个无效的序列“。 #!/usr/bin/env

浏览 10提问于2020-02-15得票数 1

3回答

拆分带有前缀的大型.gz文件

python、split、gzip

我的每个fastq文件大约有2000万次读取(或2000万行)。现在，我需要将大的fastq文件分成块，每个块只有100万次读取(或100万行)，以便于进一步分析。fastq文件就像.txt一样。但是输入文件是.gz压缩格式(fastq.gz)，我需要先解压缩吗？zless XXX.fastq.gz |split -l 400

浏览 3提问于2011-08-02得票数 1

3回答

Shape文件或geojson到数据库

java、node.js、spring、geotools

我正在尝试读取大型形状文件，并尝试使用地理工具查找经度和经度是否在坐标中有没有可能将形状文件存储到数据库中？或者会存储为geojson并更快地返回，以检查lat和long是否在坐标中？Node或java中的哪一个更容易实现。

浏览 0提问于2019-02-06得票数 2

4回答

有没有办法在R中读写内存中的文件？

r、file-io、memory-management、large-files、in-memory

我正在尝试使用R来分析大型的DNA序列文件(fastq文件，每个文件有几at )，但是这些文件的标准R接口(ShortRead)必须一次读取整个文件。这不适合在内存中，所以它会导致错误。有没有办法一次读取几千行代码，将它们放入内存文件中，然后使用ShortRead从内存文件中读取数据？我正在寻找类似Perl的IO::Scalar的东西，用于R。

浏览 0提问于2010-11-09得票数 7

回答已采纳

2回答

如何创建脚本来编写.csv文件

shell-script

我将所有fastq文件存储在我的pc (workDir=/media/sf_16S_analysis/Dermatite_fastq_concat/FastQ/fastq_Join)上的同一个目录中；但是，我使用虚拟机执行bash脚本。,forward更详细的内容:清

浏览 0提问于2019-03-13得票数 2

回答已采纳

3回答

即使在删除/注释错误行时，错误也不会消失。

python、jupyter-notebook、typeerror

我正在Windows 10的虚拟机上使用Linux。TypeError: '<' not supported between instances of 'str' and 'int' 2 print("Downloading FASTQ files from the SRA...") ----&

浏览 12提问于2022-01-25得票数 2

回答已采纳

2回答

将同一命令应用于多个子目录中的多个文件

python、bash、fastq

我有一个包含94个子目录的目录，每个子目录包含一个或两个文件*.fastq。我需要对每个文件应用相同的python命令，并生成一个新文件qc_*.fastq。我知道如何将bash脚本单独应用于每个文件，但我想知道是否有一种方法可以编写一个bash脚本，将命令同时应用于所有文件

浏览 5提问于2014-11-20得票数 0

1回答

基准通道创建NextFlow

benchmarking、nextflow

input: file "${reads}.trimmed.fastq" into gather_fatsp_ch """ """ }gather_fatsp_ch.collectFile().vie

浏览 23提问于2021-02-09得票数 2

回答已采纳

1回答

为什么这个并行进程不是将输出写入文件，而是打印到控制台？

output、gnu-parallel

免责声明:这是一个关于并行和写入文件的我在biostars.org上问过的更普遍的问题。当我按顺序运行一个程序(obisplit从…obitools套餐)时，它读取一个文件并根据原始文件中的一些标准(这里不重要)创建许多文件： |____ output_01.fastq |____ output_03.fastq</em

浏览 0提问于2017-05-25得票数 1

回答已采纳

1回答

子进程:无法将“_io.BufferedReader”对象隐式转换为str

python、subprocess、bioinformatics、snakemake

我正在编写一个脚本，它是snakemake和python代码的组合，可以自动生成大量文件。更准确地说，我正致力于将读取与BWA MEM与配对尾读()对齐。在脚本的第一部分，我迭代了我的文件中的名称列表(即fastq绑定的文件)，然后在列表中对它们进行相应的排序。现在使用子流程，我希望通过使用bunzip2对它们进行解压缩，然后通过stdin将它们传递给bwa mem。bwa mem命令将fastq格式文件</

浏览 2提问于2017-04-10得票数 4

1回答

从SeqIO.index生成的字典中删除项

python、dictionary、bioinformatics、biopython、fastq

我正在使用Python2.6.6，并试图删除file2中重叠(即与file1中的读取相同)的读取。下面是我正在尝试实现的代码：spk_reads = SeqIO.index("file2.fastq","fastq") if

浏览 3提问于2017-09-13得票数 2

点击加载更多