我有一个非常大的csv文件,所以我无法将它们全部读取到内存中。我只想读取和处理其中的几行。所以我在Pandas中寻找一个函数,它可以处理这个任务,基本的python可以很好地处理这个任务:
with open('abc.csv') as f:
line = f.readline()
# pass until it reaches a particular line number....
但是,如果我在pandas中这样做,我总是读第一行:
datainput1 = pd.read_csv('matrix.txt',sep=',',
我想将通过ftp检索的一个以制表符分隔的大文本文件的内容直接放入pandas数据帧中。
import pandas as pd
import urllib.request as ur
# retrieve only the header column & set dtype to save some memory
refseq_summary = "ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/assembly_summary_refseq.txt"
req = ur.Request(refseq_summary)
z_f = u
我有一个包含文件名的列表。我想解析目录,从列表中的每个元素开始读取所有文件,并将其存储在dataframe中
例如:
list1=[abc,bcd,def]
目录:
abc1.txt
abc2.txt
abc3.txt
bcd1.txt
bcd2.txt
bcd3.txt
输出应该是这样的:以'abc‘开头的文件应该在一个pandas数据帧中,而在其他数据帧中以'bcd’开头的文件,等等
我的代码:
dfs = []
for exp in expnames:
for files in filenames:
if files.startsw
我正在尝试将txt文件(整个目录)摄取到pandas数据帧中,以便数据帧中的每一行都包含一个文件的内容。
据我所知,文本文件不是分隔的,它们是电子邮件的正文。除一个文件外,所有文件都拆分为多行。所以不是有20多行(每个文件一行),我有超过500行。我不知道这一个文件和其他文件有什么不同。它们都是纯文本的。
我使用的代码是:
import pandas as pd
for i in files:
list_.append(pd.read_csv('//directory'+i ,sep="\t" , quoting=csv.QUOTE_NONE,hea