Pandas:使用read_json读取大型bz2文件的前x个块或行

、、、

尝试使用pd.read_json读入bz2文件 i = 0 i = i +1 for c in chunks: print(c) 这并不是止步于3个块。如何读取x数量的块或x数量的行

浏览 21提问于2019-12-02得票数 1

回答已采纳

4回答

如何读取文件中的有限行，因为python给出了内存错误

、

我有一个大约7 7GB大小的JSON数据，我只想读取其中的几行数据(而不是所有数据)。当我打印所有数据时，出现内存错误。我试着用pandas和numpy打印它，但是我不能打印它。import pandas as pd print(df.head())

浏览 40提问于2019-01-24得票数 1

回答已采纳

1回答

如何在pandas中使用带偏移量的chunksize？

、

使用pandas读取大型csv文件时，我希望使用chunksize来限制一次读取的行数，但在第二次迭代中，我希望保留前一块中的300 rows。在read_csv中有什么方法可以做到这一点吗

浏览 16提问于2021-08-29得票数 0

1回答

使用pyarrow读取大型压缩json文件，类似于pandas阅读器功能。

、

我有一个很大的压缩json文件，未压缩的单个文件大约有128GBs。使用.gz压缩时，文件大小约为21 is。我想利用pyarrow以块的形式读取文件，并将其转换为拼图数据集。我有以下代码，其中压缩的json文件通过pandas read_json读入块中，然后将这些块转换为apache箭头表

浏览 59提问于2020-11-06得票数 0

2回答

用Python快速解析12 GB的JSON文件

、、

我有一个12的JSON文件，每一行都包含有关科学论文的信息。这是它看起来的样子 enter image description here 我想解析它并创建3个pandas数据帧，其中包含有关场所、作者和作者在一个场所发表了多少次的信息。下面你可以看到我写的代码。我的问题是，这段代码需要很多天才能运行。有没有办法让它更快？

浏览 20提问于2020-10-19得票数 3

2回答

熊猫read_json :跳过文件的第一行

、、

假设我有一个包含如下数据行的json文件：{'ID':'098656', 'query':'query_file.txt'} {'A':3, 'B第一行只是对给定文件及其创建方式的解释。我想打开它的时候： import pandas

浏览 2提问于2022-10-14得票数 1

回答已采纳

1回答

将大型.bz2文件加载并聚合到pandas中的有效方法是什么？

、

我试图以块的形式加载一个大的bz2文件，并将其聚合到一个pandas DataFrame中，但是Python总是崩溃。我正在使用的方法如下，我已经在较小的数据集上取得了成功。将比内存更大的文件聚合到Pandas中更有效的方法是什么？数据是以行分隔的json压缩为bz2，取自h

浏览 43提问于2019-03-28得票数 1

2回答

亚马逊/EMR上的BZip2本地分裂

、、、

对于亚马逊EMR作业的压缩输入，我们有一个具体的问题。Hadoop检查文件扩展名以检测压缩文件。Hadoop支持的压缩类型是: gzip、bzip2和LZO。您不需要采取任何额外的操作来使用这些压缩类型来提取文件；Hadoop为您处理它。它不是tar或ZIP那样的存档程序；该程序本身没有多个文件的加密或存档分割功能，但在UNIX传

浏览 4提问于2014-04-02得票数 0

回答已采纳

1回答

用python读取大型xlsx文件的一部分？

、、

我有一个包含100万行的大型.xlsx文件。我不想一次打开整个文件。我想知道我是否可以读取文件的一块，处理它，然后再读取下一个块？(我更喜欢用熊猫做它。)import pandas as pd # It takes a long

浏览 5提问于2022-10-19得票数 0

2回答

创建大型XML文件的索引

、、、、

我有一个来自维基百科的大型bz2文件，其中包含他们的文章在xml格式的转储。从转储中获取文本并不困难。我使用以下代码来解析xml。我想知道是否有一种方法可以在读取原始bz2或xml文件后打开它，并对其进行索引，这样我就可以将不同的行(例如，“巴拉克·奥巴马”的文章)与该索引相关联，然后当需要这行时，我可以直接转到它。一种可能性

浏览 1提问于2014-06-21得票数 0

2回答

用Java读取(可能很大)的文本文件而不读取内存？

、

我正在编写一个程序来读取各种文本文件并显示它们，而不必将整个文件读取到内存中。允许用户向下滚动以读取更多的行，但是这些行是从阅读器实时加载的。现在没有显示的行</em

浏览 5提问于2015-05-26得票数 2

4回答

分隔符: read_json()获取了意外的关键字参数“TypeError”

、、、

我正在尝试在Python3中分隔一个平面json文件(通过Jupyter)，以便创建一个额外的列。Pandas自动读取并在"...“之间生成行。当我不使用分隔符进行打印时，它可以很好地读取文件。下面是前四行： 0 <h1>lorum ipsum| 1 <h2&

浏览 91提问于2021-10-28得票数 0

1回答

使用读取大型压缩文件

、、、

我正在尝试使用bz2读取一个文件。 System.out.println(line);} catch (Exception e) {} 还有另一种读取大型压缩

浏览 4提问于2016-06-08得票数 1

1回答

使用Pandas读取Json文件

、、

我正在尝试使用熊猫的read_json函数读取一个json文件，我得到的是结果，但不是我想要的结果，我的结果有第一行作为标题(标题)，我想忽略结果中的第一行。下面是我的python代码。import jsonresult=pd.read_json('dummy_DB_clean.json

浏览 1提问于2016-01-08得票数 0

1回答

使用Dask并行化读取的JSON ->保存部分

、、、

我想使用Dask摄取一个大的(>2GB，> 1M行)行分隔的JSON，并将其保存为一批Parquet文件。我正在我的个人电脑上进行这些实验，所以这个文件比可用的内存还要大。使用Pandas，我可以使用read_json()创建一个JsonReader对象，然后在for循环中遍历块： reader =

浏览 9提问于2022-09-01得票数 0

4回答

可以分块读取拼图文件吗？

例如，pandas的read_csv有一个chunk_size参数，它允许read_csv在CSV文件上返回一个迭代器，这样我们就可以分块读取它。拼图格式以块的形式存储数据，但是没有像read_csv这样的有文档记录的方法来读入块。有没有办法以块的形式读取拼图文件？

浏览 3提问于2019-11-29得票数 8

1回答

在dask dataframe中使用行号作为索引，使用chunksize和skiprows过滤输入文件

我有大约70 MD的MD模拟输出。固定行数解释和固定行数数据的模式在文件中有规律地重复。如何逐块读取Dask Dataframe中的文件，其中的解释行被忽略？我成功地在pandas.read_csv的skiprows参数中编写了一个lambda函数，以忽略解释行，只读取数据行。我将pandas输入的</

浏览 0提问于2019-10-04得票数 0

1回答

是否有一种方法来定义大熊猫中块的大小，作为可用内存的函数？

、、

我知道我可以加载一个包含数据块的文件：for chunk in pandas.read_csv("path_to_my_csv.csv", chunksize=1e9):# Process 其中，chunksize的值对应于每个“块”包含的行数。我想这样做的原因是能够在不同的机器上处理数据(有不同数量的可用内存)，并使用</

浏览 2提问于2020-10-25得票数 0

回答已采纳

1回答

Python:同时读取多个大型csv

、

我有9个大的csv (每个12 in )，具有完全相同的列结构和行顺序，只是每个csv的值不同。我需要逐行遍历csv，并比较其中的数据，但它们太大了，无法存储在内存中。维护行顺序非常重要，因为行位置用作比较csvs之间的数据的索引，因此将表附加在一起并不理想。我宁愿避免9个嵌套的"with open() as csv:“使用DictReader，这看起来

浏览 19提问于2021-01-25得票数 0

1回答

用Python读取FTP服务器上文件的前N行

、、、

我在FTP服务器上有一个CSV文件。该文件大小约为200mb。d

浏览 1提问于2021-01-05得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何读取文件中的有限行，因为python给出了内存错误

如何在pandas中使用带偏移量的chunksize？

使用pyarrow读取大型压缩json文件，类似于pandas阅读器功能。

用Python快速解析12 GB的JSON文件

熊猫read_json :跳过文件的第一行

将大型.bz2文件加载并聚合到pandas中的有效方法是什么？

亚马逊/EMR上的BZip2本地分裂

用python读取大型xlsx文件的一部分？

创建大型XML文件的索引

用Java读取(可能很大)的文本文件而不读取内存？

分隔符: read_json()获取了意外的关键字参数“TypeError”

使用读取大型压缩文件

使用Pandas读取Json文件

使用Dask并行化读取的JSON ->保存部分

可以分块读取拼图文件吗？

在dask dataframe中使用行号作为索引，使用chunksize和skiprows过滤输入文件

是否有一种方法来定义大熊猫中块的大小，作为可用内存的函数？

Python:同时读取多个大型csv

用Python读取FTP服务器上文件的前N行

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐