在pandas中处理大量大型数据文件_在python中拆分大型数据文件_在webpack中处理包含大量全局函数的大型JS文件 - 腾讯云开发者社区

python、pandas、dataframe、memory、garbage-collection

我需要评估来自DEM模拟的1800个数据文件。每个数据文件在某个时间点有效，并包含粒子及其温度的列表。我想绘制一个粒子子集随时间变化的平均温度图。不幸的是，在评估一段时间后，我耗尽了内存。每个数据文件大约有15MB。下面是我所做的： import pandas as pdimport linecacheimport gc path = "Ecentral particles for later crea

浏览 14提问于2020-09-26得票数 0

回答已采纳

1回答

Pandas Dataframe:再一次就地与赋值相同的数据帧

python、pandas、performance、dataframe

下面是从pandas数据帧中实际删除列的两种方法。在处理大型数据集(数据文件大小为GB )时，哪种方法更有效？

浏览 0提问于2018-11-10得票数 0

1回答

Spyder取消打开大变量而不重新启动整个程序

python-3.x、spyder

我在Spyder公司和大型Pandas数据处理公司合作。偶尔，我会意外地单击变量资源管理器窗口中的大型数据文件，Spyder在尝试打开时会挂很长时间。

浏览 2提问于2017-10-17得票数 5

1回答

使用气流迁移大型表

python、mysql、airflow

气流中的所有相关钩子和操作符似乎都适合使用Pandas数据文件将完整的SQL输出加载到内存中，然后将其转换/导出到所需的文件格式。这给无法完全装入内存且正在失败的大型表带来了明显的问题。我无法让气流读取查询结果并将其保存到本地文件中，而不是将其全部存储到内存中。我有点抓挠我的头，因为我在五旬节工作，它可以很容易地处理这个问题，但看不到任何明显的解决办法。我可以尝试将表分割成足够小的块，使Airflow/P

浏览 1提问于2021-03-25得票数 2

回答已采纳

1回答

调用函数时的Pandas、大数据、HDF表和内存使用情况

pandas、memory、hdf5、large-data

简短问题我必须处理大型数据文件，并且我可以指定数据文件的输出格式。我的问题是:

浏览 0提问于2013-03-29得票数 6

回答已采纳

1回答

如何将Modin熊猫的数据附加到其他？

python、pandas、dataframe、pandasql、modin

我正在对围绕6GB的大型文件进行计算，每个文件中都有、Modin、熊猫、，我听说与熊猫相比，这是优化的。我需要以块的形式读取CSV文件，并对其执行计算，并将其附加到大型 dataframe 中，并再次将大数据文件转换为CSV文件。有人能提出任何替代这个或解决方

浏览 0提问于2019-06-15得票数 1

回答已采纳

1回答

简化大熊猫大型文件的处理

python、pandas、iteration

有没有办法在不占用大量内存的情况下简化处理大熊猫中的大型或excel文件？encoding = "ISO-8859-1", low_memory=False) 如果我在一台内存少的电脑上工作是否有一种方法可以使用迭代函数来流和处理大型数据文件，例如： Load

浏览 2提问于2014-05-13得票数 1

回答已采纳

1回答

星火DataFrame如何处理比内存更大的潘达斯DataFrame

pandas、apache-spark、dataframe、apache-spark-sql、hdf5

我现在正在学习Spark，它似乎是Pandas Dataframe的大数据解决方案，但是我有一个让我不确定的问题。目前，我使用HDF5存储比内存更大的Pandas数据文件。HDF5是一个很好的工具，它可以让我在熊猫的数据上分块。因此，当我需要对大型Pandas数据进行处理时，我将以块的形式进行处理。但Pandas不支持分布式处理，HDF5仅适用于单个PC环境。使用Spark可能是解决方案，但我对Spark的理解是，

浏览 0提问于2015-10-29得票数 5

回答已采纳

1回答

python ProcessPoolExecutor内存问题

python、linux、memory、multiprocessing、concurrent.futures

这是在Linux中，Python3.8。我使用ProcessPoolExecutor来加快大型数据文件列表的处理速度，但是由于它们都在每个进程中被复制，所以内存不足。我该如何解决这个问题？我的代码如下所示： # do some work on a single pandas DataFrame # dfs is a

浏览 20提问于2022-02-17得票数 1

回答已采纳

1回答

从Google云存储usign Java读取非常大的文件

google-cloud-storage、cloud、blob

我正在尝试从Google云存储桶中读取一个非常大的文件(运行到GB-s)。我将其读为Blob，然后从Blob中打开一个InputStream。有没有一种方法可以像我们使用FileInpuStream一样从存储桶中读取对象，这样我就可以读取文件，而不管文件的大小？

浏览 0提问于2021-05-12得票数 0

1回答

MemoryError熊猫

python、pandas

我试图使用data.frames合并两个pandas，但是我得到了一个内存错误。这是我的代码：import pandas as pd df1 =dataset uses ",df2b.memory_usage().sum()/ 1024**2," MB ") ('df2b dataset uses ', 3470, ' MB

浏览 0提问于2018-08-24得票数 1

1回答

将dict转换为Python中的列表块

python、python-3.x、dictionary

我有一条看起来像：这是从Pandas DataFrame创建的，使用：我想在df.isin()方法中包含这个dict。需要从大型数据文件自动创建大量这样的数据集。从可以包含在.isin()方法中的dataframe自动创建列表块的最有效方法是什么？

浏览 1提问于2016-03-12得票数 2

回答已采纳

1回答

创建和初始化时间列Python

python、pandas、dataframe、time

我需要在我现有的dataframe中添加一个time列并初始化它。我在一个小脚本中尝试了这行代码df['date']=datetime.time(0, 0, 0)：import datetimeprint(df['date'])0 00:00:002 00:00:004 00:00:00 但是，当我在</e

浏览 0提问于2020-03-04得票数 0

2回答

加快时间戳操作

python、pandas

以下转换(ms -> datetime -> conver时区)需要很长时间(4分钟)运行，可能是因为我正在处理一个大型数据文件： for column in ['A', 'B', 'C', 'D',我是否已经以最有效的方式使用了Pandas数据结构和方法？

浏览 1提问于2014-09-04得票数 4

回答已采纳

1回答

用dask读取蜂巢数据

pandas、hive、dask

我正在使用as_pandas实用程序从impala.util读取从hive获取的dataframe格式的数据。但是，使用熊猫，我想我将无法处理大量的数据，而且速度也会变慢。我一直在阅读dask，它为读取大数据文件提供了极好的功能。我如何使用它有效地从蜂巢中获取数据。For richer pandas- ------- Da

浏览 2提问于2018-10-18得票数 2

回答已采纳

1回答

通过符号链接访问多个文件

unix、hyperlink、named-pipes、cat

我正在处理多个大型数据文件，这些文件需要连接起来才能输入到程序中。不幸的是，这个程序不接受stdin作为输入。一种选择是连接多个文件，并将新文件作为程序的输入，但是这将(暂时)需要大量磁盘空间，因此我正在寻找更优雅的选择。

浏览 0提问于2013-07-20得票数 1

回答已采纳

3回答

使用包含“列名字符串”的dataframe列，在不使用.apply()的情况下，根据列名和索引从dataframe返回值

python、pandas、dataframe

我有如下数据：df['A'] = numpy.random.random(10)df[10)我希望获得一个输出，该输出使用“Col_name”和数据行的相应索引来查找数据文件中的值我可以使

浏览 2提问于2022-03-03得票数 0

1回答

Python中多个DataFrames的缩放/优化合并

python、pandas、dataframe、optimization、merge

我在Python中列出了几个试图合并的DataFrames。目前，我正在像这样合并它们：from functools import reduce 这个解决方案对于合并方面很有效，但是，我的问题是，对于一些大型当我有几个需要合并的大型数据文件时，是否有一种优化/修改这段代码的方法，或者可能使

浏览 5提问于2022-09-19得票数 0

1回答

用numpy数组存储大型Pandas* Series最有效的方法是什么？*

python、pandas、numpy、parquet

我有一个在每一行包含numpy二维数组的pandas系列。它看起来是这样的： import numpy as nps = pd.Series([np.random.rand(4, 3) for i in range(0我需要把它存储在磁盘上。我通常使用.parquet处理大型数据文件，因为它的转换效率很高，但我担心它不能将numpy数组作为列处理。

浏览 15提问于2020-04-08得票数 1

1回答

当数字为整数时，python字典内存不足

python、dictionary、memory

我有一段python代码，假定要将大文件读入内存中的字典并执行一些操作。令我困惑的是，只有一种情况下它会耗尽内存:当文件中的值是整数时……string value_1 .... value_n 我的文件大小从2G到40G不等。但是，当我使用具有相同维度(n=100)和相同行数的string 4 -2 3 1 1 1 ...时，我无法将其读取到内存中。

浏览 0提问于2016-01-08得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云