pandas处理大数据_数据智能处理大促_数据智能处理新春大促 - 腾讯云开发者社区

python、postgresql、pandas、dataframe、bigdata

我想对一些数据进行备份测试，这些数据将使用Python、psycopg2和Pandas从Postgres数据库中提取。将从Postgres提取的数据非常大(超过10 of )--即使Pandas数据帧能够存储这么多数据，我的系统也无法以RAM的形式保存这些数据。:对Pandas数据框架内的数据执行计算操作 5:将这些操作的结果写回数据库中的现有表

浏览 27提问于2017-11-02得票数 3

回答已采纳

1回答

如何有效地将大量数据装入大熊猫？

python、pandas、dataframe

我正在处理一个非常宽的数据集(1005行* 590,718列，1.2G)。将如此大的数据集加载到熊猫数据集中会导致代码失败，这完全是由于内存不足造成的。我知道Spark可能是处理大型数据集的Pandas的一个很好的替代方案，但是在Pandas中有什么合适的解决方案来在加载大数据的同时减少内存使用吗？

浏览 0提问于2018-02-26得票数 4

回答已采纳

6回答

熊猫中的大而持久的DataFrame

python、pandas、sas

作为SAS的长期用户，我正在尝试切换到python和pandas。使用SAS，我可以将csv文件导入到SAS数据集中，其大小可以和我的硬盘一样大。在pandas中有类似的东西吗？我经常处理大文件，无法访问分布式计算网络。

浏览 6提问于2012-07-24得票数 96

回答已采纳

2回答

如何部分读取一个巨大的CSV文件？

python、pandas

我有一个非常大的csv文件，所以我无法将它们全部读取到内存中。我只想读取和处理其中的几行。所以我在Pandas中寻找一个函数，它可以处理这个任务，基本的python可以很好地处理这个任务： line = f.readline()但是，如果我在pandas中这样做，我总是读第一行： datainput1 = pd.read_csv('matrix.txt',sep=','

浏览 0提问于2015-03-30得票数 47

回答已采纳

1回答

我有非常大的(~200 raw，~20M行)原始jsonl数据集。我需要从那里提取重要的属性，并将中间数据集存储在csv中，以便进一步转换为HDF5、拼接等。显然，我不能使用JSONDataSet来加载原始数据集，因为它在幕后利用了pandas.read_json，而使用pandas来处理如此大小的数据集听起来不是一个好主意。因此，我正在考虑逐行读取原始数据集，逐行处理并将处理后的数据</e

浏览 26提问于2020-02-21得票数 6

回答已采纳

2回答

用DataFrame文件以.csv格式创建Pandas* .csv*

python、csv、hadoop、pandas、pyspark

我试图通过从hadoop集群中获取.csv数据并将其放入Pandas DataFrame来创建火花工作流。我能够从HDFS中提取数据并将其放入RDD中，但无法将其处理到Pandas Dataframe中。以下是我的代码：import numpy as nm A=sc.textFile("hdfs://localhost:9000/sales_ord_univ.csv我很确定这个错误是因为RDD是一个<em

浏览 2提问于2016-09-21得票数 0

1回答

如何使用pandas数据帧从磁盘读取和写入文件？

python-3.x、pandas

我将处理非常大的数据文件(许多of )。我将不得不读取这些文件并写入这些文件。因此，我将不能依赖RAM来存储数据，而需要从磁盘读取和写入文件。我熟悉pandas库提供的read_csv和to_csv选项。但是，我不确定read csv函数是读取文件，然后将其存储在内存中，还是直接从磁盘读取文件。使用pandas从磁盘读取和写入文件的最佳方式是什么？

浏览 0提问于2017-09-16得票数 0

0回答

Dask图的执行和内存使用

python、dask、dask-delayed

我正在dask中构建一个非常大的DAG，以提交给分布式调度器，在分布式调度器中，节点操作数据帧，而数据帧本身可能非常大。一种模式是，我有大约50-60个函数，用于加载数据和构造pandas数据帧，每个数据帧大小为几百MB (并且逻辑上表示单个表的分区)。我像这样链接任务：dfs = [dask.dela

浏览 6提问于2017-06-07得票数 4

2回答

Julia Dataframes vs Python pandas

python、pandas、dataframe、julia

我目前正在使用python pandas，我想知道是否有一种方法可以将熊猫的数据输出到julia Dataframes中，反之亦然。(我想你可以用Pycall从Julia调用python，但我不确定它是否能处理数据帧)有没有办法从python调用Julia并让它接收panda的数据帧？(不保存为其他文件格式，如csv) 什么时候使用Julia Dataframes比使用Pandas更有优势，除了非常大的数据集和运行许多循环的东西(比如神经网络)？

浏览 0提问于2014-04-27得票数 16

回答已采纳

3回答

Python:在不加载剩余数据的情况下加载excel头

python、pandas、header

我正在处理非常大的Excel文件，用Python加载Pandas需要很长时间。在处理数据之前，用户必须选择与数据相关的许多选项，这些选项只需要每个数据集中的每个列的名称。用户不得不等待几分钟，直到数据加载，才能选择必要的选项，然后让程序再进行几分钟的实际处理，这是非常不方便的。因此，我的问题是:是否有一种方法可以仅用从文件中加载数据头？在某种程度上，我认为它是read_excel Pandas函数

浏览 1提问于2020-06-17得票数 1

回答已采纳

3回答

Pandas: df.groupby()对于大数据集来说太慢了。有什么替代方法吗？

python、pandas、grouping、bigdata

我有一个有380万行和一列的pandas.DataFrame，我尝试按索引对它们进行分组。<class 'pandas.core.frame.DataFrame'>Data columns(total 1 columns):dtypes: object(1) memory

浏览 1提问于2017-06-23得票数 15

1回答

pandas在csv上提高OutOfBoundsDatetime，而不是在sql上

python、python-3.x、pandas、csv、sqlalchemy

我有一个运行pandas版本0.25.2的服务。此服务从数据库读取数据并将快照存储为csv查询的结果是一个包含一些非常大的日期时间值的数据帧。(如3000-01-02 00:00:00)之后，我使用df.to_csv(index=False)创建csv快照并将其写入文件在安装了pandas 0.25.3的不同机器上，我将csv文件的内容读入数据帧这将导致OutOfBoundsDateti

浏览 18提问于2019-11-08得票数 1

回答已采纳

1回答

如何用Python语言将内部字典写入.xlsx文件

python、excel

假设我有以下字典： "sheet_A": { "col1": "a", "col3": "c", }, "col1": "

浏览 2提问于2019-08-19得票数 0

1回答

添加使用pandas读取数据帧的进度条？

python、pandas

我想创建一个进度条，可以在读取一个非常大的CSV文件时显示进度。我正在创建一个通过网络读取CSV文件的pandas数据帧。因为CSV有很多数据，所以我的程序在处理它的时候会卡住，所以我想要有一个进度条，可以给出处理完成了多少的状态。有一个进度条来跟踪它是可行的吗？

浏览 67提问于2020-04-23得票数 0

1回答

Py-table vs Blaze vs S-Frame

python-3.x、pandas、hdf5、pytables、blaze

我正在使用python对一个巨大的数据集(大约2000万条记录和10列)进行探索性数据分析。我将分割、聚合数据并创建一些可视化，我也可以使用该数据集创建一些决策树线性回归模型。由于数据集很大，我需要使用数据帧来存储核心外的数据。因为我对Python比较陌生，并且使用大型数据集，所以我想使用一种方法，使我能够轻松地在我的数据集上使用sklearn。

浏览 11提问于2017-07-21得票数 0

1回答

将Excel文件加载到numpy 2D数组中

python、excel、numpy

有没有一种更简单的方法将excel文件直接加载到Numpy数组中？array = np.genfromtxt("Stats.xlsx")Line #3 (got 2 columns instead of 1)...... 现在，我正在使用openpyxl.reader.excel读取excel文件，然后将其附加到num

浏览 0提问于2013-06-12得票数 16

回答已采纳

4回答

在有125,497,040条记录的数据集上操作

pandas

我正在尝试运行添加_日期部分()，它将df列从一个datetime64转换为多个适当的列我用的是is 杂货销售数据集内核死掉(内存不足，为17.2 GB内存) 所以我试着把这个数据帧分解成更小的部分，然后运行add_datepart，但是结果还是一样的。

浏览 0提问于2019-02-05得票数 1

1回答

预处理后的csv数据集重建

python、csv、dataframe

我加载了一个用于数据预处理的csv文件。完成数据预处理后，并不需要csv文件中的所有列。因此，我只想通过提取一些必要的列来重建csv文件。我应该使用什么代码？但我只需要a，b，c，d，因此， before csv file : columns = a,b,c,d,e,f,g,h,i after csv file : columns = a,b,c,d *数据集非常大，大约6 6gb *python 3.6.9 *使用pandas

浏览 14提问于2020-01-09得票数 0

回答已采纳

1回答

Pandas dataframe，ValueError:无法将字符串转换为浮点型：

python、pandas、data-cleaning

我在400,000 x 600大小的数据帧(800MB)的Pandas数据帧上使用scikit-learn预处理和随机森林集成技术。当我通过算法传递这个数据帧时，我得到了这个值错误，可能是由于数据帧中的某个地方有额外的空格。我如何从我的数据框中清理所有应该只包含数值而绝对不包含字符串的空格？

浏览 0提问于2017-01-31得票数 1

1回答

将大型数据集与dask合并

pandas、dask、large-data

我有两个数据集，一个大约45 is，它包含一年的日常事务，第二个是3.6GB，包含客户I和详细信息。我希望将这两者合并到一个公共列中，以创建一个数据集，该数据集超出了服务器的内存，因为每个客户可以有多个事务。方法这个方法创建了75000个任务，最终摧毁了

浏览 3提问于2020-05-17得票数 3

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用Pandas处理Python中的大型SQL查询？

如何有效地将大量数据装入大熊猫？

熊猫中的大而持久的DataFrame

如何部分读取一个巨大的CSV文件？

如何在kedro中处理海量数据集

用DataFrame文件以.csv格式创建Pandas* .csv*

如何使用pandas数据帧从磁盘读取和写入文件？

Dask图的执行和内存使用

Julia Dataframes vs Python pandas

Python:在不加载剩余数据的情况下加载excel头

Pandas: df.groupby()对于大数据集来说太慢了。有什么替代方法吗？

pandas在csv上提高OutOfBoundsDatetime，而不是在sql上

如何用Python语言将内部字典写入.xlsx文件

添加使用pandas读取数据帧的进度条？

Py-table vs Blaze vs S-Frame

将Excel文件加载到numpy 2D数组中

在有125,497,040条记录的数据集上操作

预处理后的csv数据集重建

Pandas dataframe，ValueError:无法将字符串转换为浮点型：

将大型数据集与dask合并

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐