如何在Python (Pandas)中对超大数据集进行分块处理，同时考虑整个数据集的函数应用？

文章/答案/技术大牛

发布

2回答

、、、、

我在论坛上读到了许多关于类似主题的帖子。然而，我在这里问的，我相信这不是一个重复的问题。我正在读取CSV格式的very large dataset (22 gb)，有3.5亿行。基于that link提供的解决方案，我正在尝试以块为单位读取数据集。我当前的代码如下所示。import pandas as pd return chunk_of_d

浏览 36提问于2020-12-04得票数 1

回答已采纳

2回答

数据中的模式匹配，并创建满足python中模式条件的csv

、、、、

我正在处理一个数据集，就像下面的附图所示。我已经使用pandas在Python中导入了CSV格式的数据集。我正在寻找分离整个数据与所有列中的值，如"a;b;c"，"lp;kl;jj“在列PATR (即，其中有分号的数据)到一个csv和其他值，如";”和"250

浏览 21提问于2018-02-07得票数 0

回答已采纳

2回答

Guidewire :如何在guidewire版本6.0中实现分页

我一直在使用guidewire应用程序版本6.0。如何在应用程序服务器中对超大的数据集进行分页？示例:考虑实体支付。目前PCF是带回所有的付款预设在索赔中的屏幕和结果的数量减少到3显示在UI中通过指定pagesize=3。现在我想通过分页在数据库中实现相同的概念，通过一个块

浏览 0提问于2019-07-08得票数 0

1回答

如何立即将通常由sql读取的大数据块或分区到熊猫中？

、、、

高层理念：我需要在一个大型数据集(2.4亿行)上迭代并执行相当复杂的操作，这些数据集已分块成SQL调用，每个调用返回大约2000万条记录。我可以成功地将每一块数据块拉进熊猫，但这些数据很难处理，在我对它们进行操作之前，真的需要进一步的分块或分割。不幸的是，我不能将摄取调用划分得更小( S3调用是通过频谱针对AWS的，如果是这样

浏览 3提问于2022-02-10得票数 0

1回答

在使用PySpark时，如何在Spark中实现Python数据结构？

、、、

我目前正在自学Spark programming，并试图用PySpark重新编写一个现有的Python应用程序。然而，我仍然对如何在PySpark中使用常规Python对象感到困惑。我了解Spark中的分布式数据结构，如RDD、DataFrame、Datasets、vector等。Spark有自己的转换操作和动作操作，如.map()、.reduceByKey()来操作这些对象。但是，如果我在PySp

浏览 34提问于2017-03-01得票数 1

回答已采纳

1回答

在spark数据帧上实现pythonic统计函数

、、、

我在spark数据帧中有非常大的数据集，它们分布在节点上。我可以使用spark库pyspark.sql.functions进行简单的统计，如mean、stdev、skewness、kurtosis等。如果我想使用像Jarque-Bera (JB)或Shapiro Wilk(SW)等高级统计测试，我会使用像scipy这样的python库，因为标准的apache pyspark库没有它们。() JBtest=stats.

浏览 30提问于2020-09-13得票数 0

1回答

在Azure Kubernetes服务(AKS)中处理关于Dask Kubernetes的大数据

、、、、

我想对我的笔记本硬盘中8gb的数据集(如csv文件)进行分析。我已经在AKS上设置了一个集群，其中有一个调度程序，3个工作程序，每个7 gb。任何建议，我应该在哪里存储这个数据<e

浏览 2提问于2019-06-02得票数 2

回答已采纳

2回答

潘达斯能在星火上跑吗？

、、

我们有一个Spark集群，用于对Python中的各种金融数据集进行分析，这些数据集高达数百to。它适用于那些对火花很满意的人，但最近我们已经有了一些数据科学家，他们更熟悉潘达，他们要求使用潘达斯而不是火花。Spark的主要优点是它是为分布式处理而设计的，并且能够处理更大的数据集，因此我们一直在

浏览 1提问于2018-09-11得票数 2

回答已采纳

1回答

使用pandas.dataframe.query方法()用子集替换dataframe的适当方法是什么？

、、

这个问题与我在此提出的问题非常相似：我想了解如何在给定的dataframe中排除记录(IE对dataframe进行操作，而不是对其进行视图)，同时还可以选择对结果应用其他操作。我很难理解Python在处理Pandas DataFrame对象时是如何管理引用和值分配的。我正在使用中的dataset，我想根据某

浏览 7提问于2016-08-24得票数 2

回答已采纳

1回答

Tensorflow data.Dataset.map与存储器

我有一个图像数据集，它太大了，无法存储在内存中。我计划做的是将路径对加载到图像和相应的标签作为我的数据集，然后在培训期间使用生成器函数将我的批处理中的路径转换为图像，然后将它们输入网络。data.Dataset.map()是这样做的好方法吗？它是返回只能在培训期间应用于当前批的映射函数

浏览 7提问于2022-06-30得票数 -1

回答已采纳

5回答

如何使用Pandas分析来分析大型数据集？

、、、

数据不是完全干净的，但在熊猫中使用是没有问题的。pandas库为EDA提供了许多非常有用的函数。但是，当我对大数据进行分析时，例如，当我使用10列的1亿条记录，从数据库表中读取它时，它不会完成，我的笔记本电脑内存不足，csv中的数据大小约为6 gb，我的RAM为14 GB，我的</em

浏览 8提问于2019-05-08得票数 8

1回答

RNN-LSTM作为python拼写检查器的数据集

、、、

我有超过500万记录的数据集，其中有许多噪音特征(单词)，所以我想做拼写纠正和缩写处理。当我观察到数据集时，并不是所有的单词拼写都是错误的，在dataset.So中也有正确的拼写实例--i标记整个数据集，并使用拆分正确的单词和错误<

浏览 0提问于2018-02-26得票数 4

4回答

在将数据传递到SSRS 2005之前，我可以对其进行预处理吗？

、

我们正在考虑迁移到Server 2005 Reporting。我们现有的许多报告都需要在呈现数据之前对其进行预处理。例如，我们对从存储过程返回GPS坐标(纬度和经度)的报告有一个查询，但是在将DataSet传递到我们的报告引擎(目前是水晶)之前，我们会调用一个Web来对坐标进行反向地理编码，并获得一个地址字符串。我们把它推到DataSet对象中。我读过一些关于的文章，但我不确定这是我想要的<

浏览 0提问于2009-09-17得票数 3

回答已采纳

3回答

连接一个数据集和OneHotEncoder在Pandas中的结果

、、、

让我们考虑来自的房价数据集。我将整个数据集存储在housing变量中： housing_cat_1hot.toarray().shape 我的目标是加入两个变量并将所有内容存储在一个数据集中.如何在ho

浏览 9提问于2017-12-22得票数 1

回答已采纳

1回答

Pandas中HDF文件帧中列的附加

、、、

我正在处理一个CSV格式的大型数据集。我正在尝试一列一列地处理数据，然后将数据附加到HDF文件中的框架中。所有这些都是用Pandas来完成的。我的动机是，虽然整个数据集比物理内存大得多，但列大小是可管理的。在稍后阶段，我将一个一个地将列加载回内存并对它们进行

浏览 3提问于2013-12-06得票数 10

回答已采纳

1回答

xarray:如何将scipy函数应用于大型netcdf数据集

、、、

我有一个包含多个变量的大型netcdf文件。我需要沿着一个维度对一个变量进行离散积分，比如形状(80,100,300000)与维度(时间，深度，节点)的温度。因此，我尝试使用xarray将大数据集分成块，然后尝试应用函数scipy.integrate.simps，但失败了。/temperature.nc',chunks={'time':5, 'nodes':1000}) temp = ds.t

浏览 5提问于2018-05-01得票数 2

2回答

如何在两个Pandas* DataFrame对象上执行SQL样式不相交或设置差异？*

、

我正在尝试使用Pandas来解决一个问题，因为一个愚蠢的DBA不对现在崩溃的数据集进行备份，所以我试图找出两列之间的差异。由于我不想深入讨论的原因，我使用的是Pandas而不是数据库。我想做的是，考虑到：Dataset B = [C, D, E, F]Datas

浏览 1提问于2013-01-19得票数 7

回答已采纳

1回答

如何解决Azure数据库中由于使用Pandas数据集而产生的OOM错误？

、、、、

我正在使用Azure数据库来处理数据。我从Azure blobs加载数据并将其转换为熊猫数据集进行进一步处理，但随后我遇到了一个错误： ConnectException错误:这通常是由OOM错误引起的，该错误导致关闭到Python的连接。检查查询的内存使用情况我做了一些搜索，发现这可能是使用熊猫数据

浏览 3提问于2022-08-11得票数 1

1回答

要部署的最终模型的预处理

、、、、

通常，对于ML工作流，我们导入数据(X和y)，将X和y划分为train、valid和test，对train、valid和test的数据进行预处理(缩放、编码、计算nan值等)，执行HP调优，在得到最佳HP模型后，将最终模型拟合到整个数据集(即X和y)。现在的问题是，X和y不是预处理的，因为只有train、valid和test是预处理的。因此，当在

浏览 0提问于2021-11-29得票数 1

回答已采纳

6回答

如何向web服务传递大量数据

、、、

我正在构建一个客户端-服务器(c#)应用程序，它使用web服务来同步数据。来回传递潜在的大量数据的最佳方式是什么？澄清:我想我是在问什么格式是传递数据的最佳格式。JSON、SOAP、普通POST (我<em

浏览 2提问于2009-06-24得票数 4

回答已采纳

点击加载更多