开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

python dask to_parquet占用大量内存

Python Dask是一个用于并行计算的灵活库，它可以帮助我们处理大规模数据集。而to_parquet是Dask的一个方法，用于将数据集保存为Parquet格式的文件。

Parquet是一种列式存储格式，它具有高效的压缩率和查询性能，适用于大规模数据处理和分析。通过将数据保存为Parquet格式，可以减少存储空间占用，并提高数据读取和处理的效率。

在使用python dask to_parquet方法时，可能会遇到占用大量内存的情况。这通常是因为数据集的规模较大，无法完全放入内存中进行处理。为了解决这个问题，可以考虑以下几个方面：

内存优化：可以通过调整Dask的配置参数来优化内存使用。例如，可以减少分块的大小，以减少每个分块所占用的内存量。可以使用dask.config.set方法来设置相关参数，如dask.config.set(memory_limit='4GB')。
分布式计算：如果单机的内存无法满足需求，可以考虑使用分布式计算框架，如Dask Distributed或Apache Spark，将计算任务分布到多台机器上进行并行处理。这样可以充分利用集群的计算资源，减少内存压力。
数据分区：如果数据集过大，无法一次性加载到内存中，可以考虑将数据集划分为多个分区，并逐个处理每个分区。这样可以降低每个分区的内存占用，并逐步完成整个数据集的处理。
增加硬件资源：如果条件允许，可以考虑增加机器的内存容量，以满足大规模数据处理的需求。同时，也可以考虑使用高性能的存储设备，如SSD，以提高数据读取和写入的速度。

总结起来，当使用python dask to_parquet方法时，如果遇到占用大量内存的情况，可以通过内存优化、分布式计算、数据分区和增加硬件资源等方式来解决。这样可以提高处理大规模数据集的效率，并充分利用云计算的优势。对于腾讯云相关产品，可以考虑使用腾讯云的弹性MapReduce（EMR）服务来进行大规模数据处理和分析，详情请参考腾讯云弹性MapReduce（EMR）。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

并行计算框架Polars、Dask的数据处理性能对比

在Pandas 2.0发布以后，我们发布过一些评测的文章，这次我们看看，除了Pandas以外，常用的两个都是为了大数据处理的并行数据框架的对比测试。

04

又见dask! 如何使用dask-geopandas处理大型地理数据

读者的问题涉及到地理信息系统（GIS）操作的一系列步骤，具体包括将栅格数据转换为点数据、为这些点数据添加XY坐标、通过空间连接给这些点添加行政区属性、以及计算指定行政区的质心。读者在使用ArcGIS软件完成前两步时未遇到明显问题，但在执行第三步时遇到了性能瓶颈，即使用ArcGIS和GeoPandas进行空间连接操作时系统会卡死。为了解决这个问题，读者尝试使用了dask-geopandas来处理约两百万个点的数据，但似乎遇到了错误。

01

别说你会用Pandas

这两个库使用场景有些不同，Numpy擅长于数值计算，因为它基于数组来运算的，数组在内存中的布局非常紧凑，所以计算能力强。但Numpy不适合做数据处理和探索，缺少一些现成的数据处理函数。

01

让python快到飞起 | 什么是 DASK ？

Dask 是一个开源库，旨在为现有 Python 堆栈提供并行性。Dask 与 Python 库（如 NumPy 数组、Pandas DataFrame 和 scikit-learn）集成，无需学习新的库或语言，即可跨多个核心、处理器和计算机实现并行执行。

用于ETL的Python数据转换工具详解

做数据仓库系统，ETL是关键的一环。说大了，ETL是数据整合解决方案，说小了，就是倒数据的工具。回忆一下工作这么些年来，处理数据迁移、转换的工作倒还真的不少。但是那些工作基本上是一次性工作或者很小数据量，使用access、DTS或是自己编个小程序搞定。可是在数据仓库系统中，ETL上升到了一定的理论高度，和原来小打小闹的工具使用不同了。究竟什么不同，从名字上就可以看到，人家已经将倒数据的过程分成3个步骤，E、T、L分别代表抽取、转换和装载。

03

分析型数据库DuckDB基准测试

我们都知道Polars很快，但是最近DuckDB以其独特的数据库特性让我们对他有了更多的关注，本文将对二者进行基准测试，评估它们的速度、效率和用户友好性。

02

6个pandas新手容易犯的错误

我们在这里讨论6个新手容易犯的错误，这些错误与你所使用工具的API或语法无关，而是与你的知识和经验水平直接相关。在实际中如果出现了这些问题可能不会有任何的错误提示，但是在应用中却会给我们带来很大的麻烦。

02

是时候和pd.read_csv(), pd.to_csv()说再见了

大数据文摘授权转载自数据派THU 作者：Avi Chawla 翻译：欧阳锦校对：和中华 Pandas 对 CSV 的输入输出操作是串行化的，这使得它们非常低效且耗时。我在这里看到足够的并行优化空间，但遗憾的是，Pandas 还没有提供这个功能。尽管我从不赞成一开始就使用 Pandas 创建 CSV（请阅读https://towardsdatascience.com/why-i-stopped-dumping-dataframes-to-a-csv-and-why-you-should-too-c0954

02

独家 | 是时候和pd.read_csv(), pd.to_csv()说再见了

Pandas 对 CSV 的输入输出操作是串行化的，这使得它们非常低效且耗时。我在这里看到足够的并行优化空间，但遗憾的是，Pandas 还没有提供这个功能。尽管我从不赞成一开始就使用 Pandas 创建 CSV（请阅读https://towardsdatascience.com/why-i-stopped-dumping-dataframes-to-a-csv-and-why-you-should-too-c0954c410f8f了解原因），但我知道在某些情况下，除了使用 CSV 之外别无选择。

03

Cloudera机器学习中的NVIDIA RAPIDS

在本系列的上一篇博客文章中，我们介绍了在Cloudera Machine Learning（CML）项目中利用深度学习的步骤。今年，我们扩大了与NVIDIA的合作伙伴关系，使您的数据团队能够使用RAPIDS AI无需更改任何代码即可大大加快数据工程和数据科学工作负载的计算流程。Cloudera Data Platform上的RAPIDS预先配置了所有必需的库和依赖项，以将RAPIDS的功能带到您的项目中。

02

10个Pandas的另类数据处理技巧

来源：DeepHub IMBA本文约2000字，建议阅读5分钟本文介绍了10个Pandas的常用技巧。本文所整理的技巧与以前整理过10个Pandas的常用技巧不同，你可能并不会经常的使用它，但是有时候当你遇到一些非常棘手的问题时，这些技巧可以帮你快速解决一些不常见的问题。 1、Categorical类型默认情况下，具有有限数量选项的列都会被分配object 类型。但是就内存来说并不是一个有效的选择。我们可以这些列建立索引，并仅使用对对象的引用而实际值。Pandas 提供了一种称为 Categori

04

有比Pandas 更好的替代吗?对比Vaex, Dask, PySpark, Modin 和Julia

表格是存储数据的最典型方式，在Python环境中没有比Pandas更好的工具来操作数据表了。尽管Pandas具有广泛的能力，但它还是有局限性的。比如，如果数据集超过了内存的大小，就必须选择一种替代方法。但是，如果在内存合适的情况下放弃Pandas使用其他工具是否有意义呢？

01

总结 | 尹立博：Python 全局解释器锁与并发 | AI 研习社第 59 期猿桌会

AI 科技评论按：作为排名靠前的最受欢迎和增长最快的编程语言之一，Python 是一种多用途、高级别、面向对象、交互式、解释型和对用户非常友好的编程语言，拥有卓越的可读性和极高的自由度。而为了能利用多核多线程的的优势，同时又要保证线程之间数据完整性和状态同步，Python 官方的、最广泛使用的解释器——CPython 往往会采取最简单的加锁的方式——全局解释器锁（GIL）。

02

速度起飞！替代 pandas 的 8 个神库

本篇介绍 8 个可以替代pandas的库，在加速技巧之上，再次打开速度瓶颈，大大提升数据处理的效率。

02

cuDF，能取代 Pandas 吗？

cuDF (Pandas GPU 平替)，用于加载、连接、聚合、过滤和其他数据操作。

01

八大工具，透析Python数据生态圈最新趋势！

我们前一阵子参加了在旧金山举办的Dato数据科学峰会。来自业界和学界的千余名数据科学研究人员在大会上对数据科学、机器学习和预测应用方面的最新发展进行了交流和探讨。以下是大会中讨论的数据科学家在未来可能使用的八个Python工具。 SFrame和SGraph 峰会上的一个重磅消息是Dato将在BSD协议下开源SFrame和SGraph。SFrame(Scaleable Data Frame)是一个为大数据处理优化内存和性能的数据框(DataFrame)结构。SGraph是一个类似的概念，但代表的不是数据框而

【科研利器】Python处理大数据，推荐4款加速神器

在数据科学计算、机器学习、以及深度学习领域，Python 是最受欢迎的语言。Python 在数据科学领域，有非常丰富的包可以选择，numpy、scipy、pandas、scikit-learn、matplotlib。

09

仅需1秒！搞定100万行数据：超强Python数据分析利器

使用Python进行大数据分析变得越来越流行。这一切都要从NumPy开始，它也是今天我们在推文介绍工具背后支持的模块之一。

Python太慢？那是你没用对方法！

在Python编程中，除了注意循环对内存的影响外，我们还需要关注数据相关项目和面向对象编程中类的内存利用效率。我们常常在设计和编写复杂的类时投入大量精力，却发现这些类在测试或生产环境中由于需要承载大量数据而表现不佳。

01

再见Pandas，又一数据处理神器！

cuDF (Pandas GPU 平替)，用于加载、连接、聚合、过滤和其他数据操作。

01

八个 Python 数据生态圈的前沿项目

Galvanize 最近在旧金山参加了 Dato 数据科学峰会，这次会议聚集了千余名来自业界和学术界的数据科学研究人员，他们交流并探讨关于数据科学、机器学习应用和预测模型的最新进展。以下是我导师认为数据科学家将在未来数月乃至数年里使用的八个 Python 工具。 1. SFrame and SGraph Dato 数据科学峰会中重磅消息之一是 Dato 将在 BSD 协议下开源SFrame 和 SGraph。SFrame (short for Scaleable Data Frame) 提供可以优化内存效

07

更高效的利用Jupyter+pandas进行数据分析，6种常用数据格式效率对比！

在使用Python进行数据分析时，Jupyter Notebook是一个非常强力的工具，在数据集不是很大的情况下，我们可以使用pandas轻松对txt或csv等纯文本格式数据进行读写。

02

再见Pandas，又一数据处理神器！

cuDF (Pandas GPU 平替)，用于加载、连接、聚合、过滤和其他数据操作。

01

更高效的利用Jupyter+pandas进行数据分析，6种常用数据格式效率对比！

在使用Python进行数据分析时，Jupyter Notebook是一个非常强力的工具，在数据集不是很大的情况下，我们可以使用pandas轻松对txt或csv等纯文本格式数据进行读写。

03

使用Wordbatch对Python分布式AI后端进行基准测试

在过去的几年里，Python已成为数据科学和人工智能的通用语言，所有使用Python作为主要界面语言的着名深度学习框架（Keras，Pytorch，MXNet）。与竞争语言相比，Python在DS和AI的几乎每个方面都可以与之竞争或超越：最新的机器学习算法及其高效实现（Scikit-Learn，LightGBM，XGBoost），数据处理和分析（Pandas，cuDF），高效的数值计算库（Numpy），PyPy，Numba），GPU计算（CuPY）和Web API编程（Flask，Celery）。

03

SQL on Hadoop性能对比－Hive、Spark SQL、Impala

Apache Hive数据仓库软件提供对存储在分布式中的大型数据集的查询和管理，它本身是建立在Apache Hadoop之上。Hive SQL代表的是以传统基于Mapreduce为核心的SQL语言。

01

你写的ML代码占多少内存？这件事很重要，但很多人还不懂

选自towardsdatascience 作者：Tirthajyoti Sarkar 机器之心编译编辑：蛋酱算法完美是重要的，但更重要的是成功部署，这篇文章能够帮助你了解有关代码内存占用的一切。在进行机器学习任务时，你需要学会使用代码快速检查模型的内存占用量。原因很简单，硬件资源是有限的，单个机器学习模块不应该占用系统的所有内存，这一点在边缘计算场景中尤其重要。比如，你写了一个很棒的机器学习程序，或者搭建了一个不错的神经网络模型，然后想在某些 Web 服务或 REST API 上部署模型。或者你是

01

Python处理大数据，推荐4款加速神器

在数据科学计算、机器学习、以及深度学习领域，Python 是最受欢迎的语言。Python 在数据科学领域，有非常丰富的包可以选择，numpy、scipy、pandas、scikit-learn、matplotlib。

01

Pandas高级教程——性能优化技巧

Pandas 是数据科学和分析领域中使用最广泛的库之一，但在处理大型数据集时，性能可能成为一个挑战。本篇博客将介绍一些高级技巧，帮助你优化 Pandas 操作，提高代码执行效率。

01

加速python科学计算的方法（二）

好久不见。有一年了。很久没有更推文了，我的错。额，进入正题吧。到了年底，很多App都会放出“你今年听了多少歌”、“你今年看了多少帖子”、“你今年剁手了多少次”等等的用户数据，并在其中进行较多的数据挖

更快更强！四种Python并行库批量处理nc数据

Dask、multiprocessing、ThreadPoolExecutor、和joblib都是Python中用于实现并行计算和任务调度的库或模块，各有其特点和应用场景：

01

pandas.DataFrame()入门

在数据分析和数据科学领域，pandas是一个非常强大和流行的Python库。它提供了高性能、易于使用的数据结构和数据分析工具，其中最重要的是DataFrame类。DataFrame是pandas中最常用的数据结构之一，它类似于电子表格或SQL中的表格。本文将介绍pandas.DataFrame()函数的基本用法，以帮助您入门使用pandas进行数据分析和处理。

01

原来你是这样的Pandas！！！

熟悉Pandas的同学会知道，Pandas相当于Python中的Excel，都是基于二维表的进行数据处理分析，不同的是，Pandas基于代码操作数据，Excel是图形化的分析工具。

01

（数据科学学习手札150）基于dask对geopandas进行并行加速

大家好我是费老师，geopandas作为我们非常熟悉的Python GIS利器，兼顾着高性能和易用性，特别是在其0.12.0版本开始使用全新的shapely2.0矢量计算后端后，性能表现更是一路狂飙。

03

重磅！你每天使用的NumPy登上了Nature!

数组编程为访问、操纵和操作向量、矩阵和高维数组数据提供了功能强大、紧凑且易于表达的语法。NumPy是Python语言的主要数组编程库。它在物理、化学、天文学、地球科学、生物学、心理学、材料科学、工程学，金融和经济学等领域的研究分析流程中起着至关重要的作用。例如，在天文学中，NumPy是用于发现引力波[1]和首次对黑洞成像[2]的软件栈的重要组成部分。本文对如何从一些基本的数组概念出发得到一种简单而强大的编程范式，以组织、探索和分析科学数据。NumPy是构建Python科学计算生态系统的基础。它是如此普遍，甚至在针对具有特殊需求对象的几个项目已经开发了自己的类似NumPy的接口和数组对象。由于其在生态系统中的中心地位，NumPy越来越多地充当此类数组计算库之间的互操作层，并且与其应用程序编程接口（API）一起，提供了灵活的框架来支持未来十年的科学计算和工业分析。

02

基于AIGC写作尝试：深入理解 Apache Arrow

在当前的数据驱动时代，大量的数据需要在不同系统和应用程序之间进行交换和共享。这些数据可能来自于不同的源头，如传感器、数据库、文件等，具有不同的格式、大小和结构；不同系统和编程语言的运行环境也可能存在差异，如操作系统、硬件架构等，进一步增加了数据交换的复杂度和难度。为了将这些数据有效地传输和处理，需要一个高性能的数据交换格式，以提高数据交换和处理的速度和效率。传统上，数据交换通常采用文本格式，如CSV、XML、JSON等，但它们存在解析效率低、存储空间占用大、数据类型限制等问题，对于大规模数据的传输和处理往往效果不佳。因此，需要一种高效的数据交换格式，可以快速地将数据从一个系统或应用程序传输到另一个系统或应用程序，并能够支持不同编程语言和操作系统之间的交互。

04

安利一个Python大数据分析神器！

对于Pandas运行速度的提升方法，之前已经介绍过很多回了，里面经常提及Dask，很多朋友没接触过可能不太了解，今天就推荐一下这个神器。

02

【原】Learning Spark (Python版) 学习笔记(三)----工作原理、调优与Spark SQL

周末的任务是更新Learning Spark系列第三篇，以为自己写不完了，但为了改正拖延症，还是得完成给自己定的任务啊 = =。这三章主要讲Spark的运行过程（本地+集群），性能调优以及Spark SQL相关的知识，如果对Spark不熟的同学可以先看看之前总结的两篇文章：【原】Learning Spark (Python版) 学习笔记(一)----RDD 基本概念与命令【原】Learning Spark (Python版) 学习笔记(二)----键值对、数据读取与保存、共享特性 #####我是

独家 | Python处理海量数据集的三种方法

作者：Georgia Deaconu 翻译：陈超校对：欧阳锦本文约1200字，建议阅读5分钟本文介绍了Python处理数据集的方法。作为一名数据科学家，我发现自己处理“大数据”的情况越来越多。我叫做大数据的是那些虽然不是很大，但是却足够让我的电脑处理到崩溃并且拖慢其他程序。图片来自 Mika Baumeister UNsplash 这个问题并不新鲜，且对于所有问题而言，从来没有一劳永逸的万能公式。最好的方法依赖于你的数据以及你应用的目的。然而，最流行的解决方法通常在以下描述的分类之中。 1. 通过优

03

使用Dask，SBERT SPECTRE和Milvus构建自己的ARXIV论文相似性搜索引擎

Arxiv.org大家一定都不陌生，学习数据科学的最佳方法之一是阅读Arxiv.org上的开源研究论文。但是即使对于经验丰富的研究人员来说，从大量的研究论文中找出想读的内容也是非常不容易的。Connected等论文之类的工具可以提供一些帮助，但是它们根据论文之间共享的引用和参考书目来衡量相似性的，这当然非常的好，并且也很简单，但是文档中文本的语义含义也是一个衡量相似度非常重要的特征。

02

多快好省地使用pandas分析大型数据集

pandas虽然是个非常流行的数据分析利器，但很多朋友在使用pandas处理较大规模的数据集的时候经常会反映pandas运算“慢”，且内存开销“大”。

04

python的中的numpy入门

在Python中，NumPy是一个强大的数值计算库。它提供了高性能的多维数组对象和各种计算函数，是进行科学计算和数据分析的重要工具。本文将介绍NumPy的基本概念以及如何使用它进行数组操作和数学运算。

02

【Python 数据科学】Dask.array：并行计算的利器

Dask是一个用于并行计算的强大工具，它旨在处理大规模数据集，将数据拆分成小块，并使用多核或分布式系统并行计算。Dask提供了两种主要的数据结构：Dask.array和Dask.dataframe。在本文中，我们将重点介绍Dask.array，它是Dask中用于处理多维数组数据的部分。

05

Spark vs Dask Python生态下的计算引擎

对于 Python 环境下开发的数据科学团队，Dask 为分布式分析指出了非常明确的道路，但是事实上大家都选择了 Spark 来达成相同的目的。Dask 是一个纯 Python 框架，它允许在本地或集群上运行相同的 Pandas 或 Numpy 代码。而 Spark 即时使用了 Apache 的 pySpark 包装器，仍然带来了学习门槛，其中涉及新的 API 和执行模型。鉴于以上陈述，我们下面将对比这两个技术方案。

03

Shopify 基于 Ray 的机器学习实践漫谈

今天看到一个比较有意思的架构图（图片来源于文章：https://shopify.engineering/merlin-shopify-machine-learning-platform）

02

2021 年年度最佳开源软件！

Svelte 是一种全新的构建用户界面的方法。传统框架如 React 和 Vue 在浏览器中需要做大量的工作，而 Svelte 将这些工作放到构建应用程序的编译阶段来处理。

03

Pandas vs Spark：数据读取篇

按照前文所述，本篇开始Pandas和Spark常用数据处理方法对比系列。数据处理的第一个环节当然是数据读取，所以本文就围绕两个框架常用的数据读取方法做以介绍和对比。

03

Pandas 加速150倍！

Pandas是Python中一个强大的数据处理和分析库，特别适用于结构化数据。它提供了易于使用的数据结构和数据分析工具，使得处理和分析数据变得更加便捷和高效。

01

资源 | Pandas on Ray：仅需改动一行代码，即可让Pandas加速四倍

选自UC Berkeley Rise Lab 作者：Devin Petersohn 机器之心编译参与：Nurhachu Null、路雪本文中，来自 UC Berkeley 的 Devin Petersohn 发布文章介绍了其参与的项目 Pandas on Ray，使用这款工具，无需对代码进行太多改动即可加速 Pandas，遇到大型数据集也不怕。作者还对 Pandas on Ray、Pandas 进行了对比评估。机器之心对此文进行了编译介绍。项目链接：https://github.com/ray-pro

03

NVIDIA的python-GPU算法生态︱ RAPIDS 0.10

随着新版本的推出，RAPIDS 迎来了其推出一周年纪念日。回顾所经历的一年，RAPIDS团队就社区对该项目的关心和支持表示衷心的感谢。此前，RAPIDS获得了其首个BOSSIE奖。非常感谢各位的支持！RAPIDS团队将继续推动端对端数据科学加快发展，达到新高度。

03

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭