如何在dask dataframe中设置(计算)分区？_对Dask dataframe中的现有索引设置分区_如何在panda dataframe和dask dataframe中只计算选定的列？ - 腾讯云开发者社区

、、

我试图获取一个DataFrame ddf并返回一个与ddf相同的新DataFrame，除非ddf有一个空分区，它应该指向最近的非空组件。例如，如果ddf有[P1, P2, P3, P4, P5, P6]分区，其中P2、P3和P6为空Pandas DataFrames，那么它将返回以下Dask DataFrame：[P1, P1, P1,HighLevelGraph.from_collections(name, dsk, dependencies=[ddf]) return new_dd_

浏览 0提问于2019-05-29得票数 1

回答已采纳

1回答

选择子集后将其转换为pandas时，Dask dataframe内存不足

、、、、

import dask.dataframe as dd 现在我需要其中一列的值计数和归一化值计数： counts % int64 float64现在，在其中一列中，我希望所有记录的值都为null，然后执行与前面相同的操作，即va

浏览 1提问于2021-09-23得票数 0

3回答

如何将Dask.DataFrame转换为pd.DataFrame？

、、

如何将生成的dask.DataFrame转换为pandas.DataFrame (假设我已经完成了繁重的任务，只想将sklearn应用到聚合结果中)？

浏览 27提问于2016-08-18得票数 43

回答已采纳

2回答

如何在dask dataframe中设置(计算)分区？

、

从拼图或csv文件加载数据时，具有无分区。DASK文档没有关于如何设置和计算此...的信息。如何正确设置和计算DASK数据帧的划分？

浏览 14提问于2019-06-05得票数 2

1回答

为什么默认情况下dask ()只检查第一个分区？

、、、

dask版本1.1.4过滤后的dask.dataframe似乎将行保留在原始分区中。如果一个分区的所有行都被过滤掉，那么分区将保持为空，但仍保留在生成的dask.dataframe中。如果len(第一个分区)<n，那么head(n)就不会往外看，并错过行。import d

浏览 0提问于2019-07-03得票数 1

回答已采纳

1回答

将列表指定为Dask-Dataframe列

、、

我有一个dask-dataframe，并使用一些列来处理熊猫date_range进程，它将创建如下列表：在那之后，我想像熊猫一样，把列表分配到列中：但

浏览 0提问于2021-08-16得票数 1

1回答

在单个列上执行操作时，dask是否加载所有列？

每当我使用dask数据帧进行计算时，我都会确保只加载必要的列，以便能够节省计算速度。为什么当我加载整个

浏览 1提问于2019-03-14得票数 2

1回答

dask dataframe:来自分区的生成器

、、、、

我想知道是否有可能将dask对象转换为生成器。具体地说，是否可以使用dask数据帧复制以下pandas-based生成器，将每个分区转换为生成器：import dask.dataframe as dd ddf = dd.from_pandas(df, npartitions=3)

浏览 7提问于2021-07-09得票数 1

2回答

在dataframes中，“计算()”背后的逻辑是什么？

、、、

我很难理解何时什么时候不要在Dask数据仓库中使用compute()。我通常通过添加/删除compute()来编写代码，直到代码生效，但这是非常容易出错的。我应该如何在达斯克中使用compute()？

浏览 2提问于2021-05-23得票数 1

回答已采纳

3回答

`set_index`可以将一个索引放入多个分区吗？

、、、

从经验上看，每当您在dataframe上使用set_index时，Dask总是会将具有相同索引的行放入单个分区中，即使它会导致严重不平衡的分区。下面是一个演示：import dask.dataframe as dd ddf = dd.from_

浏览 1提问于2021-10-14得票数 6

回答已采纳

1回答

将Dask* DataFrame的特定分区保存到地板上*

、、

我有这个非常大的dataframe (大约5,000,000行)，我已经将它分割成20个dask分区。有没有办法保存每个分区，一次一个。Dask版本= 2022.01.1拼花引擎和版本= ..。

浏览 3提问于2022-08-04得票数 0

1回答

按行块处理dask数据帧

、、

我有一个使用某个blocksize的区块创建的dask数据帧 df = dd.read_csv(filepath, blocksize = blocksize * 1024 * 1024) 我可以像这样分块处理它not_so_trivial_func(arg_data)result = sum(partial_results) 有没有可能用dask我知道由于懒惰的评估，不可能使用iloc，但是否可以以不同的方式对数据帧进行分区？如果不是，使用dask

浏览 11提问于2021-01-22得票数 1

回答已采纳

1回答

dask索引的行为不像列(也不像pandas中的那样)

、

在这个bug报告中：https://github.com/dask/dask/issues/8319我有一个解决以下问题的方法。由于这似乎超出了该bug报告的范围，因此我将在这里询问最初的问题： import pandas as pddf = pd.DataFrameversion ddf = dask.dataframe</

浏览 25提问于2021-11-02得票数 0

回答已采纳

1回答

使用从拼花文件创建的dataframe时内存使用量过高

、

1)因此，我的问题是，为什么这些简单的操作会使用Dask Dataframe来破坏内存的使用，但是当我使用Pandas Dataframe将所有内容加载到内存中时却能很好地工作？我注意到了npartitions=1，我在文档中看到read_parquet“将Parquet数据目录读取到Dask.dataframe中，每个分区只有一个文件”。在我的例子中，听起来我正在失去拥有多个分区的所有并行化功能，但是Das

浏览 0提问于2018-12-24得票数 6

回答已采纳

1回答

如何为超过1亿行的数据库表修复Dask内存错误

、、

我正在用dask.dataframe.read_sql_table连接到Oracle数据库，尝试跨越一些较大的表，其中一些表有超过1亿行，然后将它们以拼花格式写到s3桶中。但是，即使我试图指定Dask建议的分区数，我仍然会遇到内存错误。我读过一些关于dask.distributed的文章，但不知道如何在dask.dataframe.read_sql_table中使用它。如果有人对如何使用dask.datafr

浏览 2提问于2019-11-18得票数 0

回答已采纳

1回答

N分区是否会影响dask.dataframe.head()的结果？

、、

当运行以下代码时，dask.dataframe.head()的结果取决于n分区：import pandas as pdddf = dd.from_pandas(df, npartitions = 3)这将产生以下结果：0 1 2 但是，当我将n分区设置为1或2时，我得到了预期的结果：

浏览 1提问于2016-07-09得票数 8

回答已采纳

1回答

如何识别重复(意外)`repartition split-repartition merge`任务的原因？

、

在Dask通过ddf.visualize()输出的任务图中，我看到了许多*-repartition-split-repartition-merge任务，其中的*可以是join、rename或我从应用程序中识别的其他任务我试图确定这些数据是从哪里来的，它们是否会对性能产生影响(我想象不断地重新划分/拆分/合并数据是有成本的，而不会直接帮助我的计算目标)，如果是的话，我如何删除它们。在distributed提供的performance_report中，它们似乎占据了计算时间。查看D

浏览 9提问于2020-03-06得票数 1

回答已采纳

3回答

将一个大型Dask* dataframe与一个小型Pandas dataframe合并*

、、

下面的示例是：，我试图将一个~70 as的Dask数据帧与我作为Pandas数据frame加载的~24 as数据帧合并。合并位于两个列A和B上，我没有设置任何索引：from dask.diagnostics import ProgressBar large_df = dd.read_csv(dataframe2) #as

浏览 16提问于2016-09-13得票数 26

1回答

如何使用dask/dask-cudf将单个大型拼图文件读入多个分区？

、

我正在尝试使用dask_cudf/dask读取单个大的parquet文件(size > gpu_size)，但它当前正在将其读取到单个分区中，我猜测这是从文档字符串推断出的预期行为： dask.dataframe.read_parquetstorage_options=None, engine='auto', gather_statistics=None, **kwargs): Read a Parquet file into a D

浏览 18提问于2019-10-18得票数 3

回答已采纳

2回答

如何处理大于内存的数据集？

、、

但在同一页的后面：一只DataFrame是由几只记忆中的熊猫DataFrames组成的，它们沿着这个索引分离开来。Dask是否顺序地从磁盘读取不同的DataFrame分区并执行计算以适应内存？它是否在需要时将一些分区溢出到磁盘？通常，Dask如何管理数据的内存<->磁盘IO以允许大于内存的数据分析？我试着在10M MovieLens数据集上执行一些基本的计算(例如平均评分)，而我的笔记本电脑(8GBRAM)开始交换数据

浏览 6提问于2016-03-28得票数 7

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

HighLevelGraph短路计算

选择子集后将其转换为pandas时，Dask dataframe内存不足

如何将Dask.DataFrame转换为pd.DataFrame？

如何在dask dataframe中设置(计算)分区？

为什么默认情况下dask ()只检查第一个分区？

将列表指定为Dask-Dataframe列

在单个列上执行操作时，dask是否加载所有列？

dask dataframe:来自分区的生成器

在dataframes中，“计算()”背后的逻辑是什么？

`set_index`可以将一个索引放入多个分区吗？

将Dask* DataFrame的特定分区保存到地板上*

按行块处理dask数据帧

dask索引的行为不像列(也不像pandas中的那样)

使用从拼花文件创建的dataframe时内存使用量过高

如何为超过1亿行的数据库表修复Dask内存错误

N分区是否会影响dask.dataframe.head()的结果？

如何识别重复(意外)`repartition split-repartition merge`任务的原因？

将一个大型Dask* dataframe与一个小型Pandas dataframe合并*

如何使用dask/dask-cudf将单个大型拼图文件读入多个分区？

如何处理大于内存的数据集？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐