如何用Dask写文件？

、

我正在使用Dask： import dask.dataframe as dd dsk = dd.read_parquet('/tmp/parquet/f1.parquet') 并且只需要将dsk写到一个TXT文件(整个内容)。

浏览 22提问于2019-03-05得票数 0

1回答

重置dask数据帧索引以允许连接

假设说dask不支持reset_index()的drop=True，我如何用不同的索引将2个数据帧连接在一起(如head()所见)

浏览 11提问于2016-08-27得票数 4

1回答

使用脚本中的Dask

、、

可以从python脚本运行dask吗？from dask.distributed import Client如所有教程中所述。但是，如果我将这些代码行写在script.py文件中并以python script.py方式执行它，它会立即崩溃。我发现了另一个选择，那就是使用MPI：from dask_mpi import initialize from dask<

浏览 0提问于2019-08-20得票数 2

3回答

如何指定dask用于临时文件的目录？

Dask似乎是在写/tmp文件夹。如何更改dask用于临时文件的文件夹？

浏览 11提问于2016-10-14得票数 8

回答已采纳

1回答

如何为达克纱指定YAML配置文件的位置

、

查看页面:纱线配置文件yarn.yaml文件需要放置在位置~/.config/dask/yarn.yaml或/etc/dask/yarn.yaml中。它是否也被放置在环境变量DASK_ROOT_CONFIG指定的位置(如 )？

浏览 2提问于2019-06-08得票数 0

回答已采纳

1回答

使用dask.DataFrame.to_parquet()编写大文件

、、、

我有一个.pq文件(大约2Gb)，其中我想使用dask更改列名。这一切为什么要发生？我原以为达斯克会反复这样做。如何用块编写目标文件？ ddf =

浏览 6提问于2021-05-14得票数 0

回答已采纳

1回答

如何在Dask中使用sort_index、groupby和应用函数？

、、、

我有一个应用于熊猫数据文件的功能，我正在考虑使用dask来提高性能。['col1', 'col2', 'col3'], myfunction我正在尝试将其转换为dask语法，并设法实现：from multiprocessing import cpu_count nCores = cpu_count

浏览 1提问于2018-12-13得票数 1

回答已采纳

2回答

dask能取代资源管理系统吗？

地球问候，允许作业之间的依

浏览 1提问于2018-01-16得票数 1

回答已采纳

2回答

强制dask* to_parquet写入单个文件*

、、、

使用dask.to_parquet(df, filename)时，将创建一个子文件夹filename，并将多个文件写入该文件夹，而pandas.to_parquet(df, filename)仅写入一个文件我可以使用dask的to_parquet (不使用compute()来创建pandas df)来只写一个文件吗？

浏览 34提问于2020-04-09得票数 2

回答已采纳

2回答

Python/Dask支持的分布式文件系统

、、、、

Dask支持哪些分布式文件系统？具体来说，您可以从哪个文件系统中读取dask.dataframe？从Dask文档中，我可以看到HDFS当然是受支持的。是否支持任何其他分布式文件系统，如Ceph等？我可以在这里找到一些关于支持其他文件系统的想法的讨论：，但没有最后的结论，只是HDFS比其他选项“更糟糕”。谢谢你的帮助!

浏览 3提问于2018-05-11得票数 3

回答已采纳

1回答

如何让DASK读取BSON文件？

、、

我需要读取mongo_db转储BSON文件。问题是解析mongo_db BSON文件并遍历所有文件。当迭代时，BSON需要找到BSON块的结尾，以分离每个文件块并防止将整个文件加载到内存中。pymongo bson模块可以做到这一点，但是只返回一个文件迭代器，这个迭代器不能用于例如:dask.bug.load_csv(文件).map(迭

浏览 2提问于2020-03-12得票数 0

2回答

dask.compute(...)应该是一个阻塞调用。然而，当我嵌套了dask.compute，并且内部的dask.compute执行I/O (如dask.dataframe.read_parquet)时，内部的and不是阻塞的。8个并发文件运行，因为inner_func (Inner_func).compute()应该是阻塞的。因此，最终可能会有多个inner_func(文件).compute()运行，有时它可能会导致内存不足错误。这是预期的行为吗？如果是

浏览 11提问于2017-08-10得票数 0

1回答

通过读取Python的dask模块中的pickle文件来创建dask数据帧

、

当我尝试通过读取pickle文件来创建dask数据帧时，我得到了一个错误ds_df = dd.read_pickle("D:\test.pickleAttributeError: 'module' object has no attribute 'read_pickle' 在大熊猫身上，它一如既往地成功了所以，如果我在这里或者在dask</e

浏览 1提问于2015-12-14得票数 7

1回答

DASK dataframe.to_csv将文件存储在worker上，而不是本地

、

它们分别从dask-scheduler和dask-worker tcp://localhost:8786开始。我正在从本地计算机连接到调度程序。将结果保存到文件时出现问题。当按照here中的示例运行时： import daskif not os.path.exists('data'):df = dask.datasets.timeseries相反，这些文件保存在

浏览 25提问于2020-03-27得票数 1

回答已采纳

1回答

如何避免将dask任务内部任务提交给主调度程序

、

文档显示，dask.compute在dask中的默认行为是在主调度程序上启动任务。对于这个工作人员，我使用一台多核机器，但只为dask工作者保留了一个线程。还有其他方法可以在机器上单独运行二进制文件，并通过任

浏览 5提问于2020-02-11得票数 1

回答已采纳

1回答

如何将大型spark数据帧(5M行)/csv文件拆分成每个数据帧具有相同标题的区块(优化方案)

、、、、

我有一个很大的csv文件(5 5GB)，其中包含大约50M行。我想让更小的块csv(~1M行)从原始的csv文件。我尝试了下面的方法来分块，但花了很多时间来执行分块：data = dask.dataframe.read_csv('test.csv我可以成功地从pyspark读取csv，但不能为每个块生成具有相同标题的块(Dataframe)，因此，我可以将每个块

浏览 1提问于2020-09-02得票数 0

1回答

使用dask将拼花文件分割成较小的块

、、

我正试图用下面的代码来使用DASK来分割一个拼花文件df = pd.read_parquet(dataset_path, chunksize="100MB")pd.to_parquet(df,output_path) 我输入的只有一个物理文件，即file.parquet这个脚本的输出也只有一个文件，即part.0.parquet。

浏览 2提问于2020-01-23得票数 3

回答已采纳

1回答

.join在dataframes中的结果似乎取决于该方法，生成了dataframe

、、

在将join应用于.from_delayed方法生成的dask数据文件时，我得到了意想不到的结果。我想通过下面的示例演示这一点，该示例由三个部分组成。加入他们，如(1) import dask.dataframe # functions for

浏览 0提问于2016-07-17得票数 2

回答已采纳

1回答

Pandas read_csv大文件(50)问题

、

我正试图通过Pandas.read_csv打开一个巨大的csv文件(大约50 to )。我看到了另一个问题，解决方案是使用块，但这对我来说不是一个好方法。这个文件包含了从95年到现在的大量数据(我不知道有多少)。实际上，我只需要使用可能允许我读取该文件的结尾行(例如2010年)。非常感谢您的支持

浏览 10提问于2020-05-28得票数 0

回答已采纳

2回答

Ubuntu 16.04上dask分布式调度程序和工作人员的自动启动

、、、

我正在考虑不同的方法来自动启动和控制dask分布式调度程序和Ubuntu16.04上的工作人员。重新加载配置的命令也是有用的，但是，我不确定如何使Python重新导入模块，以及它是否比重新启动进程更简单。看起来目前不可能通过运行dask-scheduler或dask-worker命令来停止调度程序/工作人员，不是吗？我没有找到任何相关的命令行开关。另一种选择是

浏览 1提问于2016-09-08得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

重置dask数据帧索引以允许连接

使用脚本中的Dask

如何指定dask用于临时文件的目录？

如何为达克纱指定YAML配置文件的位置

使用dask.DataFrame.to_parquet()编写大文件

如何在Dask中使用sort_index、groupby和应用函数？

dask能取代资源管理系统吗？

强制dask* to_parquet写入单个文件*

Python/Dask支持的分布式文件系统

如何让DASK读取BSON文件？

嵌套的dask.compute不阻塞

通过读取Python的dask模块中的pickle文件来创建dask数据帧

DASK dataframe.to_csv将文件存储在worker上，而不是本地

如何避免将dask任务内部任务提交给主调度程序

如何将大型spark数据帧(5M行)/csv文件拆分成每个数据帧具有相同标题的区块(优化方案)

使用dask将拼花文件分割成较小的块

.join在dataframes中的结果似乎取决于该方法，生成了dataframe

Pandas read_csv大文件(50)问题

Ubuntu 16.04上dask分布式调度程序和工作人员的自动启动

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐