腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如
何用
Dask
写
文件
?
、
我正在使用
Dask
: import
dask
.dataframe as dd dsk = dd.read_parquet('/tmp/parquet/f1.parquet') 并且只需要将dsk写到一个TXT
文件
(整个内容)。
浏览 22
提问于2019-03-05
得票数 0
1
回答
重置
dask
数据帧索引以允许连接
假设说
dask
不支持reset_index()的drop=True,我如
何用
不同的索引将2个数据帧连接在一起(
如
head()所见)
浏览 11
提问于2016-08-27
得票数 4
1
回答
使用脚本中的
Dask
、
、
可以从python脚本运行
dask
吗?from
dask
.distributed import Client
如
所有教程中所述。但是,如果我将这些代码行写在script.py
文件
中并以python script.py方式执行它,它会立即崩溃。我发现了另一个选择,那就是使用MPI:from
dask
_mpi import initialize from
dask<
浏览 0
提问于2019-08-20
得票数 2
3
回答
如何指定
dask
用于临时
文件
的目录?
Dask
似乎是在
写
/tmp
文件
夹。如何更改
dask
用于临时
文件
的
文件
夹?
浏览 11
提问于2016-10-14
得票数 8
回答已采纳
1
回答
如何为达克纱指定YAML配置
文件
的位置
、
查看页面:纱线配置
文件
yarn.yaml
文件
需要放置在位置~/.config/
dask
/yarn.yaml或/etc/
dask
/yarn.yaml中。它是否也被放置在环境变量
DASK
_ROOT_CONFIG指定的位置(
如
)?
浏览 2
提问于2019-06-08
得票数 0
回答已采纳
1
回答
使用
dask
.DataFrame.to_parquet()编写大
文件
、
、
、
我有一个.pq
文件
(大约2Gb),其中我想使用
dask
更改列名。这一切为什么要发生?我原以为达斯克会反复这样做。如
何用
块编写目标
文件
? ddf =
浏览 6
提问于2021-05-14
得票数 0
回答已采纳
1
回答
如何在
Dask
中使用sort_index、groupby和应用函数?
、
、
、
我有一个应用于熊猫数据
文件
的功能,我正在考虑使用
dask
来提高性能。['col1', 'col2', 'col3'], myfunction我正在尝试将其转换为
dask
语法,并设法实现:from multiprocessing import cpu_count nCores = cpu_count
浏览 1
提问于2018-12-13
得票数 1
回答已采纳
2
回答
dask
能取代资源管理系统吗?
地球问候, 允许作业之间的依
浏览 1
提问于2018-01-16
得票数 1
回答已采纳
2
回答
强制
dask
to_parquet写入单个
文件
、
、
、
使用
dask
.to_parquet(df, filename)时,将创建一个子
文件
夹filename,并将多个
文件
写入该
文件
夹,而pandas.to_parquet(df, filename)仅写入一个
文件
我可以使用
dask
的to_parquet (不使用compute()来创建pandas df)来只
写
一个
文件
吗?
浏览 34
提问于2020-04-09
得票数 2
回答已采纳
2
回答
Python/
Dask
支持的分布式
文件
系统
、
、
、
、
Dask
支持哪些分布式
文件
系统?具体来说,您可以从哪个
文件
系统中读取
dask
.dataframe?从
Dask
文档中,我可以看到HDFS当然是受支持的。是否支持任何其他分布式
文件
系统,
如
Ceph等?我可以在这里找到一些关于支持其他
文件
系统的想法的讨论:,但没有最后的结论,只是HDFS比其他选项“更糟糕”。 谢谢你的帮助!
浏览 3
提问于2018-05-11
得票数 3
回答已采纳
1
回答
如何让
DASK
读取BSON
文件
?
、
、
我需要读取mongo_db转储BSON
文件
。问题是解析mongo_db BSON
文件
并遍历所有
文件
。当迭代时,BSON需要找到BSON块的结尾,以分离每个
文件
块并防止将整个
文件
加载到内存中。pymongo bson模块可以做到这一点,但是只返回一个
文件
迭代器,这个迭代器不能用于例如:
dask
.bug.load_csv(
文件
).map(迭
浏览 2
提问于2020-03-12
得票数 0
2
回答
嵌套的
dask
.compute不阻塞
、
、
、
dask
.compute(...)应该是一个阻塞调用。然而,当我嵌套了
dask
.compute,并且内部的
dask
.compute执行I/O (
如
dask
.dataframe.read_parquet)时,内部的and不是阻塞的。8个并发
文件
运行,因为inner_func (Inner_func).compute()应该是阻塞的。因此,最终可能会有多个inner_func(
文件
).compute()运行,有时它可能会导致内存不足错误。 这是预期的行为吗?如果是
浏览 11
提问于2017-08-10
得票数 0
1
回答
通过读取Python的
dask
模块中的pickle
文件
来创建
dask
数据帧
、
当我尝试通过读取pickle
文件
来创建
dask
数据帧时,我得到了一个错误ds_df = dd.read_pickle("D:\test.pickleAttributeError: 'module' object has no attribute 'read_pickle' 在大熊猫身上,它一
如
既往地成功了所以,如果我在这里或者在
dask</e
浏览 1
提问于2015-12-14
得票数 7
1
回答
DASK
dataframe.to_csv将
文件
存储在worker上,而不是本地
、
它们分别从
dask
-scheduler和
dask
-worker tcp://localhost:8786开始。 我正在从本地计算机连接到调度程序。将结果保存到
文件
时出现问题。当按照here中的示例运行时: import
dask
if not os.path.exists('data'):df =
dask
.datasets.timeseries相反,这些
文件
保存在
浏览 25
提问于2020-03-27
得票数 1
回答已采纳
1
回答
如何避免将
dask
任务内部任务提交给主调度程序
、
文档显示,
dask
.compute在
dask
中的默认行为是在主调度程序上启动任务。对于这个工作人员,我使用一台多核机器,但只为
dask
工作者保留了一个线程。还有其他方法可以在机器上单独运行二进制
文件
,并通过任
浏览 5
提问于2020-02-11
得票数 1
回答已采纳
1
回答
如何将大型spark数据帧(5M行)/csv
文件
拆分成每个数据帧具有相同标题的区块(优化方案)
、
、
、
、
我有一个很大的csv
文件
(5 5GB),其中包含大约50M行。我想让更小的块csv(~1M行)从原始的csv
文件
。我尝试了下面的方法来分块,但花了很多时间来执行分块:data =
dask
.dataframe.read_csv('test.csv我可以成功地从pyspark读取csv,但不能为每个块生成具有相同标题的块(Dataframe),因此,我可以将每个块
浏览 1
提问于2020-09-02
得票数 0
1
回答
使用
dask
将拼花
文件
分割成较小的块
、
、
我正试图用下面的代码来使用
DASK
来分割一个拼花
文件
df = pd.read_parquet(dataset_path, chunksize="100MB")pd.to_parquet(df,output_path) 我输入的只有一个物理
文件
,即file.parquet这个脚本的输出也只有一个
文件
,即part.0.parquet。
浏览 2
提问于2020-01-23
得票数 3
回答已采纳
1
回答
.join在dataframes中的结果似乎取决于该方法,生成了dataframe
、
、
在将join应用于.from_delayed方法生成的
dask
数据
文件
时,我得到了意想不到的结果。我想通过下面的示例演示这一点,该示例由三个部分组成。加入他们,
如
(1) import
dask
.dataframe # functions for
浏览 0
提问于2016-07-17
得票数 2
回答已采纳
1
回答
Pandas read_csv大
文件
(50)问题
、
我正试图通过Pandas.read_csv打开一个巨大的csv
文件
(大约50 to )。我看到了另一个问题,解决方案是使用块,但这对我来说不是一个好方法。这个
文件
包含了从95年到现在的大量数据(我不知道有多少)。实际上,我只需要使用可能允许我读取该
文件
的结尾行(例如2010年)。非常感谢您的支持
浏览 10
提问于2020-05-28
得票数 0
回答已采纳
2
回答
Ubuntu 16.04上
dask
分布式调度程序和工作人员的自动启动
、
、
、
我正在考虑不同的方法来自动启动和控制
dask
分布式调度程序和Ubuntu16.04上的工作人员。重新加载配置的命令也是有用的,但是,我不确定如何使Python重新导入模块,以及它是否比重新启动进程更简单。看起来目前不可能通过运行
dask
-scheduler或
dask
-worker命令来停止调度程序/工作人员,不是吗?我没有找到任何相关的命令行开关。另一种选择是
浏览 1
提问于2016-09-08
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何用Markdown写论文?
如何用 Python写Alfred Workflow
如何用VSCode愉快的写Python
如何用 Python写Excel中Vlookup 函数?
怎么写伪静态文件
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券