腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如
何用
Dask
写
文件
?
python
、
dask
我正在使用
Dask
: import
dask
.dataframe as dd dsk = dd.read_parquet('/tmp/parquet/f1.parquet') 并且只需要将dsk写到一个TXT
文件
(整个内容)。
浏览 22
提问于2019-03-05
得票数 0
1
回答
重置
dask
数据帧索引以允许连接
dask
假设说
dask
不支持reset_index()的drop=True,我如
何用
不同的索引将2个数据帧连接在一起(
如
head()所见)
浏览 11
提问于2016-08-27
得票数 4
1
回答
使用脚本中的
Dask
python-3.x
、
dask
、
dask-distributed
可以从python脚本运行
dask
吗?from
dask
.distributed import Client
如
所有教程中所述。但是,如果我将这些代码行写在script.py
文件
中并以python script.py方式执行它,它会立即崩溃。我发现了另一个选择,那就是使用MPI:from
dask
_mpi import initialize from
dask<
浏览 0
提问于2019-08-20
得票数 2
3
回答
如何指定
dask
用于临时
文件
的目录?
dask
Dask
似乎是在
写
/tmp
文件
夹。如何更改
dask
用于临时
文件
的
文件
夹?
浏览 11
提问于2016-10-14
得票数 8
回答已采纳
1
回答
如何为达克纱指定YAML配置
文件
的位置
python
、
dask
查看页面:纱线配置
文件
yarn.yaml
文件
需要放置在位置~/.config/
dask
/yarn.yaml或/etc/
dask
/yarn.yaml中。它是否也被放置在环境变量
DASK
_ROOT_CONFIG指定的位置(
如
)?
浏览 2
提问于2019-06-08
得票数 0
回答已采纳
1
回答
使用
dask
.DataFrame.to_parquet()编写大
文件
python
、
pandas
、
dask
、
parquet
我有一个.pq
文件
(大约2Gb),其中我想使用
dask
更改列名。这一切为什么要发生?我原以为达斯克会反复这样做。如
何用
块编写目标
文件
? ddf =
浏览 6
提问于2021-05-14
得票数 0
回答已采纳
1
回答
如何在
Dask
中使用sort_index、groupby和应用函数?
python
、
pandas
、
apply
、
dask
我有一个应用于熊猫数据
文件
的功能,我正在考虑使用
dask
来提高性能。['col1', 'col2', 'col3'], myfunction我正在尝试将其转换为
dask
语法,并设法实现:from multiprocessing import cpu_count nCores = cpu_count
浏览 1
提问于2018-12-13
得票数 1
回答已采纳
2
回答
dask
能取代资源管理系统吗?
dask
地球问候, 允许作业之间的依
浏览 1
提问于2018-01-16
得票数 1
回答已采纳
2
回答
强制
dask
to_parquet写入单个
文件
python
、
pandas
、
dask
、
parquet
使用
dask
.to_parquet(df, filename)时,将创建一个子
文件
夹filename,并将多个
文件
写入该
文件
夹,而pandas.to_parquet(df, filename)仅写入一个
文件
我可以使用
dask
的to_parquet (不使用compute()来创建pandas df)来只
写
一个
文件
吗?
浏览 34
提问于2020-04-09
得票数 2
回答已采纳
2
回答
Python/
Dask
支持的分布式
文件
系统
python
、
hdfs
、
dask
、
ceph
、
distributed-filesystem
Dask
支持哪些分布式
文件
系统?具体来说,您可以从哪个
文件
系统中读取
dask
.dataframe?从
Dask
文档中,我可以看到HDFS当然是受支持的。是否支持任何其他分布式
文件
系统,
如
Ceph等?我可以在这里找到一些关于支持其他
文件
系统的想法的讨论:,但没有最后的结论,只是HDFS比其他选项“更糟糕”。 谢谢你的帮助!
浏览 3
提问于2018-05-11
得票数 3
回答已采纳
1
回答
如何让
DASK
读取BSON
文件
?
python-3.x
、
dask
、
bson
我需要读取mongo_db转储BSON
文件
。问题是解析mongo_db BSON
文件
并遍历所有
文件
。当迭代时,BSON需要找到BSON块的结尾,以分离每个
文件
块并防止将整个
文件
加载到内存中。pymongo bson模块可以做到这一点,但是只返回一个
文件
迭代器,这个迭代器不能用于例如:
dask
.bug.load_csv(
文件
).map(迭
浏览 2
提问于2020-03-12
得票数 0
2
回答
嵌套的
dask
.compute不阻塞
python
、
dask
、
dask-distributed
、
dask-delayed
dask
.compute(...)应该是一个阻塞调用。然而,当我嵌套了
dask
.compute,并且内部的
dask
.compute执行I/O (
如
dask
.dataframe.read_parquet)时,内部的and不是阻塞的。8个并发
文件
运行,因为inner_func (Inner_func).compute()应该是阻塞的。因此,最终可能会有多个inner_func(
文件
).compute()运行,有时它可能会导致内存不足错误。 这是预期的行为吗?如果是
浏览 11
提问于2017-08-10
得票数 0
1
回答
通过读取Python的
dask
模块中的pickle
文件
来创建
dask
数据帧
python
、
dask
当我尝试通过读取pickle
文件
来创建
dask
数据帧时,我得到了一个错误ds_df = dd.read_pickle("D:\test.pickleAttributeError: 'module' object has no attribute 'read_pickle' 在大熊猫身上,它一
如
既往地成功了所以,如果我在这里或者在
dask</e
浏览 1
提问于2015-12-14
得票数 7
1
回答
DASK
dataframe.to_csv将
文件
存储在worker上,而不是本地
dask
、
dask-distributed
它们分别从
dask
-scheduler和
dask
-worker tcp://localhost:8786开始。 我正在从本地计算机连接到调度程序。将结果保存到
文件
时出现问题。当按照here中的示例运行时: import
dask
if not os.path.exists('data'):df =
dask
.datasets.timeseries相反,这些
文件
保存在
浏览 25
提问于2020-03-27
得票数 1
回答已采纳
1
回答
如何避免将
dask
任务内部任务提交给主调度程序
dask
、
dask-distributed
文档显示,
dask
.compute在
dask
中的默认行为是在主调度程序上启动任务。对于这个工作人员,我使用一台多核机器,但只为
dask
工作者保留了一个线程。还有其他方法可以在机器上单独运行二进制
文件
,并通过任
浏览 5
提问于2020-02-11
得票数 1
回答已采纳
1
回答
如何将大型spark数据帧(5M行)/csv
文件
拆分成每个数据帧具有相同标题的区块(优化方案)
python
、
pandas
、
csv
、
pyspark
、
dask
我有一个很大的csv
文件
(5 5GB),其中包含大约50M行。我想让更小的块csv(~1M行)从原始的csv
文件
。我尝试了下面的方法来分块,但花了很多时间来执行分块:data =
dask
.dataframe.read_csv('test.csv我可以成功地从pyspark读取csv,但不能为每个块生成具有相同标题的块(Dataframe),因此,我可以将每个块
浏览 1
提问于2020-09-02
得票数 0
1
回答
使用
dask
将拼花
文件
分割成较小的块
python
、
data-science
、
dask
我正试图用下面的代码来使用
DASK
来分割一个拼花
文件
df = pd.read_parquet(dataset_path, chunksize="100MB")pd.to_parquet(df,output_path) 我输入的只有一个物理
文件
,即file.parquet这个脚本的输出也只有一个
文件
,即part.0.parquet。
浏览 2
提问于2020-01-23
得票数 3
回答已采纳
1
回答
.join在dataframes中的结果似乎取决于该方法,生成了dataframe
python
、
pandas
、
dask
在将join应用于.from_delayed方法生成的
dask
数据
文件
时,我得到了意想不到的结果。我想通过下面的示例演示这一点,该示例由三个部分组成。加入他们,
如
(1) import
dask
.dataframe # functions for
浏览 0
提问于2016-07-17
得票数 2
回答已采纳
1
回答
Pandas read_csv大
文件
(50)问题
pandas
、
csv
我正试图通过Pandas.read_csv打开一个巨大的csv
文件
(大约50 to )。我看到了另一个问题,解决方案是使用块,但这对我来说不是一个好方法。这个
文件
包含了从95年到现在的大量数据(我不知道有多少)。实际上,我只需要使用可能允许我读取该
文件
的结尾行(例如2010年)。非常感谢您的支持
浏览 10
提问于2020-05-28
得票数 0
回答已采纳
2
回答
Ubuntu 16.04上
dask
分布式调度程序和工作人员的自动启动
python-2.7
、
systemd
、
ubuntu-16.04
、
dask
我正在考虑不同的方法来自动启动和控制
dask
分布式调度程序和Ubuntu16.04上的工作人员。重新加载配置的命令也是有用的,但是,我不确定如何使Python重新导入模块,以及它是否比重新启动进程更简单。看起来目前不可能通过运行
dask
-scheduler或
dask
-worker命令来停止调度程序/工作人员,不是吗?我没有找到任何相关的命令行开关。另一种选择是
浏览 1
提问于2016-09-08
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
处理数据,大数据甚至更大数据的 17 种策略
重构代码,让他更灵活更强大
如何用AI写论文?这个方法值得安利
像花书一样排版:Ian Goodfellow亲授的高级LaTex教程
像“花书”一样排版:Ian Goodfellow“亲授”的高级LaTex教程
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券