腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在对
单个
数据
帧
进行
计算
后
,
使用
Dask
返回
多个
数据
帧
、
、
有没有办法获取一个DataFrame (最初在Pandas中,用不同的随机种子对其
进行
采样,并
使用
Dask
返回
几个
数据
帧
(每个随机种子一个)。我对
Dask
非常原始的理解是,我可以获取一个Dataframe,拆分它,然后在它上面
进行
计算
,但我想知道我是否可以
使用
Dask
来解决这个问题。
浏览 19
提问于2019-06-28
得票数 0
回答已采纳
2
回答
使用
dask
合并csv文件
、
我正在
使用
dask
读取5个大的(>1 GB) csv文件,并将它们合并(类似SQL)到一个
dask
数据
帧
中。现在,我正在尝试将合并
后
的结果写入
单个
csv。我在
dask
dataframe上
使用
compute()将
数据
收集到
单个
df中,然后调用to_csv。但是,compute()在读取所有分区的
数据
时速度很慢。我尝试在
dask
df上直接调用to_csv,它
浏览 5
提问于2017-03-23
得票数 4
1
回答
任务: client.persist和client.compute之间的区别
、
我对client.persist()和client.compute()之间的区别感到困惑,它们似乎(在某些情况下)都开始了我的
计算
,并且都
返回
异步对象,但在我的简单示例中并非如此:from
dask
.distributed import Clientclient = Client() return argsx in range(1000)] x2 = client.p
浏览 3
提问于2017-01-23
得票数 22
回答已采纳
1
回答
Pandas-
Dask
DataFrame Apply函数,
返回
列表
、
、
、
我正在尝试向
dask
数据
帧
添加
多个
列,以存储apply函数的结果。这将是我关于堆栈溢出的第一个问题,我希望这个问题不会太长!'weather‘创建了
dask
数据
帧
,然后将函数'dfFunc’应用到
数据
帧
的每一行。这段代码运行得很好,因为输出'res‘是原始的天气
数据
帧
,其中有一个名为'NewCol1’的新列。我的困惑在于,如果我希望我的函数
返回</em
浏览 5
提问于2018-10-11
得票数 1
1
回答
尽管我
使用
的是建议的方法,
Dask
还是输出了
使用
client.scatter的警告
、
、
、
在
dask
distributed中,我收到了以下警告,这是我意想不到的:import pandas
dask
_df1,2,3,4,5]*1000}), npartition
浏览 9
提问于2018-02-22
得票数 6
回答已采纳
0
回答
Dask
图的执行和内存
使用
、
、
我正在
dask
中构建一个非常大的DAG,以提交给分布式调度器,在分布式调度器中,节点操作
数据
帧
,而
数据
帧
本身可能非常大。一种模式是,我有大约50-60个函数,用于加载
数据
和构造pandas
数据
帧
,每个
数据
帧
大小为几百MB (并且逻辑上表示
单个
表的分区)。我想将这些连接到图中下游节点的
单个
dask
数据
帧
中,同时最小化
数据<
浏览 6
提问于2017-06-07
得票数 4
1
回答
合并两个大型
数据
帧
、
、
、
我有两个大
数据
帧
:一个包含3M行,另一个包含2M行第一个
数据
帧
: sacc_id$ id$ creation_date0 001A000000hAUn8IAG我在这里的一些讨论中看到
Dask
可以提
浏览 16
提问于2019-01-31
得票数 0
1
回答
存储在dataframe中的
计算
dask
延迟对象
、
、
、
我正在寻找最好的方法来
计算
存储在
数据
帧
中的许多
dask
delayed指令。我不确定是否应该将pandas
数据
帧
转换为包含delayed对象的
dask
数据
帧
,或者是否应该对pandas
数据
帧
的所有值调用compute调用。enr.append(delayed(hypergeom.sf)(k=k, M=10000, n=20, N=N, loc=0))如果不对
浏览 10
提问于2019-08-10
得票数 0
1
回答
块大小未知的示例
dask
数据
帧
、
、
我正在尝试读取一个大型.parquet作为
dask
数据
帧
,并对其
进行
采样:sample_ddf = ddf.sample0.03)ValueError: Arrays chunk sizes are unknown: (nan,) ddf.to_<e
浏览 29
提问于2021-05-21
得票数 0
1
回答
并行化
Dask
聚合
、
、
、
、
基本上,当我进入这个聚合时,我的集群只
使用
我的一个线程,这对性能不是很好。我正
在对
16k行的150
多个
属性(大部分是分类
数据
)
进行
计算
,我认为我可以将这些属性拆分成单独的线程/进程,然后再将它们放回
单个
数据
帧
中。注意,这个聚合必须在两个列上,所以我可能会因为不能
使用
单个
列作为索引而获得更差的性能。 有没有办法将
dask
期货或并行处理合并到聚合
计算
中?im
浏览 29
提问于2020-06-13
得票数 2
回答已采纳
1
回答
如何
使用
python记录链接工具包对大
数据
集执行重复
数据
删除?
、
、
、
我目前正在
使用
Python Record Linkage Toolkit对工作中的
数据
集执行重复
数据
消除。在理想的情况下,我只需要
使用
阻塞或排序邻域来减少记录对索引的大小,但有时我需要对包含超过75k条记录的
数据
集
进行
完整索引,这会导致数十亿条记录对。,但不提供任何在
单个
数据
帧
内
进行
重复
数据
删除的功能。有没有一种方法可以拆分
数据
帧
并迭代地
计算
匹配
浏览 26
提问于2021-10-11
得票数 0
2
回答
使用
Dask
导入大型CSV文件
、
、
、
、
我正在
使用
Dask
导入一个非常大的csv文件,大约680 am,然而,输出并不是我所期望的。我的目标是只选择一些列(6/50),并可能过滤它们(这一点我不确定,因为似乎没有
数据
?): file_path = "/Volumes/Seagate/Work/Tickets/Third ticket/Extinction/species_all.csv= dd.read_csv(fi
浏览 6
提问于2021-07-03
得票数 3
1
回答
如何将MultiIndex熊猫
数据
帧
转换为
Dask
数据
帧
、
、
、
、
我试图将两个变量(一个ID和一个DateTime变量)为MultiIndexed的熊猫
数据
帧
转换为
dask
数据
帧
,但是我得到了以下错误; "NotImplementedError:
Dask
doesnot support MultiIndex Dataframes" 我正在
使用
下面的代码 import pandas as pd
dask
_df= dd.f
浏览 18
提问于2019-07-02
得票数 2
回答已采纳
1
回答
dask
是如何在
多个
系统上实现的?
、
、
、
我是
Dask
库的新手,我想知道如果我们在两个系统上
使用
dask
实现并行
计算
,那么我们应用
计算
的
数据
框架是否存储在这两个系统上?并行
计算
究竟是如何
进行
的,文档中并不清楚。
浏览 0
提问于2018-07-03
得票数 0
1
回答
将文件夹中的许多羽化文件加载到
dask
中
、
、
、
有了一个包含许多.feather文件的文件夹,我想将它们全部加载到python中的
dask
中。到目前为止,我已经尝试了以下来自GitHub https://github.com/
dask
/
dask
/issues/1277上类似问题的答案 files = [...] dfs = [
dask
.delayed是否可以在
dask
中执行上述操作?
浏览 19
提问于2019-08-08
得票数 2
回答已采纳
1
回答
Dask
-是否有可能通过自定义函数
使用
每个worker中的所有线程?
、
、
在我的例子中,我在S3中有几个文件和一个自定义函数,该函数读取每个文件并
使用
所有线程
进行
处理。为了简化示例,我只生成了一个
数据
帧
df,并且假设我的函数是
使用
多进程的tsfresh.extract_features。生成
数据
import pandas as pdfrom tsfresh.examples.robot_execution_failuresfrom
dask
.distributed
浏览 26
提问于2020-08-27
得票数 1
1
回答
在
Dask
中
使用
尚未实现的Pandas函数
、
、
、
、
我相信在
使用
Dask
数据
帧
时,我在
Dask
教程中看到了一个关于如何
使用
Dask
框架中尚未实现的Pandas函数的建议,但我似乎看错了地方。例如,我想
使用
Pandas函数'ewm‘。作为一种变通方法,我将
Dask
数据
帧
转换为Pandas
数据
帧
,在Pandas
数据
帧
上运行ewm,然后将它们转换回
Dask
,
浏览 10
提问于2019-06-02
得票数 1
回答已采纳
1
回答
如何在pandas DataFrame列的子组合上加速相同的
计算
?
、
、
我希望将相同的函数应用于熊猫DataFrame的
多个
子组合。想象一下完整的DataFrame有15列,我想从这个完整的DataFrame中绘制一个包含10列的子
帧
,我总共会有3003个这样的子
帧
。我目前的方法是
使用
多处理,它适用于具有大约20列的完整DataFrame - 184,756个组合,但是真正的完整框架有50个列,导致超过100亿个组合,之后会花费太长时间。有没有适合这种类型
计算
的库?我以前用过
dask
,它的功能非常强大,但
dask
只适用于在
单个</e
浏览 0
提问于2021-04-16
得票数 1
1
回答
在
单个
列上执行操作时,
dask
是否加载所有列?
每当我
使用
dask
数据
帧
进行
计算
时,我都会确保只加载必要的列,以便能够节省
计算
速度。 我只是不明白
dask
是如何在内部工作的,为什么他不能从拼花柱状格式中受益。在下面的小示例中,test.parquet是一个包含13列各种
数据
类型、10M行和16个分区的拼图文件。正如您所看到的,如果我只对
单个
列的最小值感兴趣,那么当我只加载目标列时,速度会有非常明显的提高。在
使用
分布式调度器时,我还可以看到加载到内
浏览 1
提问于2019-03-14
得票数 2
1
回答
在应用函数之前,强制
Dask
延迟对象
计算
所有参数
、
我真的很喜欢
使用
Dask
。def inc(x, y):类似这样的东西 if hasattr(y, compute): return x + y dinc =
dask</
浏览 0
提问于2017-01-30
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何只用一行代码让 Pandas 加速四倍?
如何只用一行代码让Pandas加速四倍?
一文看懂Modbus协议
不同的AI视频推理场景下,如何构建通用高效的抽帧工具?
Python数据预处理:使用Dask和Numba并行化加速
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券