腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
我
正在
使用
Dask
在
多个
数据
集
上
使用
Snorkel
应用
LabelingFunction
,
但
这
似乎
需要
很长
时间
。
这是
正常
的
吗
?
dask
、
dask-dataframe
、
snorkel
我
的
问题如下:
我
有几个csv格式
的
数据
集
(900K,1M7和1M7条目),
我
将它们加载到
多个
Dask
Dataframe中。然后,
我
将它们连接到一个
Dask
Dataframe中,
我
可以将它们提供给我
的
Snorkel
应用
程序,它将一组标记函数
应用
到我
的
Dataframe
的
每一
浏览 9
提问于2021-02-06
得票数 1
回答已采纳
1
回答
同时将xarray
数据
集
写入zarr --如何有效地
使用
dask
分布式扩展
python
、
dask
、
python-xarray
、
dask-distributed
、
zarr
TLDR:
我
有一个工作流程,它在S3
上
获取栅格
数据
集
的
列表,并生成一个
dask
数组支持
的
xarray
数据
集
。
我
需要
迭代
多个</
浏览 6
提问于2021-03-23
得票数 1
回答已采纳
1
回答
用
dask
.bag.from_sequence计算核密度估计
python
、
dask
我
正在
尝试计算一个相当大
的
二维
数据
集
的
核密度估计到。函数scipy.stats.gaussian_kde
需要
很长
时间
,所以我想我可以
使用
dask
(v0.15.2)来更快地得到结果。然而,
我
不确定
我
的
方法是否真的得到了任何加速。下面是一个示例:from scipy.stats import gaussian
浏览 1
提问于2017-12-11
得票数 0
回答已采纳
2
回答
使用
dask
hdf/parquet
的
Python大型
数据
集
特征工程工作流
python
、
pandas
、
dask
、
hdf
、
feature-engineering
已经有了一个很好
的
问题,
但
最好
的
答案是现在已经5年了,所以我认为2018年应该有更好
的
选择。 重复1/2/3 (<em
浏览 0
提问于2018-03-29
得票数 2
1
回答
在
Jupyter notebook中初始化任务计算
需要
很长
时间
amazon-s3
、
jupyter-notebook
、
dask
、
dask-distributed
我
正在
尝试
使用
Dask
通过Jupyter笔记本
在
我
的
笔记本电脑
上
处理一个大于内存
的
数据
集
。
数据
存储
在
Amazon-s3存储桶中
的
csv文件数量。第一个单元运行很快,
我
可以按预期查看端口8787
上
的
Dask
仪表板。55.1秒,这对
我
来说
似乎
很
浏览 27
提问于2019-01-17
得票数 0
1
回答
使用
groupby
的
有效方法是什么&对大型
数据
集
应用
自定义函数并避免混洗?
python
、
pandas
、
data-science
、
dask
我
试图
在
一个巨大
的
数据
集
上
使用
groupby和apply,
这是
一个自定义函数,它会给我带来内存错误,并且工作人员会因为混洗而被杀死。
我
怎样才能避免洗牌,并有效地做到这一点。
我
正在
读取大约50个700MB (每个)
的
拼图文件,这些文件中
的
数据
是隔离
的
,即没有组存在于
多个
文件中。如果
我
尝试
浏览 17
提问于2019-01-13
得票数 1
1
回答
用
dask
加载大型
数据
集
hdf5
、
dask
我
所处
的
HPC环境中有集群、紧密耦合
的
互连和支持光泽
的
文件系统。我们一直
在
探索如何利用
Dask
不仅提供计算,而且充当一个分布式缓存,以加快我们
的
工作流。我们
的
专有
数据
格式是n维和规则
的
,我们编写了一个懒散
的
读取器,以传递给from_array/from_delayed方法。 我们
在
Dask
集群中加载和持久化比内存更大
的
数据</e
浏览 0
提问于2018-06-11
得票数 2
回答已采纳
4
回答
可能有两个工作
集
? 1)
数据
2)代码
working-set
关于操作系统
的
概念...一个流程是否可以有两个工作
集
,一个表示
数据
,另一个表示代码?
浏览 2
提问于2010-05-12
得票数 0
1
回答
重采样和群对大达克阵列与x数组-
使用
map_blocks?
python
、
dask
、
python-xarray
、
dask-distributed
我
有一个定制
的
工作流,它
需要
使用
resample来获得更高
的
时间
频率,
应用
ufunc和groupby + mean来计算最终结果。
我
想将它
应用
到一个大型xarray
数据
集中,该
数据
集
由一个块
的
dask
数组支持。对于计算,
我
想
使用
dask
.distributed。分组和重采样会在所有块
上
浏览 1
提问于2020-12-16
得票数 3
2
回答
在
Rails中处理大型记录
集
ruby-on-rails
、
database
、
scaling
我
正在
尝试对一个比
正常
数据
集
(2m+记录)更大
的
数据
集
执行日常操作。然而,Rails在这样
的
数据
集
上
执行操作
似乎
需要
很长
的
时间
。这样
的
操作 ...
需要
很长
时间</e
浏览 2
提问于2010-04-09
得票数 2
回答已采纳
2
回答
使用
dask
的
新to_sql提高效率(内存/速度)或替代将
数据
从
dask
数据
获取到Server表
sql-server
、
pandas
、
sqlalchemy
、
dask
、
dask-to-sql
我
的
最终目标是将SQL/Python一起用于一个有太多
数据
供熊猫处理
的
项目(至少
在
我
的
机器
上
)。对于上面的#1、#2和#3,由于内存限制/执行
时间
长,
这是
我
发现不可能与熊猫一起完成
的
任务,但是
dask
解决了上面提到
的
#1和#2,但是
我
仍然
在
努力解决#3 --以一种自动
的
方式
浏览 4
提问于2020-06-16
得票数 6
回答已采纳
1
回答
减少
dask
XGBoost内存消耗
python
、
dask
、
xgboost
、
dask-distributed
、
dask-ml
我
正在
编写一个简单
的
脚本代码来
在
我
的
数据
集
上
训练一个XGBoost预测器。
这是
我
正在
使用
的
代码:import
dask
_ml from
dask
.distributed import Client, LocalCluster这里有一个例
浏览 2
提问于2021-05-01
得票数 0
2
回答
dask
能取代资源管理系统
吗
?
dask
地球问候,
dask
能否取代资源管理系统(如SGE )作为调度程序?
我
注意到
dask
可以
使用
SGE,但从长远来看,
我
真正想要
的
是用
我
可以从conda安装
的
东西替换SGE,看看
dask
文档,尝试一下
似乎
很有趣。SGE不再在较新
的
linux系统
上
轻松安装,因此如果
dask
可以
在
简单
的
anaconda安装之后
使用
,它
浏览 1
提问于2018-01-16
得票数 1
回答已采纳
1
回答
选择子集后将其转换为pandas时,
Dask
dataframe内存不足
python
、
python-3.x
、
pandas
、
dataframe
、
dask
所以我有一个包含160M记录和240列
的
拼图文件。因此,
我
使用
dask
在
python中
使用
EMR CLuster m5.12xlarge加载它。import
dask
.dataframe as dd 现在
我
需要
其中一列
的
值计数和归一化值计数: count = df.a.value_counts这只
需要
几秒
的
时间</em
浏览 1
提问于2021-09-23
得票数 0
1
回答
如何
使用
dask
高效地(代码大小,scheduler+cluster运行时)聚合大量
的
小csv文件(大约50k文件,每个120kb)?
python
、
pandas
、
dataframe
、
dask
、
intake
我
有一个
数据
集
,其中包含每个文件
的
时间
序列。
我
真的很高兴
dask
在
我们
的
集群
上
处理大约1k个文件(
在
我
的
例子中是一个目录)。但我有大约50个目录。有趣
的
是,构建
dask
图
似乎
比实际问题消耗了更多
的
内存和CPU。这只
在
调度器
上
。
我
也一直<em
浏览 10
提问于2020-10-24
得票数 1
1
回答
加载
多个
csv文件后
在
dask
中运行操作时出现问题
python
、
csv
、
dataframe
、
dask
我
正在
尝试
使用
dask
来处理一些ML项目中
的
大型
数据
集
。将单独
的
CSV文件加载到
dask
数据
帧中工作
正常
。当我尝试
使用
多个
CSV文件时,任何类似“计算”
的
操作都会导致程序无限期挂起。
这
运行得很好 import
dask
.dataframe as ddimport <em
浏览 11
提问于2019-12-12
得票数 0
1
回答
如何在线程调度程序中利用多线程?
multithreading
、
scheduling
、
dask
我
对
Dask
的
本地线程调度程序感兴趣。此调度程序可以
使用
多个
线程从多维数组中“并行”加载
数据
块。
我
对I/O界问题感兴趣,所以暂时不考虑计算密集型
应用
。
使用
Dask
的
存储方法从随机数组加载和保存
数据
的
一些速度测试
似乎
证实了这一事实:随着块大小
的
增加,性能下降(据说是因为最小块增加了并行性)。在这个实验中,
我</e
浏览 4
提问于2019-11-02
得票数 2
回答已采纳
2
回答
在
大规模
数据
集
(400GB+,100 m行x200列)
上
训练模型
的
最佳方法(最便宜/最快
的
选择)是什么?
machine-learning
、
python
、
xgboost
、
bigdata
、
lightgbm
我
有一个400 to
的
数据
集
,
我
想训练一个模型。训练这种模型最便宜
的
方法是什么?到目前为止,
我
能想到
的
选择是: 具有大量RAM和训练CPU
的
AWS实例(慢,
但
实例便宜)。带有许多GPU
的
AWS实例,并
使用
Dask
+ XGBoost分发(速度快,
但
代价高昂,
我
甚至不认为有足够大
的
实例可以处理)。
我</e
浏览 0
提问于2021-03-18
得票数 6
1
回答
如何减少将达斯克
数据
转换成熊猫
数据
的
时间
python-3.x
、
pandas
、
dask
、
dask-delayed
我
有一个功能,读取大
的
csv文件
使用
dask
数据
,然后转换成熊猫
的
数据
,
这
需要
相当长
的
时间
。parameter_id']==168577]P1MI3=P1MI3.compute()和P1MJC_old=P1MJC_main.compute()分别
使用
有没有办法缩短
时间
。
浏览 2
提问于2019-09-19
得票数 2
回答已采纳
1
回答
当控制台终止时,dataframe是否仍然存在?
python
、
pandas
、
loops
、
for-loop
、
terminate
我
创建了一个Pandas dataframe {"batch_size" : list(range(64)), "training_time" : list(range(64)),然后,
在
循环中运行循环仍在进行中,
我
预计它不会在
我
浏览 2
提问于2020-07-07
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
为Python正名:语言本身不是瓶颈,可能是外部资源出了问题
处理数据,大数据甚至更大数据的 17 种策略
Python数据预处理:使用Dask和Numba并行化加速
Python太慢了吗?
数据计算快至80倍!
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券