腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
在
Dask
仪表板
中
进行
100
%
的
Dask
DF
操作
后
,
需要
很长
时间
python-3.x
、
dask
、
dask-distributed
我正在使用大型CSV (~60 in;~250M行)和
Dask
in Jupyter。 加载
DF
后
,我要做
的
第一件事是连接两个字符串列。我可以成功地做到这一点,但是我注意到单元执行
时间
似乎并没有随着工作进程数量
的
增加而减少(我
在
一台具有64个逻辑核心
的
机器上尝试了5、10和20 )。如果说有什么不同的话,那就是每五个左右
的
工人似乎就会增加一分钟
的
执行
时间
。 同时,
Dask
仪
浏览 21
提问于2021-07-23
得票数 1
回答已采纳
1
回答
将任务流导出为svg
python
、
bokeh
、
dask
、
distributed
我正在使用
dask
_yarn对公司集群
进行
数据分析。工具栏
中
没有用于执行此
操作
的
工具。
浏览 4
提问于2021-04-17
得票数 1
1
回答
对于.head(20)这样
的
操作
,如何让
Dask
变得像PySpark一样懒惰?
python
、
dask
在
PySpark
中
,每当我
在
一个非常大
的
数据帧
df
上排列一组复杂
的
操作
,然后键入:Spark将只执行必要
的
操作
(
在
部分数据集上),以便快速返回20条记录以供显示。除非我用.collect()强制它这样做,否则它不会对dataframe
df
的
所有行执行
操作
。另一方面,
在
Dask
浏览 38
提问于2018-06-03
得票数 1
1
回答
Groupby和shift a
dask
数据帧
python
、
dask
我想使用
dask
2.14扩展我
在
熊猫数据帧上所做
的
一些
操作
。例如,我想对数据帧
的
一列应用移位:data = dd.read_csv('some_file.csv')但是我得到了AttributeError: 'SeriesGroupBy
浏览 7
提问于2020-05-05
得票数 5
回答已采纳
1
回答
调试非常慢
的
`from_delayed`调用
dask
、
dask-delayed
我有一个长长
的
dask
链式管道,最后一位是一串
dask
.dataframe.from_delayed调用,如下所示。这条线路非常慢--每次通话
需要
很长
时间
。仅设置管道就
需要
1-2个小时。当我调试这个问题时,我取出相关
的
代码并传入具有相同形状
的
数组。它可以立即运行。 这是因为我
的
现实生活
中
的
管道有一个上游图,它正在与之竞争吗?我
的
解决方案是将我
的
流
浏览 17
提问于2020-06-04
得票数 0
2
回答
为什么
dask
按索引字段选择
的
速度这么慢?
python
、
pandas
、
dataframe
、
dask
我正在将存储
在
拼图文件
中
的
数据读取到
dask
中
,然后尝试通过分类索引字段选择数据。
在
parquet中保存数据时,我使用与
在
dask
中用作索引字段相同
的
字段对数据
进行
分区。我希望
dask
set_index
操作
会花费一些
时间
,但看起来后续
的
基于索引字段
的
“选择”类型
操作
应该会非常快。然而,它们
的
浏览 1
提问于2021-11-06
得票数 2
3
回答
不断收到"distributed.utils_perf - WARNING - full垃圾回收占用了19%
的
CPU
时间
...“
dask-distributed
在
我完成
DASK
代码之后,我一直收到"distributed.utils_perf - WARNING - full垃圾回收最近占用了19%CPU
时间
“
的
警告消息。我正在使用
DASK
做一个大型
的
地震数据计算。计算完成
后
,我会将计算出
的
数据写入磁盘。写入磁盘部分所需
的
时间
比计算要长得多。
在
我将数据写入磁盘之前,我调用了client.close(),我假设我已经完成了
DASK
浏览 185
提问于2019-10-19
得票数 7
1
回答
如何按
Dask
列出正在运行
的
进程?
python
、
dask
我开始使用
dask
了。就我自己(以及我想向其演示
dask
的
同事)
的
理解而言,我想构造一个基本
的
数据帧,执行一个基本
的
操作
,并将执行
时间
与仅限pandas
的
实现
进行
比较。time
df
= dd.from_pandas(pd.D
浏览 2
提问于2018-06-05
得票数 0
1
回答
无法从本地计算机访问文件时使用
dask
.dataframe读取
dask
、
dask-distributed
我有一台功能强大
的
机器(远程机器),可以通过SSH访问。我
的
数据存储
在
远程机器上。 我想运行并访问远程机器上
的
数据。为此,我
在
远程机器上运行了一个
dask
-scheduler &一个
dask
-worker。然后,我
在
我
的
笔记本电脑(本地机器)上运行了一个jupyter笔记本电脑,使用
的
是client=Client(‘schedular ip:8786’),但它仍然引用本地机器上
的
数据,而不是
浏览 31
提问于2021-09-26
得票数 2
1
回答
为什么
dask
_ml.preprocessing.OrdinalEncoder.transform会产生不按序号编码
的
结果?
dask
、
dask-dataframe
、
dask-ml
我对
的
结果感到困惑from
dask
_ml.preprocessing import OrdinalEncoderas DaskOrdinalEncoderimport pandas as pd np.random.seed(1234) array([[2., 2.], [1.,
浏览 7
提问于2021-05-07
得票数 0
回答已采纳
1
回答
Dask
Dataframe:按A列删除重复项,保留B列中值最高
的
行
dask
、
dask-dataframe
、
drop-duplicates
基本上,这是对熊猫
在
的
答案。
在
熊猫里,我采用了这个解决方案但我无法有效地将相同
的
解决方案应用于
df
.loc[max_idx.compute()]
在
整个
dask
框架上,方法
df
.nlargest(1, "B")可以满足我
的</
浏览 1
提问于2021-06-17
得票数 0
回答已采纳
1
回答
导入
DASK
时出错:模块“
dask
.array”没有属性“分块”
python
、
scikit-learn
、
dask
、
attributeerror
、
dask-ml
我正在尝试使用
DASK
进行
快速计算,因为
在
我
的
系统上17个小时
后
,逻辑回归被中止。我
的
数据集大约有
100
万行。我首先运行了以下命令:import
dask
.dataframe as dd from
dask
.distributed import Client\Anaconda3\lib\site-packages\distributed\bokeh\core.py:5
浏览 0
提问于2020-06-01
得票数 0
1
回答
在
Jupyter notebook
中
初始化任务计算
需要
很长
时间
amazon-s3
、
jupyter-notebook
、
dask
、
dask-distributed
我正在尝试使用
Dask
通过Jupyter笔记本
在
我
的
笔记本电脑上处理一个大于内存
的
数据集。数据存储
在
Amazon-s3存储桶
中
的
csv文件数量。第一个单元运行很快,我可以按预期查看端口8787上
的
Dask
仪表板
。from
dask
.distributed import Clientclient = Client() clie
浏览 27
提问于2019-01-17
得票数 0
1
回答
将大型数据库表读入
Dask
数据帧
python
、
pandas
、
dask-dataframe
因此,我想先尝试将表读入
Dask
Dataframe,执行一些聚合,然后切换回Pandas
进行
后续分析。为此,我使用了以下几行代码。= 'column_xyz', schema = 'private') 在数据库
中
对index_col即'column_xyz‘
进行
了索引。这是可行
的
,但是当我执行一个
操作
,例如聚合时,返回结果
需要
很长
时间
(比如一个小时)。avg =
df</em
浏览 17
提问于2021-07-08
得票数 0
3
回答
Dask
-Dataframe列
中
的
唯一值数
python
、
dask
、
dask-distributed
、
dask-dataframe
我有一个从csv文件读取
的
Dataframe文件,有大约
100
万条记录和120个特性/列,我想在每一列中计算唯一值
的
数量。我可以使用for -循环分别为每一列执行此
操作
:
dask
_
df
= dd.read_csv("train.csv") print(
dask<
浏览 4
提问于2021-11-11
得票数 0
2
回答
快速采样
Dask
数据帧
的
方法(Python)
python
、
dask
、
sampling
我有一个很大
的
文件,我用
Dask
(Python)读取
的
。该文件大约有600万行和550列。我想随机选择5000条记录(没有替换)。下面是我尝试过
的
两个方法,但是运行起来
需要
很长
时间
(超过13个小时
后
我就停止了):NSAMPLES=5000 samples =
浏览 0
提问于2020-07-14
得票数 1
0
回答
循环中
的
DASK
Dataframe
dataframe
、
dask
我
在
尝试
在
Dask
中
实现循环时遇到了一些问题。例如,
在
以下代码
中
: if
df
[col[i]].dtype=='object': elif
df
[col[时,同样
的
代码非常快,但在
dask
上,完成任务
需要
相当长
的
时间
。我知道
Dask
<
浏览 5
提问于2017-06-08
得票数 1
1
回答
如何在多个文件中使用
Dask
read_csv读取第n行以快速读取多个文件?
python
、
pandas
、
dataframe
、
bigdata
、
dask
我正在尝试将多个CSV文件读入一个数据文件
中
。而这是使用列表理解和熊猫
的
连接功能。all_
df
.append(pd.read_csv(filename))我发现当文件是一个
很长
的
列表(例如,
100
多个项目)时,这太慢了。import
dask
.dataframe as dd
df</em
浏览 2
提问于2021-01-27
得票数 1
回答已采纳
1
回答
选择子集
后
将其转换为pandas时,
Dask
dataframe内存不足
python
、
python-3.x
、
pandas
、
dataframe
、
dask
所以我有一个包含160M记录和240列
的
拼图文件。因此,我使用
dask
在
python中使用EMR CLuster m5.12xlarge加载它。import
dask
.dataframe as dd 现在我
需要
其中一列
的
值计数和归一化值计数: count =
df
.a.value_counts这只
需要
几秒
的
时间
来执行,并使用大约1.5 GB<e
浏览 1
提问于2021-09-23
得票数 0
1
回答
当计算/持久化6,700万行
dask
数据时内存被填满
python
、
out-of-memory
、
dask-dataframe
我
在
分析多个
df
时遇到了这个问题,每个
df
都有大约6700万行。我可以计算()或导出任何单独
的
to_csv。我使用for循环来创建50个
df
,并将它们全部添加到一个列表
中
(我知道使用
dask
和for循环并不是最好
的
选择,我仍然
在
计算它)。然后,我把50
df
的
列表和级联成1
df
和50 cols,并取其平均值。但是,我不能对最终
的
dataframe
进行</
浏览 9
提问于2022-02-28
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python数据预处理:使用Dask和Numba并行化加速
尹立博:Python 全局解释器锁与并发
处理数据,大数据甚至更大数据的 17 种策略
2021 最佳开源软件榜单出炉,Flutter、StreamNative 上榜
Ray 分布式计算框架详解
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券