腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
限制核心数
Dask
不起作用?
、
、
尽管我将
内核
数量设置为24个,但
所有
120个
内核
都在100%
使用
中
。from multiprocessing.pool import ThreadPool
dask
.config.set(pool=ThreadPool(24)) from
dask
.distribted
浏览 16
提问于2019-04-05
得票数 1
1
回答
使用
Dask
中
的
所有
内核
我正在开发一个拥有24个vCPU
的
google云计算实例。运行
的
代码如下所示from distributed import ClientlogdidHttp') .categorize()) 当我运行它时(这也是我在加载数据后所做
的
后验数
浏览 16
提问于2017-03-08
得票数 5
回答已采纳
1
回答
通过
dask
分布式和gensim有效
使用
多核
、
、
、
、
我有一个很大
的
数据帧,不能放入内存。因此,我在Python语言中通过
dask
(分布式)访问它。我想根据数据帧中一列
的
条目,用gensim包训练一个Word2Vec/Doc2Vec模型,这就是为什么我构建了一个像this question一样
的
迭代器。现在,gensim
使用
多个
内核
进行训练,我需要指定其数量,类似地,
dask
也允许我
使用
多个
内核
。到目前为止,我把
所有
可用
的
内核</e
浏览 21
提问于2020-01-14
得票数 0
1
回答
Datashader
中
的
分段绘图-数据超过我
的
内存
、
然而,
所有
的示例都必须在具有大量ram
的
机器上完成,或者只是不
使用
那么大
的
数据集。因为我在做大图
的
时候会炸掉我
的
16 do
的
内存。需要明确
的
是,它不是在绘图期间,而是实际上通过从数据库读取失败了-然而,由于Datashader是一个用于绘制非常大
的
数据
的
库,所以必须有一些方法来代替在df中加载
所有
内容并传递它?我现在
的
代码是: from colorcet import fire i
浏览 19
提问于2020-06-11
得票数 1
1
回答
在本地
使用
Dask
时,是否需要初始化客户端?
、
、
我看过
Dask
教程,它们总是从客户端
的
初始化开始: from
dask
.distributed import Client df = dd.read_csv('trainset.csv').compute
浏览 20
提问于2020-04-25
得票数 0
1
回答
DASK
Memory Per Worker指南
、
、
我目前正在致力于将一些遗留分析重构到Python/
DASK
中
,以展示其作为未来解决方案
的
有效性。 我正在尝试设置一个演示场景,我遇到了内存问题,希望得到一些建议。我
的
调度器在T2
中
(4 4GB/2vCPU),我
的
4个工作进程也是如此。然后,我将
使用
map_partitions来完成主要工作。这对于小
的
数据集很有效,但是对于100mil
的
数据集,我
的
工作人员由于没有足够
的
内存而不断
浏览 32
提问于2019-09-20
得票数 1
2
回答
如何在Python (Pandas)
中
对超大数据集进行分块处理,同时考虑整个数据集
的
函数应用?
、
、
、
、
我在论坛上读到了许多关于类似主题
的
帖子。然而,我在这里问
的
,我相信这不是一个重复
的
问题。 我正在读取CSV格式
的
very large dataset (22 gb),有3.5亿行。基于that link提供
的
解决方案,我正在尝试以块为单位读取数据集。 我当前
的
代码如下所示。但是,声明为chunk_size
的
groupby(['id', 'company'])[['purchasequantity', '
浏览 36
提问于2020-12-04
得票数 1
回答已采纳
1
回答
关闭<TCP
中
的
悬挂流如何重新启动LocalCluster?
在
使用
启动
dask
LocalCluster时 from
dask
.distributed import Client client = Client() 在中断jupyter
内核
并重新运行单元之后,
dask
一次又一次地显示以下警告。WARNING - Closing dangling stream in <TCP local=tcp://127.0.0.1:49408 remote=tcp://127.0.0.1:37487> 重启
内核</e
浏览 8
提问于2019-12-20
得票数 1
回答已采纳
2
回答
并行处理与
dask
阵列相结合处理多个图像栈
、
、
、
我有一个包含n h5文件
的
目录,每个目录都有要过滤
的
m图像堆栈。对于每幅图像,我将
使用
dask
并行阵列运行滤波(高斯和拉普拉斯),以加快处理速度()。我将通过apply_parallel()函数在scikit-映像中
使用
dask
数组。1) h5文件
的
顺序处理和用于
dask
处理
的
所有
浏览 6
提问于2016-02-10
得票数 2
回答已采纳
1
回答
用
dask
.bag.from_sequence计算核密度估计
、
我正在尝试计算一个相当大
的
二维数据集
的
核密度估计到。函数scipy.stats.gaussian_kde需要很长时间,所以我想我可以
使用
dask
(v0.15.2)来更快地得到结果。然而,我不确定我
的
方法是否真的得到了任何加速。下面是一个示例:from scipy.stats import gaussian_kde xy = np.random.randdb.from_sequence(chunker)
浏览 1
提问于2017-12-11
得票数 0
回答已采纳
1
回答
使用
脚本
中
的
Dask
、
、
可以从python脚本运行
dask
吗?from
dask
.distributed import Client如
所有
教程中所述。但是,如果我将这些代码行写在script.py文件
中
并以python script.py方式执行它,它会立即崩溃。我发现了另一个选择,那就是
使用
MPI:from
dask
_mpi import initialize from
浏览 0
提问于2019-08-20
得票数 2
1
回答
如何
使用
所有
的cpu核心
使用
达克?
、
、
我有一个35000排以上
的
熊猫系列。我想用达斯克让它更有效率。然而,我
的
达斯克代码和熊猫代码是同时采取
的
。最初
的
"ser“是熊猫系列,fun1和fun2是在各个系列
中
执行模式匹配
的
基本功能。apply(fun2)ser = dd.from_pandas(ser, npartitions = 16)在检查cpu
内核
的
状态时,我发现并不是
所有
的<e
浏览 1
提问于2018-07-06
得票数 18
1
回答
当数据不能放入内存时,将
dask
数据帧存储到拼图
、
我正在尝试将
dask
数据帧
的
内容存储到拼图。
使用
read_sql_table从数据库
中
读取内容 import
dask
.dataframe as dddf.to_parquet(path) 当我这样做
的
时候,首先将
所有
数据读取到内存
中
。但是,由于整个数据集无法装入内存,
内核
最终会崩溃。如何将数据分块或通过管道传输,以使此操作成功? (我正在<
浏览 23
提问于2020-07-02
得票数 0
1
回答
选择子集后将其转换为pandas时,
Dask
dataframe内存不足
、
、
、
、
所以我有一个包含160M记录和240列
的
拼图文件。因此,我
使用
dask
在python中
使用
EMR CLuster m5.12xlarge加载它。import
dask
.dataframe as dd 现在我需要其中一列
的
值计数和归一化值计数:请注意,这里我有总
的
1 npartitions和
浏览 1
提问于2021-09-23
得票数 0
2
回答
如何处理这么多大型数据集?
、
我想处理每个文件
的
数据分析,其中包括许多过滤和
使用
循环。我做了一个虚拟代码来测试这一点,每个文件大约需要4到5分钟。有什么办法让这个过程更快吗?达克能减少这一过程时间吗?
浏览 4
提问于2022-02-17
得票数 1
1
回答
多处理在Mac上工作,但在Windows上不起作用
、
、
、
、
我
的
dask
多处理代码用于应用两个不同
的
lambda函数,它在Mac上工作得很好,但不能在Windows 7服务器上运行。我可以在Windows 7上
使用
线程运行代码,但速度非常慢。当我尝试在Windows 7服务器上调度进程时,
所有
内核
的
CPU
使用
率达到100%,服务器冻结。我可以
使用
scheduler = 'threads'或指定num_workers在Windows
中
运行下面的代码,但它似乎
浏览 2
提问于2019-10-19
得票数 2
1
回答
在NERSC集群上将数据从jupyter加载到
dask
我正试图
使用
NERSC上
的
dask
客户端将一些相对较大(~15 on )
的
VTK文件加载到
dask
dataframe
中
。然而,我很难有效地完成这一任务,大部分工作都是在NERSC节点上并行进行
的
。这里
的
基本结构遵循Rollin关于在NERSC ()上
使用
dask
的
笔记本。所以我: 在NERSC上启动一个木星笔记本,访问交互队列上
的
一个节点,定义调度程序文件,启动访问同一个调度程序
浏览 5
提问于2020-09-22
得票数 0
1
回答
从多进程切换到多线程
Dask
.DataFrame
、
、
、
、
我有一个关于如何
使用
dask
来并行我
的
代码
的
问题。我有一个熊猫数据文件和8个核心CPU。所以我想按行应用一些函数。下面是一个例子:from
dask
.multiprocessing import geto我试过,想把from
dask
.multiprocessing import get改成from
dask
.threaded import
浏览 1
提问于2018-07-06
得票数 4
回答已采纳
1
回答
如何提高从s3解析json任务
的
性能
、
我正在比较一个从s3加载数据并解析json内容
的
普通脚本。我想也许
Dask
在这类任务中会更快一些。然而,我
使用
的
Dask
脚本似乎比ruby脚本基准测试慢得多。下面是脚本:import
dask
.bag as dbimport ujsont1 =
浏览 0
提问于2017-10-11
得票数 1
2
回答
XGBoost是如何进行并行计算
的
?
XGBoost
使用
加性训练
的
方法,其中它对前一个模型
的
残差进行建模。 这是顺序
的
,那么如何进行并行计算呢?
浏览 6
提问于2015-12-08
得票数 41
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券