腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(6772)
视频
沙龙
1
回答
Dask
DataFrames
上
的
因式分解
python
、
pandas
、
dataframe
、
dask
、
dask-dataframe
我正在尝试使用factorize函数分解pandas dataframe中
的
一列,这样我就可以拥有一个从0开始
的
唯一值。我
的
问题是,是否有一种方法可以在
Dask
Dataframes
上
复制相同
的
内容?
浏览 28
提问于2021-03-27
得票数 1
1
回答
将
dask
系列列表转换为
dask
DataFrame
python
、
dataframe
、
boolean
、
dask
、
series
我有一个包含几个
dask
系列
的
列表。每个系列都是布尔型
的
,长度相同。这里有三个元素
的
摘录,只是为了展示它们。Name: Sequence, dtype: bool我将这个列表转换为一个
dask
DataFrame,每个系列都表示一个不同
的
列。: UserWarning: Concatenating
dataframes
with unknown divisions.We're assumin
浏览 0
提问于2020-03-27
得票数 2
1
回答
AttributeError:“DataFrame”对象在
Dask
中没有属性“take”
python
、
dataframe
、
machine-learning
、
scikit-learn
、
dask
我已经检查了csv文件,一切都好,我没有上传它,因为它是保密
的
。但也许您可以尝试您自己
的
CSV,并看到您得到了同样
的
错误。我
的
代码如下:client = Client(n_workers=4) X=df[['Mp10','Mp10_cal','Mp2_5
浏览 5
提问于2021-11-13
得票数 1
2
回答
如何同时多次运行同一个函数?
python
、
multithreading
、
dataframe
、
function
、
optimization
我用
的
是jupyter笔记本。我已经提出了一个新
的
函数,它将原始数据帧过滤成5个大小不相等但在30K到100K之间
的
块,基于原始df
上
的
列上
的
某个类别过滤器,并将其分别作为进程(Df1),进程(Df2)...etc传递。就像一段代码一起运行这5个进程函数,一旦所有的进程函数都完成了,它们就可以作为一个整体加入,给我带来和前面一样
的
“结果”,但节省了大量
的
运行时间。,并给出我现在在没有任何优化
的
情况下获得
的
相同
浏览 22
提问于2021-07-16
得票数 0
2
回答
用
Dask
读取多个Excel文件
python
、
pandas
、
dataframe
、
dask
、
dask-dataframe
有人能帮我理解如何在
Dask
中读取多个excel文件吗?Files/*.xlsx')需要帮助在
Dask
中做同样
的
事情贾克
浏览 1
提问于2021-06-20
得票数 1
1
回答
选择子集后将其转换为pandas时,
Dask
dataframe内存不足
python
、
python-3.x
、
pandas
、
dataframe
、
dask
所以我有一个包含160M记录和240列
的
拼图文件。因此,我使用
dask
在python中使用EMR CLuster m5.12xlarge加载它。import
dask
.dataframe as dd 现在我需要其中一列
的
值计数和归一化值计数:请注意,这里我有总
的
1 npartitions和489 task。 现在我正试着把它
浏览 1
提问于2021-09-23
得票数 0
2
回答
使用位置索引给
dask
系列赋值
python
、
pandas
、
dask
我有两个
DataFrames
,df1和df2,它们共享一个索引。我想根据df1中
的
值分配df2中
的
值。标准
的
熊猫代码如下:当在所有输入
上
运行时,这将正确填充df1。但是,
dask
DataFrames
上
的
相同语法返回一个错误: dd.where()和dd.mask()
浏览 2
提问于2020-01-03
得票数 0
回答已采纳
1
回答
将自定义文件格式读取到
Dask
数据格式
python
、
pandas
、
dataframe
、
hdfs
、
dask
我希望将这些熊猫数据加载到
dask
数据文件中,并对结果数据执行操作(比如创建计算列、提取部分数据帧、绘制等等)。我试着用达斯克袋,但没能成功。因此,我决定将结果数据写入HDFStore中,然后使用
Dask
从HDFStore文件中读取数据。当我在自己
的
电脑
上
做这件事
的
时候,这件事做得很好。下面的代码。cc = read_custom("demo.xyz", chunks=1000) # Generator of pandas
dataframes
from pandas
浏览 5
提问于2020-01-24
得票数 3
3
回答
将Pandas
DataFrames
中
的
Dask
包转换为单个
Dask
DataFrame
python
、
pandas
、
dataframe
、
dask
长版最小工作示例 下面是一些CSV数据示例(我
的
数据实际
上
并不在CSV中,但在这里使用它是为了方便示例)。import
浏览 10
提问于2019-12-13
得票数 3
回答已采纳
1
回答
在本地使用
Dask
时,是否需要初始化客户端?
python
、
dask
、
dask-dataframe
我看过
Dask
教程,它们总是从客户端
的
初始化开始: from
dask
.distributed import Client df = dd.read_csv('trainset.csv'
浏览 20
提问于2020-04-25
得票数 0
1
回答
如何将MultiIndex熊猫数据帧转换为
Dask
数据帧
python
、
pandas
、
dataframe
、
dask
、
multi-index
我试图将两个变量(一个ID和一个DateTime变量)为MultiIndexed
的
熊猫数据帧转换为
dask
数据帧,但是我得到了以下错误; "NotImplementedError:
Dask
doesnot support MultiIndex
Dataframes
" 我正在使用下面的代码 import pandas as pd
dask
_df= dd.from_pandas(pandas_df) 实际<em
浏览 18
提问于2019-07-02
得票数 2
回答已采纳
2
回答
Python
Dask
-2个
DataFrames
的
垂直连接
python-2.7
、
dataframe
、
concat
、
dask
我正在尝试垂直连接两个
Dask
DataFrames
d = [ [1, 4, 8, 1,df = pd.DataFrame(d[1:], columns=d[0])这是作为Pandas DataFrame
的
数据<e
浏览 2
提问于2017-05-06
得票数 8
回答已采纳
1
回答
使用
dask
.bag和pandas.DataFrame将字典
的
dask
.delayed转换为
dask
.dataframe
dask
、
dask-delayed
我正在努力将字典
的
dask
.bag转换为
dask
.delayed pandas.
DataFrames
,使之成为最终
的
dask
.dataframe 我有一个函数(make_dict)将文件读入相当复杂
的
嵌套字典结构但是,对于以后
的
工作,我想使用
dask
.bag将加载
的
字典存储在
dask
.persist()中。在这里,我感觉好像遗漏了一些相当简单
的
东西,或者我
的
<em
浏览 3
提问于2019-03-22
得票数 5
回答已采纳
2
回答
如何处理大于内存
的
数据集?
python
、
dask
、
bigdata
说: 一只DataFrame是由几只记忆中
的
熊猫
DataFrames
组成
的
,它们沿着这个索引分离开来。
Dask
是否顺序地从磁盘读取不同
的
DataFrame分区并执行计算以适应内存?它是否在需要时将一些分区溢出到磁盘?通常,
Dask
如何管理数据
的
内存<->磁盘IO以允许大于内存
的
数据
浏览 6
提问于2016-03-28
得票数 7
回答已采纳
1
回答
如何在多台机器
上
运行
dask
?
dask
关于Dataframe和其他数据结构,我有非常基本
的
问题。
Dask
数组和Dataframe是懒惰
的
数据结构吗?我不知道是用达斯克、火花还是熊猫来解决我
的
问题。我有200 GB
的
数据要计算。使用普通python程序计算操作需要9个小时。但利用16核处理器可以在较短
的
时间内并行处理。如果我把数据分解成熊猫,我需要担心计算
的
可交换性和结合性。另一方面,我可以使用独立
的</
浏览 1
提问于2016-09-11
得票数 2
回答已采纳
1
回答
将HDF5 (.h5)转换为火花数据帧
python
、
pyspark
、
spark-dataframe
、
hdf5
能否在这方面提供帮助,或者
dask
dataframes
是不同于spark
dataframes
的
东西?
浏览 2
提问于2016-09-29
得票数 3
2
回答
如何提高python中多个csv文件
的
读取速度
python
、
pandas
、
dataframe
、
csv
、
dask
这是我第一次创建一个代码来处理包含大量数据
的
文件,所以我被困在这里了。# CsvList: [File Path, Change Date, File size, File Name] for x, file in enumerate(CsvList我用
的
是
dask
.dataframe
浏览 7
提问于2022-03-08
得票数 0
回答已采纳
2
回答
使用
dask
存储更大
的
csv文件,然后再存储到hdf5文件
csv
、
hdf5
、
dask
任务:读取大于内存
的
csv文件,转换为数组并存储在hdf5中。一种简单
的
方法是用熊猫大块地读取文件,但我想使用
dask
,到目前为止,还没有成功:fname='test.csv' dset = dd.read_csv(fname, sep=',',实际
上
,我有一组csv文件,表示3D数组
的
2D切片,我想要组装和存储这些文件。关于如何进行后者
的
建议也将受到欢迎。考虑到下面的评论,这里是我尝试过
的
许多变
浏览 3
提问于2018-10-01
得票数 2
回答已采纳
1
回答
用
dask
等价物加快“中间”函数
的
速度
python
、
pandas
、
numpy
、
dask
我想知道是否有一种与
dask
相对应
的
方法,或者是否可以更好地构造numpy查询以提高性能。--这是问题中
的
代码--运行时间是60 seconds+ --我在default=0
上
收到错误,所以我不确定总
的
运行时是什么。我希望运行时最多能缩短到几秒钟。numpy as np #I'd like to not use this if possible import
dask
.datafra
浏览 2
提问于2019-10-06
得票数 0
1
回答
自定义
Dask
调度程序与客户端
python
、
dask
、
xgboost
、
dask-distributed
、
dask-dataframe
我希望在自定义调度程序
上
运行
Dask
任务,类似于Ray
上
的
Dask
工作方式。目前,我正在使用
Dask
的
配置来指定调度程序:这种方法适用于简单
的
Dask
dataframe操作,如下面这样
的
操作() # X and y must be
Dask
dataframes</e
浏览 3
提问于2021-07-01
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
使用 Dask在Python 中进行并行计算
Python数据预处理:使用Dask和Numba并行化加速
(新版完结无密)Python 分布式爬虫与 JS 逆向进阶实战
24招加速你的Python,超级实用!
尹立博:Python 全局解释器锁与并发
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券