腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Dask
-在map_partition调用时返回
dask
.dataframe
、
、
、
、
输入
数据
帧
---------------------2 Max pet_24 Oscar pet_4pet_id | name | date | is_healtydef get_pets_a
浏览 2
提问于2020-12-01
得票数 0
1
回答
Dask
-
连接
两个
相同
列
的
数据
帧
不起作用
、
我有
两个
没有标题行
的
数据
帧
,它们都有
相同
的
逗号分隔
的
列
。我试着把它们读到一个
数据
帧
中 dfoutputs = dd.read_csv(['outputsfile.csv', 'outputsfile2.csv'], names=colnames, headerNone, dtype={'firstnr': 'Int64', 's
浏览 10
提问于2020-09-28
得票数 0
回答已采纳
2
回答
向
dask
.dataframe添加
dask
.array
列
、
、
我有一个
dask
数据
帧
和一个
dask
数组,它们以
相同
的
逻辑顺序具有
相同
的
行数。
数据
帧
行通过字符串进行索引。我正在尝试将一个数组
列
添加到
数据
帧
中。我尝试了几种方法,但都以其特定
的
方式失败了。当结构在逻辑上兼容时,将
dask
数组
列
添加到
dask
数据
帧
的<
浏览 15
提问于2018-01-09
得票数 8
1
回答
将一
列
随机数添加到
dask
数据
帧
的
正确方法
、
、
、
、
将一
列
随机数添加到
dask
数据
帧
的
正确方法是什么?显然,我可以使用map_partitions将
列
添加到每个分区,但我不确定当
dask
并行化该计算时,如何处理随机状态。(即,它是否会在所有工作进程中使用
相同
的
随机状态,从而在每个工作进程中生成
相同
的
随机数?)在
dask
.array.random ()中似乎有相关
的
函数,但我找不到一个示例来说明如何将这些函数与<em
浏览 2
提问于2021-02-09
得票数 1
1
回答
Dask
dataframe concat将
列
类型从“int”更改为“float”
、
、
我处理大
数据
时间序列
数据
集。
数据
存储在拼花文件中。随着时间
的
推移,将添加新
的
列
。我使用concat
连接
不同文件中
的
数据
,这非常好,但是我遇到了一个小问题,当
连接
dask
数据
帧
时,
数据
类型不稳定。示例: 我有
两个
数据
帧
,具有不同
的
列
集,同时具有浮点数和整数<e
浏览 2
提问于2020-01-13
得票数 0
回答已采纳
1
回答
如何在python中读取
dask
中
的
表
、
我曾经使用以下代码来创建
数据
帧
conn = pyodbc.connect('Driver={SQL Server};' conn = pyodbc.connect('Driver'Trusted_Connection=yes;
浏览 7
提问于2020-04-10
得票数 0
回答已采纳
2
回答
索引到
Dask
系列可以返回
Dask
系列
、
、
我有
Dask
系列
的
Dask
数据
帧
。但是,使用loc[0]会导致另一个
dask
系列。使用to_frame也
不起作用
,因为结果是"
Dask
系列
Dask
数据
帧
的
Dask
数据
帧
“。下面是一个使用
Das
浏览 3
提问于2020-02-03
得票数 1
1
回答
在Numpy数组上执行Pandas函数
、
、
、
、
我有一个大约8700万行
的
Pandas
数据
帧
。为了对其进行一些处理,我将其设置为
Dask
数据
帧
。问题是我需要做
Dask
不支持
的
unstack和plot。我已经将
Dask
数据
帧
写入h5文件,但在尝试将其作为Pandas
数据
帧
读取时遇到内存问题。我在将
Dask
DF转换为Pandas时也遇到了内存错误。从本质上讲,我尝试做
的
是df2
浏览 2
提问于2020-04-22
得票数 2
1
回答
Dask
分布式-
相同
的
持久化
数据
多个客户端
、
我们正在尝试
Dask
Distributed来为前端做一些繁重
的
计算和可视化。现在,我们有了一个
连接
到现有分布式任务集群
的
gunicorn worker,该worker上传当前使用read_csv
的
数据
,并将其持久化到集群中。我尝试过使用pickle来保存持久化
数据
帧
中
的
未来,但它
不起作用
。我们希望有多个gunicorn工作线程,每个都有不同
的
客户端
连接
到
相同
<e
浏览 17
提问于2019-05-07
得票数 3
3
回答
如何为
Dask
数据
框中
的
列
赋值
、
、
、
如何对
dask
数据
帧
执行与以下代码
相同
的
操作。if (condition): else:我想在
dask
数据
框中添加一个新
列
,并在新
列
中插入0/1。
浏览 0
提问于2020-03-04
得票数 2
1
回答
使用Apply有条件地为
Dask
Dataframe赋值
我正在尝试迭代一个
Dask
dataframe,并将它
的
一个
列
中
的
值与另一个同名
的
Dask
dataframe中
的
列
进行比较。如果
列
匹配,我想更新
的
值是目标
Dask
dataframe。下面的代码运行了,但是值没有更新为我期望
的
“1”,也没有更新到任何地方。我是
Dask
的
新手,我怀疑我错过了一些关键
的
步骤,或者不理解框架。[G3
浏览 19
提问于2020-04-08
得票数 0
1
回答
dask
读取具有不同模式
的
多个拼图文件
、
、
、
、
我想用
dask
将具有不同方案
的
多个拼图文件读取到pandas dataframe,并能够合并这些方案。当我谈到不同
的
方案时,我
的
意思是,在所有这些文件中都有公共
列
,但在一些文件中有其他文件中没有的
列
。不幸
的
是,当我用 dd.read_parquet(my_parquet_files, engine="fastparquet") 我只有普通
的
列
可读。我知道在spark中有一个读取选项mergeSchema,我想知道在
浏览 40
提问于2019-09-04
得票数 0
1
回答
如何在使用
dask
.dataframe时指定行顺序
、
、
我有
两个
形状
相同
的
数据
帧
。然而,每个
数据
帧
如何分割成分区似乎是不同
的
,如下图所示。有人知道如何指定应该如何分隔
数据
帧
吗?
浏览 0
提问于2018-04-11
得票数 0
1
回答
计算整个任务
数据
帧
的
方差
、
、
我有一个这样
的
dask
数据
帧
: 1980-04-02 1980-04-03 1980-04-04 1980-04-055.247479 10.690757在pandas中,为了计算整个
数据
帧
的
方差,我将使用堆栈函数,如下所示(我只使用5
列
作
浏览 11
提问于2020-05-05
得票数 2
1
回答
从
dask
数据
帧
中
的
datetime序列中获取年份和周?
、
、
、
、
如果我有一个Pandas
数据
帧
,并且有一个datetime类型
的
列
,我可以按如下方式获取年份:对于
dask
数据
帧
,这是
不起作用
的
。那么,如何在
dask
数据
帧
中获取日期时间序列
的
年份(或周)呢?
浏览 8
提问于2017-03-15
得票数 4
回答已采纳
1
回答
KeyError:当尝试选择
dask
数据
框上
的
列
时:“没有[索引([‘’,''],dtype='object')]在[
列
]中”
、
我正在使用from_pandas()函数从熊猫
数据
帧
创建一个
dask
数据
帧
。当我尝试使用方括号[ ]从
dask
dataframe中选择两
列
时,我得到了一个KeyError。根据
dask
文档,
dask
dataframe支持像pandas dataframe一样
的
方括号
列
选择。KeyError: "None of [Index(['length', 'coun
浏览 67
提问于2019-10-04
得票数 1
1
回答
使用sklearn scaler覆盖
dask
数据
帧
、
、
、
我有以下
dask
数据
帧
:我想要对其应用sklearn缩放器,例如,应用到
列
LotArea:scaler.fit_transform(df0.11648362], [-0.11706628], [-2.07480689]]) 但我不能将
数据
帧
更新为scaler.fit_transform(df[[column]
浏览 14
提问于2019-07-16
得票数 0
1
回答
将在不同工作机器上创建
的
数据
帧
连接
到单个
数据
帧
中
、
、
我正在尝试编写这个非常小
的
程序,它打算在
Dask
分布式集群上运行。在每台worker机器上都有一个CSV文件(到目前为止只有一个),函数文件应该在每个worker上运行,并返回从所述文件构建
的
数据
帧
。但是,我希望将它们作为单个
数据
帧
进行分析。我正在尝试从工作人员返回
的
这
两个
数据
帧
中构建一个
数据
帧
。我怎样才能做到这一点呢?我
的
示例文件详细如下:
浏览 14
提问于2021-03-08
得票数 2
回答已采纳
1
回答
Dask
groupby-在索引上应用,然后
连接
,而不会进行昂贵
的
重新索引
、
、
我在
Dask
的
情况下,我想摆脱,而不是使用很多昂贵
的
reset_index操作。我有一个任务,它执行groupby-apply (其中apply返回一个
数据
帧
,它
的
大小与输入
数据
帧
不同,在本例中,这是由.head()和.tail()用reset_index()模拟
的
)。一个操作是在不同
的
数据
帧
上执行
的
,这
两个
数据
帧</e
浏览 0
提问于2021-04-08
得票数 1
2
回答
使用
Dask
导入大型CSV文件
、
、
、
、
我正在使用
Dask
导入一个非常大
的
csv文件,大约680 am,然而,输出并不是我所期望
的
。我
的
目标是只选择一些
列
(6/50),并可能过滤它们(这一点我不确定,因为似乎没有
数据
?): file_path = "/Volumes/Seagate/Work/Tickets/Third ticket/Extinction/spec
浏览 6
提问于2021-07-03
得票数 3
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何只用一行代码让 Pandas 加速四倍?
pandas系列学习(五):数据连接
如何只用一行代码让Pandas加速四倍?
Python数据预处理:使用Dask和Numba并行化加速
处理数据,大数据甚至更大数据的 17 种策略
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券