腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
dask
中
搜索
行
后
获取
列
值
python
、
pandas
、
dask
我有一个熊猫数据帧,我使用
dask
的from_pandas函数将其转换为
dask
数据帧。它有3
列
,即col1、col2和col3。现在,我使用daskdf[(daskdf.col1 == v1) & (daskdf.col2 == v2)]
搜索
特定的
行
,其中v1和v2是我要
搜索
的
值
。但是,当我尝试使用daskdf[(daskdf.col1 == v1) & (daskdf.col2 == v2)]['col3']
获取
浏览 8
提问于2021-04-13
得票数 3
回答已采纳
1
回答
对
DASK
中
的
列
中
的每个
值
运行mysql查询
python
、
mysql
、
dask
此CSV文件作为
dask
-dataframe导入。进入数据帧
后
,我需要为id
列
中
的每个条目
获取
该user-id,并在其上运行一个SQL查询来
获取
该user -id的用户名,并将其添加到新
列
中
的dataframe。我有几个这样的
列
需要
获取
。我不确定对
DASK
数据帧
中
的
值
运行select查询的
dask
方法是什么。我该怎么做呢?我不想走命令式路线,并使
浏览 26
提问于2020-03-18
得票数 1
回答已采纳
2
回答
Dask
Dataframe View整行
python-3.x
、
dask
我想看到
dask
数据帧的整行,而不是截断字段,
在
pandas
中
,命令是pd.set_option('display.max_colwidth', -1),
dask
是否有等效的命令?我什么也找不到。
浏览 0
提问于2019-01-02
得票数 3
1
回答
找到重复的
值
python
、
pandas
、
dask
我需要在
dask
DataFrame
中
的
列
中找到副本。Q:,
在
dask
中
获取
所有重复
值
的最佳方法是什么?我的想法:创建一个作为索引的
列
,然后是drop_duplicates,然后是join。 ['a'], ['b
浏览 3
提问于2020-10-08
得票数 3
2
回答
遍历
dask
序列(从
dask
序列
中
获取
唯一
值
到列表)
python
、
dask
我需要遍历
dask
dataframe
中
的唯一
值
。我使用.unique()来
获取
列
的惟一
值
,但是现在给了我一个不能用来迭代的
dask
对象。我需要知道如何将这些唯一
值
从这个
dask
对象
中
获取
到一个列表(或类似的内容)
中
,这样我就可以使用这些
值
来迭代
dask
数据帧。
浏览 19
提问于2019-06-02
得票数 1
回答已采纳
1
回答
如何通过编程关闭分布式工作窃取
dask
、
dask-distributed
我从调度器文件(通过
dask
创建)和LocalClusters为用户创建客户端对象。如何在安装过程
中
,不让用户自己完成工作,就可以为用户关闭窃取工作的功能?
浏览 0
提问于2018-03-18
得票数 1
回答已采纳
1
回答
如何在
dask
.dataframe中子集一
行
?
python
、
dataframe
、
subset
、
dask
我试图使用命令
dask
.dataframe从x.loc[0].compute()
中
只选择一
行
。它返回4
行
,所有行都有index=0。我尝试了reset_index,但在重置
后
仍有4
行
具有index=0。(我认为我重置是正确的,因为我做了reset_index(drop=False),我可以
在
新
列
中看到原始索引)。我阅读了
dask
.dataframe文档,它说明了index=0可能有多个
行
,这是因为
dask</
浏览 0
提问于2019-02-02
得票数 4
回答已采纳
1
回答
在
单热编码ML工作负载
中
,何时使用暗阵列与
dask
数据帧
python
、
dask
我认为
dask
对我来说可能是一个很好的解决方案。但是,我希望确保可以将其编码为一个单热矩阵。我查看了
dask
-ml
中
的选项,它们似乎总是需要一个
dask
数据帧。然而,创建一个有2000万
列
的数据帧似乎真的很奇怪,而且可能会导致大量开销。使用
dask
数组并以某种方式使用apply on axis将每一
列
转换为1-hot会更容易吗?谢谢你的建议。
浏览 9
提问于2018-02-14
得票数 2
1
回答
为什么
dask
_ml.preprocessing.OrdinalEncoder.transform会产生不按序号编码的结果?
dask
、
dask-dataframe
、
dask-ml
我对的结果感到困惑from
dask
_ml.preprocessing import OrdinalEncoder[0., 2.], [1., 0.], [2., 0.],
dask
它只返回初始输入DataFrame: >>> DaskOrdinalEncoder().fit_transform(df_dd).c
浏览 7
提问于2021-05-07
得票数 0
回答已采纳
1
回答
什么是最快的方式循环通过排序的达克数据?
python-3.x
、
pandas
、
dask
我是Pandas和
Dask
的新手,dataframes包着熊猫的数据文件,并共享大多数相同的函数调用。但是它运行得很慢(大约需要8个小时),有更快的方法吗?我之所以使用
dask
,是因
浏览 3
提问于2020-01-31
得票数 0
回答已采纳
1
回答
dataframe连接和重新分区大文件,用于时间序列和相关性。
python
、
dataframe
、
concatenation
、
dask
我有11年的数据和记录(
行
)每秒钟,超过100
列
。它用一系列的日期时间(用Pandas to_datetime()创建)进行索引,我们需要能够
在
列
之间进行一些相关分析,一次只能加载两个
列
。
在
长达11年的时间里,把这些关联想象成11年。 数据目前
在
11个单独的拼花文件
中
(每年一个),从11个.txt文件
中
单独生成Pandas。熊猫没有对任何这些文件进行分区。在内存
中
,这些拼花文件
中
的每一个都加载了大约
浏览 29
提问于2022-06-20
得票数 1
3
回答
dask
_geopandas:只有几何
列
的GeoDataFrame
python
、
dask
、
geopandas
、
shapely
、
dask-dataframe
points = [Point(0,0)]gdf = gpd.GeoDataFrame(geometry=gser.values)为了澄清:我有一个
dask
_geopandas.GeoSe
浏览 15
提问于2022-08-09
得票数 1
回答已采纳
3
回答
随机访问一
行
Dask
dataframe需要很长时间。
python
、
dask
、
dask-dataframe
我有一个一亿行数据的
Dask
数据。
在
实验
中
,尝试访问等于1的索引
行
。%time
dask
_df.loc[1].compute()为什么要花这么长时间?提前谢谢。 每一个请求,这是代码。它只是读取1亿
行
数据并尝试访问一
行
。`
dask
_df = dd.read_parquet("/c
浏览 7
提问于2022-07-01
得票数 0
回答已采纳
1
回答
在
dask
dataframe中用每
列
最大
值
填充NaNs
python
、
dask
当值为np.nan时,我需要在数据中计算每个
列
中
的最大数目。不幸的是,
在
SimpleImputer
中
,根据文档,这种策略是而不是支持的: meta = [('height', 'float'),('weight', 'float')] df_
dask
= df_
dask
.apply(lam
浏览 8
提问于2022-08-21
得票数 1
回答已采纳
3
回答
在
拼图中使用
Dask
date/timestamp
列
进行存储
python
、
dask
、
parquet
、
apache-drill
、
pydrill
我有一个
Dask
数据框,它有两
列
,一个是日期,一个是
值
。我是这样存储的: ddf.to_parquet('/some/folder', engine='pyarrow', overwrite=True) 我希望
Dask
将date
列
存储为Parquet
中
的date例如,我得到: 1546300800000000而不是2019-01-01 1548979200000000而不是2019-02-01 有没有办法告诉
Dask</
浏览 16
提问于2021-04-03
得票数 1
回答已采纳
1
回答
如何更改
dask
数据帧
中
的
行
和
列
?
pandas
、
dask
我
在
使用
Dask
Dataframes时遇到了一些问题。假设我有一个包含2
列
['a','b']的数据帧
在
熊猫
中
,我会这样做:
在
dask
中
,我正在执行相同的操作,如下所示: df = df.assign(c=(df.a + df.b).co
浏览 0
提问于2015-09-03
得票数 9
1
回答
在
单个列上执行操作时,
dask
是否加载所有
列
?
dask
每当我使用
dask
数据帧进行计算时,我都会确保只加载必要的
列
,以便能够节省计算速度。 我只是不明白
dask
是如何在内部工作的,为什么他不能从拼花柱状格式
中
受益。在下面的小示例
中
,test.parquet是一个包含13
列
各种数据类型、10M
行
和16个分区的拼图文件。正如您所看到的,如果我只对单个
列
的最小
值
感兴趣,那么当我只加载目标
列
时,速度会有非常明显的提高。
在
使用分布式调度器时,我还可以看到加载到内
浏览 1
提问于2019-03-14
得票数 2
1
回答
从
Dask
Dataframe
获取
一
行
,而无需将整个Dataframe加载到内存
中
python
、
pandas
、
machine-learning
、
bigdata
、
dask
dask
是否可以一次将一
行
加载到内存
中
?我有一个巨大的200 at数据集,我希望
dask
在给定索引的情况下一次检索一
行
。然后,我想要从
行
中
获取
numpy数组。当我尝试呼叫时:df_row = df_row.values.compute()
Dask
尝试将整个df加载到内存
中
,而不是只加载一小
行
。如果我不调用compute而只是调用
值
,
浏览 16
提问于2018-08-01
得票数 2
回答已采纳
1
回答
在
Dask
dataframe
中
在数字
列
中
设置零
python
、
dask
此代码筛选
列
类型为int或float的dataframe
中
的所有
列
,如果存在NaN,则填充零:df_
dask
= df_
dask
.where(df_
dask
.notnull(), 0) 问题是原始的datafram
浏览 1
提问于2021-05-25
得票数 0
回答已采纳
1
回答
Pandas-
Dask
DataFrame Apply函数,返回列表
python
、
pandas
、
dataframe
、
dask
我正在尝试向
dask
数据帧添加多个
列
,以存储apply函数的结果。这将是我关于堆栈溢出的第一个问题,我希望这个问题不会太长!数据帧,然后将函数'dfFunc’应用到数据帧的每一
行
。我的困惑在于,如果我希望我的函数返回一个列表而不是单个
值
,那么我该如何着手
在
dask
数据帧
中
创建多个
列
。 从之前的线程来看,通过使用列表,这应该是
在
Pandas Dataframe
中
添加
列
。,它似乎不能很好地工作
浏览 5
提问于2018-10-11
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Qt Sql使用的简单封装
处理数据,大数据甚至更大数据的 17 种策略
Python数据预处理:使用Dask和Numba并行化加速
8个最实用的Excel技巧,你绝对会用得上!
肝了3天,整理了90个Pandas案例
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券