腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
HighLevelGraph短路
计算
、
、
我试图获取一个
DataFrame
ddf并返回一个与ddf相同的新
DataFrame
,除非ddf有一个空
分区
,它应该指向最近的非空组件。例如,如果ddf有[P1, P2, P3, P4, P5, P6]
分区
,其中P2、P3和P6为空Pandas DataFrames,那么它将返回以下
Dask
DataFrame
:[P1, P1, P1,HighLevelGraph.from_collections(name, dsk, dependencies=[ddf]) return new_dd_
浏览 0
提问于2019-05-29
得票数 1
回答已采纳
1
回答
选择子集后将其转换为pandas时,
Dask
dataframe
内存不足
、
、
、
、
import
dask
.
dataframe
as dd 现在我需要其中一列的值计数和归一化值计数: counts % int64 float64现在,在其中一列
中
,我希望所有记录的值都为null,然后执行与前面相同的操作,即va
浏览 1
提问于2021-09-23
得票数 0
3
回答
如何将
Dask
.
DataFrame
转换为pd.
DataFrame
?
、
、
如何将生成的
dask
.
DataFrame
转换为pandas.
DataFrame
(假设我已经完成了繁重的任务,只想将sklearn应用到聚合结果
中
)?
浏览 27
提问于2016-08-18
得票数 43
回答已采纳
2
回答
如
何在
dask
dataframe
中
设置
(
计算
)
分区
?
、
从拼图或csv文件加载数据时,具有无
分区
。
DASK
文档没有关于如何
设置
和
计算
此...的信息。 如何正确
设置
和
计算
DASK
数据帧的划分?
浏览 14
提问于2019-06-05
得票数 2
1
回答
为什么默认情况下
dask
()只检查第一个
分区
?
、
、
、
dask
版本1.1.4过滤后的
dask
.
dataframe
似乎将行保留在原始
分区
中
。如果一个
分区
的所有行都被过滤掉,那么
分区
将保持为空,但仍保留在生成的
dask
.
dataframe
中
。如果len(第一个
分区
)<n,那么head(n)就不会往外看,并错过行。import
d
浏览 0
提问于2019-07-03
得票数 1
回答已采纳
1
回答
将列表指定为
Dask
-
Dataframe
列
、
、
我有一个
dask
-
dataframe
,并使用一些列来处理熊猫date_range进程,它将创建如下列表:在那之后,我想像熊猫一样,把列表分配到列
中
: 但
浏览 0
提问于2021-08-16
得票数 1
1
回答
在单个列上执行操作时,
dask
是否加载所有列?
每当我使用
dask
数据帧进行
计算
时,我都会确保只加载必要的列,以便能够节省
计算
速度。为什么当我加载整个
浏览 1
提问于2019-03-14
得票数 2
1
回答
dask
dataframe
:来自
分区
的生成器
、
、
、
、
我想知道是否有可能将
dask
对象转换为生成器。具体地说,是否可以使用
dask
数据帧复制以下pandas-based生成器,将每个
分区
转换为生成器:import
dask
.
dataframe
as dd ddf = dd.from_pandas(df, npartitions=3)
浏览 7
提问于2021-07-09
得票数 1
2
回答
在dataframes
中
,“
计算
()”背后的逻辑是什么?
、
、
、
我很难理解何时什么时候不要在
Dask
数据仓库中使用compute()。我通常通过添加/删除compute()来编写代码,直到代码生效,但这是非常容易出错的。我应该如
何在
达斯克中使用compute()?
浏览 2
提问于2021-05-23
得票数 1
回答已采纳
3
回答
`set_index`可以将一个索引放入多个
分区
吗?
、
、
、
从经验上看,每当您在
dataframe
上使用set_index时,
Dask
总是会将具有相同索引的行放入单个
分区
中
,即使它会导致严重不平衡的
分区
。下面是一个演示:import
dask
.
dataframe
as dd ddf = dd.from_
浏览 1
提问于2021-10-14
得票数 6
回答已采纳
1
回答
将
Dask
DataFrame
的特定
分区
保存到地板上
、
、
我有这个非常大的
dataframe
(大约5,000,000行),我已经将它分割成20个
dask
分区
。有没有办法保存每个
分区
,一次一个。
Dask
版本= 2022.01.1拼花引擎和版本= ..。
浏览 3
提问于2022-08-04
得票数 0
1
回答
按行块处理
dask
数据帧
、
、
我有一个使用某个blocksize的区块创建的
dask
数据帧 df = dd.read_csv(filepath, blocksize = blocksize * 1024 * 1024) 我可以像这样分块处理它not_so_trivial_func(arg_data)result = sum(partial_results) 有没有可能用
dask
我知道由于懒惰的评估,不可能使用iloc,但是否可以以不同的方式对数据帧进行
分区
?如果不是,使用
dask
浏览 11
提问于2021-01-22
得票数 1
回答已采纳
1
回答
dask
索引的行为不像列(也不像pandas
中
的那样)
、
在这个bug报告
中
:https://github.com/
dask
/
dask
/issues/8319我有一个解决以下问题的方法。由于这似乎超出了该bug报告的范围,因此我将在这里询问最初的问题: import pandas as pddf = pd.
DataFrame
version ddf =
dask
.
dataframe</
浏览 25
提问于2021-11-02
得票数 0
回答已采纳
1
回答
使用从拼花文件创建的
dataframe
时内存使用量过高
、
1)因此,我的问题是,为什么这些简单的操作会使用
Dask
Dataframe
来破坏内存的使用,但是当我使用Pandas
Dataframe
将所有内容加载到内存
中
时却能很好地工作?我注意到了npartitions=1,我在文档中看到read_parquet“将Parquet数据目录读取到
Dask
.
dataframe
中
,每个
分区
只有一个文件”。在我的例子
中
,听起来我正在失去拥有多个
分区
的所有并行化功能,但是
Das
浏览 0
提问于2018-12-24
得票数 6
回答已采纳
1
回答
如何为超过1亿行的数据库表修复
Dask
内存错误
、
、
我正在用
dask
.
dataframe
.read_sql_table连接到Oracle数据库,尝试跨越一些较大的表,其中一些表有超过1亿行,然后将它们以拼花格式写到s3桶
中
。但是,即使我试图指定
Dask
建议的
分区
数,我仍然会遇到内存错误。我读过一些关于
dask
.distributed的文章,但不知道如
何在
dask
.
dataframe
.read_sql_table中使用它。如果有人对如何使用
dask
.
datafr
浏览 2
提问于2019-11-18
得票数 0
回答已采纳
1
回答
N
分区
是否会影响
dask
.
dataframe
.head()的结果?
、
、
当运行以下代码时,
dask
.
dataframe
.head()的结果取决于n
分区
:import pandas as pdddf = dd.from_pandas(df, npartitions = 3)这将产生以下结果:0 1 2 但是,当我将n
分区
设置
为1或2时,我得到了预期的结果:
浏览 1
提问于2016-07-09
得票数 8
回答已采纳
1
回答
如何识别重复(意外)`repartition split-repartition merge`任务的原因?
、
在
Dask
通过ddf.visualize()输出的任务图中,我看到了许多*-repartition-split-repartition-merge任务,其中的*可以是join、rename或我从应用程序
中
识别的其他任务我试图确定这些数据是从哪里来的,它们是否会对性能产生影响(我想象不断地重新划分/拆分/合并数据是有成本的,而不会直接帮助我的
计算
目标),如果是的话,我如何删除它们。在distributed提供的performance_report
中
,它们似乎占据了
计算
时间。查看
D
浏览 9
提问于2020-03-06
得票数 1
回答已采纳
3
回答
将一个大型
Dask
dataframe
与一个小型Pandas
dataframe
合并
、
、
下面的示例是:,我试图将一个~70 as的
Dask
数据帧与我作为Pandas数据frame加载的~24 as数据帧合并。合并位于两个列A和B上,我没有
设置
任何索引:from
dask
.diagnostics import ProgressBar large_df = dd.read_csv(
dataframe
2) #as
浏览 16
提问于2016-09-13
得票数 26
1
回答
如何使用
dask
/
dask
-cudf将单个大型拼图文件读入多个
分区
?
、
我正在尝试使用
dask
_cudf/
dask
读取单个大的parquet文件(size > gpu_size),但它当前正在将其读取到单个
分区
中
,我猜测这是从文档字符串推断出的预期行为:
dask
.
dataframe
.read_parquetstorage_options=None, engine='auto', gather_statistics=None, **kwargs): Read a Parquet file into a
D
浏览 18
提问于2019-10-18
得票数 3
回答已采纳
2
回答
如何处理大于内存的数据集?
、
、
但在同一页的后面: 一只
DataFrame
是由几只记忆
中
的熊猫DataFrames组成的,它们沿着这个索引分离开来。
Dask
是否顺序地从磁盘读取不同的
DataFrame
分区
并执行
计算
以适应内存?它是否在需要时将一些
分区
溢出到磁盘?通常,
Dask
如何管理数据的内存<->磁盘IO以允许大于内存的数据分析?我试着在10M MovieLens数据集上执行一些基本的
计算
(例如平均评分),而我的笔记本电脑(8GBRAM)开始交换数据
浏览 6
提问于2016-03-28
得票数 7
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
处理数据,大数据甚至更大数据的 17 种策略
(新版)Python 分布式爬虫与 JS 逆向进阶实战-梦里有时终须有
Python数据预处理:使用Dask和Numba并行化加速
24式加速你的Python
如何管理Spark的分区
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券