腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(327)
视频
沙龙
1
回答
Dask
Map
Tensorflow
跨
分区
、
、
我有一个
Tensorflow
模型,我想在我的
Dask
Dataframe上运行(而不是训练)。我使用的是
map
_partitions。但是,当我查看仪表板以检查进度时,它只为所有工作运行了一个任务。我希望它能并发地处理
分区
。我做错了什么?feed_dict=inputs_feed_dict)函数encode_factory接受
Tensorflow
embedded_docs.append(str(doc_emb
浏览 18
提问于2020-02-12
得票数 0
1
回答
如何确保“
分区
”的数量在达斯克和达斯克-cudf的工人中平均分配?
、
我正在尝试对
跨
工人的大型文件执行一个基本的ETL工作流,使用
dask
-cudf
跨
大量工人。工作人员获得的
分区
的最小数目是4,而它得到的最大
分区
是19 (total partitions = apprx. 300,num_workers = 22) --这种行为会在下游引发问题,因为我希望在工作人员之间分配相同的
分区
})正在执行的工作流程:
浏览 2
提问于2019-10-04
得票数 1
2
回答
如何在DataFrame中创建唯一的索引?
、
、
、
、
想象一下,我有一个来自
Dask
DataFrame的read_csv,或者创建了另一种方式。reset_index在每个
分区
中构建一个单调上升的索引。这意味着(0,1,2,3,4,5,.)对于
分区
1,(0,1,2,3,4,5,.)对于
分区
2,(0,1,2,3,4,5,.)用于
分区
3等等。我希望为dataframe中的每一行(
跨
所有
分区
)建立唯一的索引。
浏览 0
提问于2019-06-06
得票数 6
回答已采纳
1
回答
如何为所有工作进程和
分区
预缓存
dask
.dataframe以减少通信需求
、
、
、
、
有时,使用
dask
.dataframe.
map
_partitions进行合并之类的操作很有吸引力。在某些情况下,当使用
map
_partitions在left_df和right_df之间进行合并时,我希望在执行合并之前先预缓存right_df,以减少网络开销/本地混洗。感觉这个right_df应该能够读入内存,并持久/分散到所有工作者/
分区
预合并,以减少
跨
分区
通信的需要,直到最后。我如何分散right_df才能成功做到这一点?下面是使用cuDF和
Das
浏览 0
提问于2019-07-30
得票数 2
1
回答
为什么默认情况下
dask
()只检查第一个
分区
?
、
、
、
dask
版本1.1.4过滤后的
dask
.dataframe似乎将行保留在原始
分区
中。如果一个
分区
的所有行都被过滤掉,那么
分区
将保持为空,但仍保留在生成的
dask
.dataframe中。如果len(第一个
分区
)<n,那么head(n)就不会往外看,并错过行。import
dask
import
dask
.dataframe as dd
浏览 0
提问于2019-07-03
得票数 1
回答已采纳
3
回答
AttributeError:'DataFrame‘对象没有属性'sort_values’
、
、
、
、
2 # df.sort_values(columns, ascending=True) 试用解决方案 这是df.sort_values(columns, ascending=False).head(n)pandas官方
dask
文档中的一个例子--只有pandas --
DAS
浏览 5
提问于2021-01-27
得票数 2
回答已采纳
2
回答
简单的任务
map
_partitions示例
、
、
下面是我的例子:import pandas as pdimport我也不清楚如何向
map
_partitions中的函数传递额外的参数 -------------------------------------------------------------------\site-packages\
dask
\dataframe\core.py in
map
_partition
浏览 0
提问于2017-11-06
得票数 8
回答已采纳
1
回答
提高运行大文件的性能
、
、
、
= pd.concat(df_list) del df_list我尝试过使用
dask
import
dask
.dataframe as ddf df_cols = df_cols.iloc[:,np.r_[1:3,8,12,23
浏览 13
提问于2020-05-18
得票数 3
1
回答
如何找出
Dask
员工对员工连接超时问题的原因?
、
、
随着我的数据集越来越大(因此
分区
的数量和大小也越来越大),我的分布式
Dask
集群中的工作人员最终会因为彼此之间的连接超时而失败。堆栈跟踪不包括对我的代码的任何引用(而是我的venv中的
Dask
),但我确实怀疑我在
Dask
中所做的事情导致了这个问题。早期的任务,自定义延迟和DataFrame函数都已成功完成。通过对数据进行
分区
,使分组数据包含在每个
分区
中(不应该需要洗牌),我已经解决了数据洗牌引起的内存不足问题。我已经确认,没有看到任何洗牌任务运行在仪表板上。尽管记录的堆栈跟踪仍然显示一
浏览 3
提问于2021-09-30
得票数 1
回答已采纳
1
回答
Dask
-在
map
_partition调用时返回
dask
.dataframe
、
、
、
、
我想知道如何在调用
map
_partitions而不是pd.Dataframe时返回
dask
Dataframe,以避免内存问题。-------------------2 Max pet_24 Oscar pet_4def get_pets_appointments(df): <e
浏览 2
提问于2020-12-01
得票数 0
1
回答
将熊猫数据行分配给
Dask
dataframe
分区
、
、
、
假设有X
分区
的
dask
数据帧。假设熊猫的数据有相同的X行数。熊猫数据中的每一行都包含与dataframe的每个
分区
相关的数据。我想将每个熊猫df行分配给一个新的 dataframe
分区
列import
dask
ddf =
dask
.datasets.timeseries() df0 = pd.DataF
浏览 3
提问于2019-10-16
得票数 0
2
回答
迭代
Dask
数据帧
、
、
、
、
Dask
似乎是一个很好的工具。
浏览 18
提问于2020-10-30
得票数 1
1
回答
由于大型数据集上的死/内存错误而导致Bag.to_avro失败
with
dask
.config.set(num_workers=2): read_text(files)
map
(
map
_page_entities) pluck(0).\
m
浏览 0
提问于2018-12-09
得票数 0
回答已采纳
2
回答
python
dask
to_parquet占用大量内存
、
、
、
、
我正在使用python 3和
dask
来读取拼图文件的列表,做一些处理,然后将它们全部放入一个新的联合拼图文件中供以后使用。我正在使用下面的代码 import
dask
.dataframe as dd ddf["file"] = pathwith ProgressBar(): data = b.
map</em
浏览 107
提问于2019-08-04
得票数 2
3
回答
将Pandas DataFrames中的
Dask
包转换为单个
Dask
DataFrame
、
、
、
长版import
dask
.bag as dbbag = db.from_sequence(list_of_files).
map
(my_reader_function) df = bag.<em
浏览 10
提问于2019-12-13
得票数 3
回答已采纳
1
回答
files_per_partitions关键字在
dask
.bag.read_text中的应用
、
、
我不知道如何在files_per_partitions中解释
dask
.bag.read_text关键字。 import
dask
.bag as db from
dask
.d
浏览 3
提问于2021-09-03
得票数 1
1
回答
导入
tensorflow
.contrib.layers作为图层报告错误
/learn_io/__init__.py", line 26, in <module> File "/usr/local/lib/python3.5/dist-packages/
tensorflow
/contrib/
浏览 0
提问于2018-12-02
得票数 0
回答已采纳
1
回答
具有字符串转换的
dask
数据帧问题
、
, 'desc', 'entries', 'exits'] 下面是可以工作但不能转换字符串的
dask
_170107.txt' for i in data:import
dask
import
dask</em
浏览 3
提问于2017-05-06
得票数 2
回答已采纳
2
回答
如何在
Dask
中每个
分区
返回一个NumPy数组?
、
、
我需要计算许多NumPy数组(最多可以是4维的),一个
Dask
数据帧的每个
分区
一个,然后将它们作为数组添加。但是,我正在努力让
map
_partitions为每个
分区
返回一个数组,而不是为所有
分区
返回一个数组。import
dask
.dataframe as dd #
浏览 0
提问于2021-03-04
得票数 0
1
回答
Dask
DataFrame过滤器和重新
分区
给出了一些空
分区
、
、
、
我正在尝试过滤一个
Dask
DataFrame,然后使用
map
_partitions对每个
分区
应用一个函数。该功能预计熊猫DataFrame至少有一排。现在,我使用上面store_id的列表过滤
Dask
数据我再次打印过滤后的ddf的
分区
。
Dask
Name: repartition, 47 tasks 我预期这个重新
分区
操作只会导致大小均匀的非空
浏览 1
提问于2020-05-08
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券