腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Dask
DataFrame.map_partition()以写入db表
python
、
mysql
、
dask
、
dask-distributed
我有一个
dask
dataframe,它包含一些转换后的
数据
。我想把这些
数据
写回mysql表。我已经实现了一个函数,它获取一个
数据
帧
,一个db url,然后将该
数据
帧
写回
数据
库。因为我需要一些来对
数据
帧
的
数据
进行一些最后的编辑,所以我使用pandas df.to_
dict
('record')来处理写操作。= df.to_
dict
(records
浏览 0
提问于2017-11-30
得票数 0
1
回答
Dict
to
dask
数据
帧
python
、
pandas
、
dataframe
、
dask
每个delayed对象的计算值必须转换为
dask
.Dataframe中的一个条目。list_of_list: values2 = {} intermediate =
dask
.delayed(myfunc)(source) values1[source_name] =
dask
.delayed(myfun
浏览 26
提问于2020-07-28
得票数 0
2
回答
如何将
Dask
DataFrame转换为字典列表?
python
、
pandas
、
dictionary
、
parallel-processing
、
dask
我需要将
dask
数据
帧
转换为字典列表,作为API端点的响应。我知道我可以将
dask
数据
帧
转换为pandas,然后从那里我可以转换为字典,但最好将每个分区映射到一个字典,然后连接。我尝试过的: df = dd.read_csv(path, usecols=cols) dd.compute(df.to_
dict
(orient='records')) 我得到一个错误: AttributeError: 'DataFrame' objec
浏览 30
提问于2020-04-08
得票数 2
回答已采纳
1
回答
尽管我使用的是建议的方法,
Dask
还是输出了使用client.scatter的警告
python
、
python-3.x
、
dask
、
dask-distributed
在
dask
distributed中,我收到了以下警告,这是我意想不到的:import pandas
dask
_df= dd.from_pandas(pandas.DataF
浏览 9
提问于2018-02-22
得票数 6
回答已采纳
1
回答
用Fuzzywuzzy语言处理不均匀
数据
帧
python-3.x
、
dask
我正在尝试合并两个大型
数据
帧
(一个是50k+值,另一个是650k+值--从7M+中删减下来)。合并/匹配是通过完成的,以查找第一个
数据
帧
中的哪个字符串与另一个
数据
帧
中的哪个字符串最接近。这样做时,
Dask
会返回以下错误:“NotImplementedError: Series getitem In只支持具有匹配分区结构的其他系列对象” 该错误可能是由于我的
数据
帧
大小不相等造成的。在尝试将my pandas
数据</em
浏览 3
提问于2019-07-28
得票数 0
1
回答
连接来自文件读取的包时出现意外行为
python
、
dask
我是
Dask
的新手,来自Apache Spark平台。我正在尝试在
Dask
中复制一个例程,在那里我每天加载JSON文件,并选择要包括在下游计算中的一些字段。我发现for循环没有展开,因此只有最后一个append是有效的(在我的例子中,这是文件
数据
的最后一天)。我认为在追加操作期间我需要某种形式的复制操作符来生成该
数据
帧
的副本,但我无法从文档中找到任何信息。我目前的解决方法是计算一个pandas
数据
帧
并将其追加,这是可以的,但我想知道是否有更好的方法。import <em
浏览 14
提问于2021-02-02
得票数 0
1
回答
达克:写/读后的不同意指标
python
、
pandas
、
dataframe
、
dask
我有一只熊猫DataFrame,df,我把它变成了DataFrame,
dask
_dfimport
dask
.dataframe as dd
dask
_df = dd.from_pandas(df, npartitions=1) 当我把
dask
_df的索引变成熊猫的
数据
后,我检查了一下,
浏览 1
提问于2019-09-16
得票数 1
2
回答
一种简单的
dask
分布式
数据
帧
逆向处理方法
python
、
dask
我尝试使用[::-1]颠倒
dask
数据
帧
的顺序,但得到了一个只能使用iloc索引的NotImplementedError,比如[:, ['foo']] e.g tmp=pd.DataFrame(
dict
(a=[0,1,1,1,0,1,0,1], b=[0,0,0,0,1,0,0,1]))tmp[::-1] 如何在不将整个
数据
帧
加载到内存中的情况下,轻松地颠倒排序后的
数据
<
浏览 18
提问于2019-04-02
得票数 2
回答已采纳
1
回答
如何在对每个文件使用不同的skiprows值的同时,将
dask
的dataframe.read_csv与google storage globstring结合使用?
python
、
pandas
、
dataframe
、
dask
我在google存储桶中有一些文件夹,其中包含CSVs,我正在尝试将这些CSVs读取到
dask
.dataframe中,以便对文件进行并行标准化。例如:其中一些
数据
帧
可能缺少其他
数据
帧
所具有的列,因此我希望将缺少的列插入到缺少它的每个
数据
帧
中。在通过
dask
.dataframe使用全局字符串之前,我可以遍历目录并分析每个文件。下面是我在这种情况下使用的逻辑:file_analysis =
dict</em
浏览 7
提问于2021-06-08
得票数 0
1
回答
Dask
-在map_partition调用时返回
dask
.dataframe
python-3.x
、
pandas
、
dataframe
、
dask
、
dask-dataframe
我想知道如何在调用map_partitions而不是pd.Dataframe时返回
dask
Dataframe,以避免内存问题。输入
数据
帧
---------------------2 Max pet_2def get_pets_appointments(df):
dask
_dd
浏览 2
提问于2020-12-01
得票数 0
1
回答
同时使用结果时,向分布式客户端提交
dask
数组
python
、
dask
、
dask-distributed
我有代表视频
帧
的
dask
数组,并希望创建多个视频文件。我正在使用imageio库,它允许我将框架“附加”到ffmpeg子进程。future_list = _client.compute(frame_arrays) future_
dict
=
dict
(zip(frame_keys我在想一个解决方案,用户说“我想一次处理X
帧
”,所以我发送50
帧
,写50
帧
,发送50多个
帧
,写50
帧
,等
浏览 2
提问于2019-02-05
得票数 0
回答已采纳
2
回答
向
dask
.dataframe添加
dask
.array列
python
、
dataframe
、
dask
我有一个
dask
数据
帧
和一个
dask
数组,它们以相同的逻辑顺序具有相同的行数。
数据
帧
行通过字符串进行索引。我正在尝试将一个数组列添加到
数据
帧
中。我尝试了几种方法,但都以其特定的方式失败了。当结构在逻辑上兼容时,将
dask
数组列添加到
dask
数据
帧
的正确方法是什么?
浏览 15
提问于2018-01-09
得票数 8
1
回答
如何将MultiIndex熊猫
数据
帧
转换为
Dask
数据
帧
python
、
pandas
、
dataframe
、
dask
、
multi-index
我试图将两个变量(一个ID和一个DateTime变量)为MultiIndexed的熊猫
数据
帧
转换为
dask
数据
帧
,但是我得到了以下错误; "NotImplementedError:
Dask
doesnot support MultiIndex Dataframes" 我正在使用下面的代码 import pandas as pd
dask
_df= dd.from_panda
浏览 18
提问于2019-07-02
得票数 2
回答已采纳
1
回答
在
Dask
中使用尚未实现的Pandas函数
python
、
pandas
、
dask
、
dask-distributed
、
dask-delayed
我相信在使用
Dask
数据
帧
时,我在
Dask
教程中看到了一个关于如何使用
Dask
框架中尚未实现的Pandas函数的建议,但我似乎看错了地方。例如,我想使用Pandas函数'ewm‘。作为一种变通方法,我将
Dask
数据
帧
转换为Pandas
数据
帧
,在Pandas
数据
帧
上运行ewm,然后将它们转换回
Dask
,以便以后进行更多内存密集型操作。效率不是最高的。 有没
浏览 10
提问于2019-06-02
得票数 1
回答已采纳
2
回答
如何检索命名相似的csv文件并使用它们创建
数据
帧
python
、
pandas
、
dataframe
它们的格式都与列名和
数据
类型相同。有没有一种方法可以编写一个for循环或类似的东西来将它们放入并命名它们,而不是手动将它们分别放入一个
数据
帧
(nba_1 = pd.read_csv('/nba_1.csv'))中?
浏览 3
提问于2019-09-12
得票数 0
1
回答
在
DASK
上运行的cuML函数?那么
dask
_cudf操作呢?
python
、
dataframe
、
dask
、
rapids
如何在大型
数据
集
dask
_cudf上运行
dask
_cuML (例如逻辑回归)?例如,有人知道在
dask
_cudf
数据
帧
上运行逻辑回归的步骤吗?1-将gdf cudf转换为
dask
_cudf。ddf =
dask
_cudf.from_cudf(
浏览 1
提问于2020-02-06
得票数 0
2
回答
索引到
Dask
系列可以返回
Dask
系列
python
、
pandas
、
dask
我有
Dask
系列的
Dask
数据
帧
。但是,使用loc[0]会导致另一个
dask
系列。使用to_frame也不起作用,因为结果是"
Dask
系列
Dask
数据
帧
的
Dask
数据
帧
“。下面是一个使用
Dask
系列Pandas
数据
<e
浏览 3
提问于2020-02-03
得票数 1
1
回答
无法从pandas转到
dask
dataframe,内存错误
python
、
pandas
、
dask
、
dask-distributed
我有一个有700万条记录的pandas
数据
帧
,我正在尝试创建一个
dask
数据
帧
,但我总是遇到内存问题。recent call last): File "C:\Users\user\venv\lib\site-packages\
dask
= name or ('from_pandas-' + tokenize(data, chunksize
浏览 9
提问于2019-01-29
得票数 1
回答已采纳
0
回答
Dask
图的执行和内存使用
python
、
dask
、
dask-delayed
我正在
dask
中构建一个非常大的DAG,以提交给分布式调度器,在分布式调度器中,节点操作
数据
帧
,而
数据
帧
本身可能非常大。一种模式是,我有大约50-60个函数,用于加载
数据
和构造pandas
数据
帧
,每个
数据
帧
大小为几百MB (并且逻辑上表示单个表的分区)。我想将这些连接到图中下游节点的单个
dask
数据
帧
中,同时最小化
数据
移动。(df) for df
浏览 6
提问于2017-06-07
得票数 4
1
回答
合并两个大型
数据
帧
python
、
pandas
、
dataframe
、
merge
我有两个大
数据
帧
:一个包含3M行,另一个包含2M行第一个
数据
帧
: sacc_id$ id$ creation_date0 001A000000hAUn8IAG我在这里的一些讨论中看到
Dask
可以提
浏览 16
提问于2019-01-31
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python数据预处理:使用Dask和Numba并行化加速
Python数据类型之字典dict
四个数据结构:list、tuple、dict和set
tcp/ip模型中,帧是第几层的数据单元?
24招加速你的Python,超级实用!
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券