为dask dataframe列创建dask列表_从dask系列列表创建dask DataFrame_重塑dask数组(从dask dataframe列获得) - 腾讯云开发者社区

、、

我想要一个dask dataframe列的唯一值的列表。在unique()之后使用compute()是可行的，但是它需要花费大量的时间，而且没有并行化。Name':['Tom', 'nick', 'krish', 'jack', 'krish', 'jack'], 'Age':[20, 21, 19, 18, 25, 31]} # Create DataFrame

浏览 6提问于2019-08-22得票数 1

1回答

来自延迟压缩csv的Dask数据

、、、

我正在尝试从一组压缩的CSV文件中创建一个dask数据文件。读到这个问题，dask似乎需要使用dask.distributed延迟()import dask.dataframe as ddimport pandasas pd #Create zip_dict with key-value pairs for .zip & .csv na

浏览 0提问于2018-10-19得票数 2

1回答

KeyError:当尝试选择dask数据框上的列时：“没有[索引([‘’，'']，dtype='object')]在[列]中”

、

我正在使用from_pandas()函数从熊猫数据帧创建一个dask数据帧。当我尝试使用方括号[ ]从dask dataframe中选择两列时，我得到了一个KeyError。根据dask文档，dask dataframe支持像pandas dataframe一样的方括号列选择。# data is a pandas dataframe dask_df = ddf.from_panda

浏览 67提问于2019-10-04得票数 1

1回答

如何在Dask* DataFrame中按列分组并作为一个列表列出另一列？*

、、

我有一个Dask DataFrame，我想从其中按列分组，并将agg作为其他列的列表。

浏览 15提问于2019-06-06得票数 0

1回答

在Dask* dataframe中在数字列中设置零*

、

此代码筛选列类型为int或float的dataframe中的所有列，如果存在NaN，则填充零：df_dask = df_dask.where(df_dask.notnull(), 0) 问题是原始

浏览 1提问于2021-05-25得票数 0

回答已采纳

1回答

Pandas-Dask* DataFrame Apply函数，返回列表*

、、、

我正在尝试向dask数据帧添加多个列，以存储apply函数的结果。这将是我关于堆栈溢出的第一个问题，我希望这个问题不会太长！我的困惑在于，如果我希望我的函数返回一个列表而不是单个值，那么我该如何着手在dask数据帧中创建多个列。return NewValue设置为</e

浏览 5提问于2018-10-11得票数 1

1回答

如何将dask数据交换(将列转换为行)以接近整洁的数据原则

、、、、

TLDR：我从一个dask包创建了一个dataframe。dask dataframe将每个观察(事件)作为一列对待。因此，我没有为每个事件设置行数据，而是为每个事件设置了一列。为了达到我的起点，下面是将json从磁盘读入dask.bag并将其转换为dask.dataframe的代码import dask.da

浏览 7提问于2016-08-04得票数 4

回答已采纳

1回答

替换dask数据帧分区

我是否可以用我单独创建的另一个dataframe分区替换一个dataframe分区，该分区的行数和结构相同？如果是，怎么做？有可能有不同的行数吗？

浏览 3提问于2018-06-29得票数 2

回答已采纳

3回答

在dask* DF中跨多个列展开类似列表的列*

、、

这与前面关于如何跨多个列扩展基于列表的列的问题类似，但我看到的解决方案似乎不适用于Dask。请注意，我正在使用的真正的DFs太大，无法保存在内存中，因此不能首先转换为pandas。我有一个包含列表的df with列： df = pd.DataFrame({'a': [np.random.randint(100, size=4) for _ in range(20)]})18 [79, 44, 4

浏览 27提问于2021-09-29得票数 3

回答已采纳

1回答

为什么dask_ml.preprocessing.OrdinalEncoder.transform会产生不按序号编码的结果？

、、

我对的结果感到困惑from dask_ml.preprocessing import OrdinalEncoderas DaskOrdinalEncoderimport pandas as pd np.random.seed(1234) [1., 2.], [1., 0.],

浏览 7提问于2021-05-07得票数 0

回答已采纳

1回答

找到重复的值

、、

我需要在dask DataFrame中的列中找到副本。Q:，在dask中获取所有重复值的最佳方法是什么？我的想法：创建一个作为索引的列，然后是drop_duplicates，然后是join。df = pandas.DataFrame( ['a'], ['b'

浏览 3提问于2020-10-08得票数 3

1回答

dask.DataFrame.apply与变长数据

、

我想将一个函数应用到一个dask.DataFrame，它返回一系列可变长度。np.random.randint(100) 背景/ usecase:在我的data

浏览 3提问于2016-12-13得票数 2

回答已采纳

2回答

初始化dask系列

、、

我试图在dask dataframe中添加一个列，但它不允许我添加list类型的列，所以我尝试了一下，发现它会添加一个dask序列。但是，我无法将我的列表转换为dask系列。你能帮帮我吗？

浏览 1提问于2017-09-06得票数 2

1回答

使用apply函数在Dask中添加两列

、、

我有一个Dask函数，可以将列添加到现有的Dask dataframe中，它可以很好地工作： df = pd.DataFrame({ 'weight': [150, 126, 133, 164, 203]obj

浏览 50提问于2021-10-21得票数 1

回答已采纳

1回答

将dask系列列表转换为dask DataFrame

、、、、

我有一个包含几个dask系列的列表。每个系列都是布尔型的，长度相同。这里有三个元素的摘录，只是为了展示它们。Name: Sequence, dtype: boolnpartitions=15Dask Name: eq, 75 tasks, Dask Series Structure:

浏览 0提问于2020-03-27得票数 2

2回答

dask定制DataFrame加载

、、、、

我已经有了一个函数来创建熊猫的数据格式，但是运行起来代价很高。dask.dataframe.from_delayed逻辑地合并所有数据帧，就好像它们是一个可迭代的数据帧一样。当调用时，from_delayed遍历迭代(示例代码中的生成器)并创建延迟(pd.dataframe)的。 for i in range(10): sleep(10) #Looping this generato

浏览 5提问于2022-05-04得票数 0

2回答

将20K请求+过滤器并行化&将结果合并为1个数据

、、

我需要进行大约20K的API调用，每个调用都返回一个CSV文件，然后我必须对该文件执行一些操作，最后，将所有结果连接到一个数据文件中。我试过好几种东西，但我在挣扎.我已经完成了任务并行化，并在大约8秒内完成了200个API调用，但是我不能将所有的结果连接到一个单一的数据文件中.会很感激你的帮助。这就是我所拥有的： from concurrent.futures import ThreadPoolExe

浏览 8提问于2022-10-24得票数 1

1回答

使用dask.bag和pandas.DataFrame将字典的dask.delayed转换为dask.dataframe

、

我正在努力将字典的dask.bag转换为dask.delayed pandas.DataFrames，使之成为最终的dask.dataframe 我有一个函数(make_dict)将文件读入相当复杂的嵌套字典结构，另一个函数(make_df)将这些字典转换为pandas.DataFrame (由此产生的数据为每个文件大约100 mb )。我成功地将数据加载到dask.bag中，生成了一个在调用compute()之后可以在本地使用的dicts列表或pan

浏览 3提问于2019-03-22得票数 5

回答已采纳

1回答

从多个csv文件读取外部连接

import dask.dataframe as ddfrom dask import delayed df1 = df1.astype({'a':np.float64}) df2 = pd.DataFrame({'a': np.random.rand

浏览 2提问于2016-12-14得票数 2

回答已采纳

1回答

将Python系列转换为list或Dask* DataFrame or for循环*

、、、

目前，我必须.compute()的达克系列，然后我可以将它转换为一个列表。我在克服这个问题上有困难。另一种方法是从Dask系列N创建一个单行Dask。然后，垂直地将这个单行DF连接到一个空白的Dask (

浏览 1提问于2017-05-03得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云