在dask DF中跨多个列展开类似列表的列_在df中的列列表中运行for循环_将列表中的多个df连接到单个df的不同列中 - 腾讯云开发者社区

python、pandas、dask

这与前面关于如何跨多个列扩展基于列表的列的问题类似，但我看到的解决方案似乎不适用于Dask。请注意，我正在使用的真正的DFs太大，无法保存在内存中，因此不能首先转换为pandas。我有一个包含列表的df with列： df = pd.DataFrame({'a&#x

浏览 27提问于2021-09-29得票数 3

回答已采纳

1回答

基于聚合的dask群正确使用

python、distributed、dask

我想了解以下代码中的不同行为。us=dd.read_parquet("/home/......."# x=client.persist(x) 在上面的示例中，我可以使用平均/min/max来聚合列组。但是，对于例如s

浏览 2提问于2017-10-26得票数 0

回答已采纳

1回答

Pandas-Dask DataFrame Apply函数，返回列表

python、pandas、dataframe、dask

我正在尝试向dask数据帧添加多个列，以存储apply函数的结果。这将是我关于堆栈溢出的第一个问题，我希望这个问题不会太长！创建了dask数据帧，然后将函数'dfFunc’应用到数据帧的每一行。这段代码运行得很好，因为输出'res‘是原始的天气数据帧，其中有一个名为'NewCol1’的新列。我的困惑在于，如果我希望我的函数返回一个列表

浏览 5提问于2018-10-11得票数 1

3回答

避免GroupBy在大型Pandas DataFrame上的内存问题

python、pandas、dataframe、memory、dask

更新：df = pd.read_sql(query, engine)从这个df创建一个dask如下所示：使用dask执行操作不会导致任何明显的进展(使用dask诊断检查)： result = df

浏览 1提问于2018-04-26得票数 12

回答已采纳

1回答

为什么dask_ml.preprocessing.OrdinalEncoder.transform会产生不按序号编码的结果？

dask、dask-dataframe、dask-ml

我对的结果感到困惑from dask_ml.preprocessing import OrdinalEncoderas DaskOrdinalEncoderimport pandas as pd np.random.seed(1234) array([[2., 2.], [1.,

浏览 7提问于2021-05-07得票数 0

回答已采纳

1回答

使用apply函数在Dask中添加两列

python、pandas、dask

我有一个Dask函数，可以将列添加到现有的Dask dataframe中，它可以很好地工作： df = pd.DataFrame({ 'weight': [150, 126, 133, 164, 203] df_dask = dd.from_pandas(df, npartitions=2)s = &quo

浏览 50提问于2021-10-21得票数 1

回答已采纳

1回答

如何在Dask* DataFrame中按列分组并作为一个列表列出另一列？*

python、dataframe、dask

我有一个Dask DataFrame，我想从其中按列分组，并将agg作为其他列的列表。

浏览 15提问于2019-06-06得票数 0

2回答

遍历dask序列(从dask序列中获取唯一值到列表)

python、dask

我需要遍历dask dataframe中的唯一值。我使用.unique()来获取列的惟一值，但是现在给了我一个不能用来迭代的dask对象。我需要知道如何将这些唯一值从这个dask对象中获取到一个列表(或类似的内容)中，这样我就可以使用这些值来迭代dask数据帧。df = dd.read_csv('file.csv')

浏览 19提问于2019-06-02得票数 1

回答已采纳

1回答

将Python系列转换为list或Dask* DataFrame or for循环*

python-2.7、list、pandas、dask

我正在使用Pandas中的代码，该代码涉及读取大量文件，然后对循环中的每个文件执行各种操作(循环遍历文件列表)。目前，我必须.compute()的达克系列，然后我可以将它转换为一个列表。我在克服这个问题上有困难。是否可以将N (即Dask系列)垂直附加到空白的Dask中？例如：在Pandas中，我倾向于这样做：df_N = pd.DataF

浏览 1提问于2017-05-03得票数 1

回答已采纳

1回答

在Dask* dataframe中在数字列中设置零*

python、dask

此代码筛选列类型为int或float的dataframe中的所有列，如果存在NaN，则填充零：df_dask = df_dask.where(df_dask.not

浏览 1提问于2021-05-25得票数 0

回答已采纳

1回答

从延迟集合创建大型dask.dataframe时杀死/内存错误

python、dataframe、dask

我正在尝试从一大串CSV文件(目前的12个文件，8-10百万行和50列)创建一个。他们中的几个可能会融入我的系统记忆，但他们都肯定不会，因此使用达克而不是普通的熊猫。因为读取每个csv文件需要一些额外的工作(从文件路径中添加带有数据的列)，所以我尝试从一个延迟对象列表(类似的dask.dataframe )创建。我认为dask.dataframe

浏览 4提问于2016-12-21得票数 8

回答已采纳

1回答

从Dask数据框列创建列表的方法

python、dask、dask-dataframe

我想从Dask Dataframe列创建一个列表/集合。基本上，我希望使用此列表通过将值与此数据帧中的列进行匹配来过滤另一个数据帧中的行。我尝试过使用list(df[column])和set(df[column])，但它们花费了很多时间，最终导致创建集群时出现错误，有时当达到内存限制时，它会重新启动内核。我可以使用dask.bag或多处理来创建列表吗？

浏览 10提问于2020-12-31得票数 0

回答已采纳

1回答

如何更改dask数据帧中的行和列？

pandas、dask

我在使用Dask Dataframes时遇到了一些问题。假设我有一个包含2列['a','b']的数据帧在熊猫中，我会这样做：在dask中，我正在执行

浏览 0提问于2015-09-03得票数 9

6回答

我该如何获得达斯克数据中心的形状？

python、dask

执行.shape会给出以下错误。

浏览 0提问于2018-05-15得票数 26

1回答

替换dask数据帧分区

dask

我是否可以用我单独创建的另一个dataframe分区替换一个dataframe分区，该分区的行数和结构相同？如果是，怎么做？有可能有不同的行数吗？

浏览 3提问于2018-06-29得票数 2

回答已采纳

2回答

用Array<Map<String，String>>列读取Parquet文件

python、dask、python-3.7、pyarrow、fastparquet

我使用Dask读取由PySpark生成的Parquet文件，其中一列是字典列表(即array<map<string,string>>')。df的一个例子是： (1, [{'job_id': 1, 'started': '2019可以很好地读取所有其他列，

浏览 2提问于2019-07-14得票数 4

回答已采纳

1回答

来自延迟压缩csv的Dask数据

pandas、dask、zip、dask-delayed

我正在尝试从一组压缩的CSV文件中创建一个dask数据文件。读到这个问题，dask似乎需要使用dask.distributed延迟()import dask.dataframe as ddimport pandasas pd #Create zip_dict with key-value pairs for .zip & .csv na

浏览 0提问于2018-10-19得票数 2

1回答

找到重复的值

python、pandas、dask

我需要在dask DataFrame中的列中找到副本。Q:，在dask中获取所有重复值的最佳方法是什么？我的想法：创建一个作为索引的列，然后是drop_duplicates，然后是join。df

浏览 3提问于2020-10-08得票数 3

1回答

from sklearn.preprocessing import MultiLabelBinarizermlb = MultiLabelBinarizer() df_tmp = pd.DataFrame(mlb.fit_transform(df['CatData']), columns=mlb.classes_, index=df.index) 其中，我的CatData列包含类别列表。为了处理更大的数据集，我尝试使用dask</

浏览 8提问于2019-09-20得票数 1

1回答

使用Dask映射分区时，解压函数内部的元组

python、pandas、dask

我尝试在Dask数据帧的多个分区上运行一个函数。该代码需要解压元组，并且可以很好地与Pandas一起工作，但不能与Dask map_partitions一起工作。数据对应于元组列表，其中列表的长度可以变化，但元组始终具有已知的固定长度。import dask.dataframe as dd for index, row i

浏览 27提问于2021-02-24得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云