Dask，根据下一行添加新列

文章/答案/技术大牛

发布

1回答

、、、

我有这个dask数据框架，最后一列是这个问题的重要信息： Dask DataFrame Structure: asks[0].amount asks[1].amount asks现在我需要根据下一行'currentPrice‘添加一个新的列(名为succPrice)。数据帧非常大，所以我需要使用dask

浏览 20提问于2021-08-31得票数 0

回答已采纳

4回答

根据现有列向Dataframe添加多行和单列

、

我想要添加新行，并根据现有列添加一个新列。这些值用于新的行和列：{a: [x, y, z], b: [x, w, r], c: [x, q]} A C 3 x 4 x 4

浏览 1提问于2019-02-11得票数 2

回答已采纳

1回答

将熊猫系列添加到dask dataframe中

、、

将熊猫系列添加到dask dataframe中的惯用方法是什么？熊猫在处理数据方面要灵活得多，所以我经常将部分dask数据存储在内存中，操作列并创建新的列。然后，我想将这些新列添加到原始的dask数据格式中。如何才能做到这一点？

浏览 0提问于2017-06-29得票数 4

1回答

KeyError:当尝试选择dask数据框上的列时：“没有[索引([‘’，'']，dtype='object')]在[列]中”

、

我正在使用from_pandas()函数从熊猫数据帧创建一个dask数据帧。当我尝试使用方括号[ ]从dask dataframe中选择两列时，我得到了一个KeyError。根据dask文档，dask dataframe支持像pandas dataframe一样的方括号列选择。# data is a pandas dataframe data = data[dask</e

浏览 67提问于2019-10-04得票数 1

1回答

如何在Dask* DataFrame的特定索引中插入新列？*

、

使用pandas，我可以在特定位置插入一个新列，如下所示： df_all.insert(loc=10, column="label", value=label_column, allow_duplicates=True) 如何使用dask将新列添加到特定位置？(至dask数据帧)

浏览 13提问于2019-12-24得票数 1

1回答

从多个csv文件读取外部连接

import dask.dataframe as ddfrom dask import delayed df1 = pd.DataFrame({'a': np.arange

浏览 2提问于2016-12-14得票数 2

回答已采纳

3回答

如何为Dask数据框中的列赋值

、、、

如何对dask数据帧执行与以下代码相同的操作。if (condition): else:我想在dask数据框中添加一个新列，并在新列中插入0/1。

浏览 0提问于2020-03-04得票数 2

2回答

Dask数据文件:读取多个文件&将文件名存储在列中

、、、

我经常使用dask.dataframe读取多个文件，如下所示：然而，每一行的起源，即数据是从哪个文件读取的是否有方法将其添加为列，例如，如果df.loc[:100, 'partition'] = 'file1.csv'是第一个文件并包含100行，则为file1.csv。其思想是，根据源的不同，可以应用

浏览 0提问于2018-02-14得票数 6

回答已采纳

1回答

Pandas-Dask* DataFrame Apply函数，返回列表*

、、、

我正在尝试向dask数据帧添加多个列，以存储apply函数的结果。这将是我关于堆栈溢出的第一个问题，我希望这个问题不会太长！数据帧，然后将函数'dfFunc’应用到数据帧的每一行。这段代码运行得很好，因为输出'res‘是原始的天气数据帧，其中有一个名为'NewCol1’的新列。我的困惑在于，如果我希望我的函数返回一个列表而不是单个值，那么我该如何着手在dask数据帧中创建多个列。从之前的线程来看，通过使用列表，这应该是在

浏览 5提问于2018-10-11得票数 1

1回答

就地修改大于内存的Dask数组

、、

我有一个dask数组，X，大约是。3500x700000。每一行都有缺失值，我需要根据该行的平均值进行推算。有没有一种方法可以将这种估算应用于适当的数组，以便最终将估算的数组作为内存不足的dask数组？

浏览 11提问于2018-09-09得票数 2

1回答

用dask等价物加快“中间”函数的速度

、、、

我试图想出一种快速的方法，在dataframe中添加一个新列，其中所添加的值是基于条件的。有人向我推荐了一种使用numpy的方法，但它相对来说非常慢。目前，我正在加载一个11米行csv，添加了几个新的列谁有公式计算，并打印头尾在10秒以下。下面是当前用于缓慢/麻烦函数的代码。我想知道是否有一种与dask相对应的方法，或者是否可以更好地构造numpy查询以提高性能。import dask.dataframe

浏览 2提问于2019-10-06得票数 0

2回答

如何在dask中使用'loc‘选择数据帧的列

、、、、

谁能告诉我应该如何使用dask在数据框中选择一列“loc”？错误： File "/usr/local/dask-2018-08-22/lib/python2.7/site-packages/dask-0.5.0-py2.7.egg/

浏览 1提问于2018-08-26得票数 4

1回答

在dask* dataframe中用每列最大值填充NaNs*

、

当值为np.nan时，我需要在数据中计算每个列中的最大数目。不幸的是，在SimpleImputer中，根据文档，这种策略是而不是支持的： meta = [('height', 'float'),('weight', 'float')] df_dask = df_dask.apply(lambda x: x.fillna(x.

浏览 8提问于2022-08-21得票数 1

回答已采纳

1回答

如何将dask数据交换(将列转换为行)以接近整洁的数据原则

、、、、

TLDR：我从一个dask包创建了一个dataframe。dask dataframe将每个观察(事件)作为一列对待。因此，我没有为每个事件设置行数据，而是为每个事件设置了一列。其目标是将列转换为行，就像熊猫可以使用df.T转换数据格式一样。df = b.to_dataframe()问题----我所有的个别事件(即tweet)都被记录为列<

浏览 7提问于2016-08-04得票数 4

回答已采纳

2回答

如何根据dask* dataframe列写入文件名？*

、

我有一个dask数据帧，我想保存到s3。数据帧中的每一行都是一个“时间戳”列。我想根据时间戳列中的日期对s3中的路径进行分区，因此s3中的输出如下所示：s3://..data/date=2019-01-01/part2.json.gz... s3://....BUCKET_N

浏览 16提问于2019-07-16得票数 2

1回答

如何在dask.dataframe中子集一行？

、、、

我试图使用命令dask.dataframe从x.loc[0].compute()中只选择一行。它返回4行，所有行都有index=0。我尝试了reset_index，但在重置后仍有4行具有index=0。(我认为我重置是正确的，因为我做了reset_index(drop=False)，我可以在新列中看到原始索引)。我阅读了dask.dataframe文档，它说明了index=0可能有多个行，这是因为dask如何构造块数据。所以，如果我

浏览 0提问于2019-02-02得票数 4

回答已采纳

1回答

在dataframe上进行Dask计算以添加列返回AttributeError

、、、、

我有一个函数，它使用函数将列添加到DataFrame中，例如 resp_data = {'status': '1', 'data': x}return json.dumps(resp_data)import dask.dataframe as ddddf = dd.from_pandas(df, npartitions

浏览 2提问于2022-01-27得票数 1

回答已采纳

1回答

Dask groupby索引列

、、

我使用dd.read_csv(s3://bucket/*)将大量csv文件(几千个)从s3加载到dask中。这些文件有一个隐含的索引列(升序的未命名列)：有没有办法使用ddf.groupby()操作来根据索引值对csv文件进行分组？我尝试使用groupby(axis=0)和groupby(level=0)，但在dask中返回错误。我唯一的另一个想法是使用for循环加载文件，然后显式地手动添加一个新的索引列--但这似乎是一个不必要

浏览 8提问于2017-07-12得票数 1

回答已采纳

1回答

对DASK中的列中的每个值运行mysql查询

、、

此CSV文件作为dask-dataframe导入。进入数据帧后，我需要为id列中的每个条目获取该user-id，并在其上运行一个SQL查询来获取该user -id的用户名，并将其添加到新列中的dataframe。我有几个这样的列需要获取。我不确定对DASK数据帧中的值运行select查询的dask方法是什么。我该怎么做呢？我不想走命令式路线，并使用for循环来解决它。

浏览 26提问于2020-03-18得票数 1

回答已采纳

2回答

“列赋值不支持numpy.ndarray类型”

、、、、

我试着用Dask代替熊猫，因为我分析的数据很大。我想根据几个条件添加一个标志列。import dask.array as da

浏览 5提问于2022-05-29得票数 2

回答已采纳

点击加载更多