当与dask dataframe groupby一起使用时，`.iloc()`返回奇怪的结果

当与dask dataframe groupby一起使用时，.iloc()返回奇怪的结果可能是由于以下原因：

Dask是一个分布式计算框架，它将数据集划分为多个分块进行并行处理。当使用.iloc()方法时，它会尝试按照索引位置来访问数据，但由于数据被分块存储，可能导致索引位置与实际数据位置不一致，从而返回奇怪的结果。
当使用.groupby()方法对Dask dataframe进行分组操作时，数据会被划分为多个组，每个组的数据可能存储在不同的分块中。这可能导致在使用.iloc()方法时，无法准确地定位到所需的数据位置，从而返回奇怪的结果。

为了解决这个问题，可以考虑以下方法：

使用.loc[]方法替代.iloc()方法。.loc[]方法基于标签进行数据访问，而不是基于索引位置。这样可以避免由于数据分块导致的索引位置不一致的问题。
在使用.iloc()方法之前，可以尝试使用.compute()方法将Dask dataframe转换为Pandas dataframe。这样可以将数据加载到内存中进行操作，避免分块存储导致的问题。但需要注意，这可能会导致内存消耗较大，适用于数据量较小的情况。
如果需要使用分布式计算的能力，可以尝试使用Dask的其他方法来实现相同的功能，例如.apply()方法或.map_partitions()方法。这些方法可以在分布式环境下进行数据处理，避免了数据划分导致的问题。

总之，当与dask dataframe groupby一起使用时，.iloc()返回奇怪的结果可能是由于数据分块存储和索引位置不一致导致的。可以尝试使用.loc[]方法、.compute()方法或其他Dask方法来解决这个问题。

随机访问一行Dask dataframe需要很长时间。

python、dask、dask-dataframe

我有一个一亿行数据的Dask数据。我试图在不将整个数据文件加载到RAM的情况下迭代这个数据文件。在实验中，尝试访问等于1的索引行。 %time dask_df.loc[1].compute() 花费的时间高达8.88秒(华尔街时间)。为什么要花这么长时间？我能怎么做才能让它更快？提前谢谢。每一个请求，这是代码。它只是读取1亿行数据并尝试访问一行。 `dask_df = dd.read_parquet("/content/drive/MyDrive/AffinityScore_STAGING/staging_affinity_block1.gzip", chunksi

浏览 7提问于2022-07-01得票数 0

回答已采纳

1回答

如何在dask.dataframe中子集一行？

python、dataframe、subset、dask

我试图使用命令dask.dataframe从x.loc[0].compute()中只选择一行。它返回4行，所有行都有index=0。我尝试了reset_index，但在重置后仍有4行具有index=0。(我认为我重置是正确的，因为我做了reset_index(drop=False)，我可以在新列中看到原始索引)。我阅读了dask.dataframe文档，它说明了index=0可能有多个行，这是因为dask如何构造块数据。所以，如果我真的希望通过使用index=0来设置一个行，我如何做到这一点？

浏览 0提问于2019-02-02得票数 4

回答已采纳

2回答

索引到Dask系列可以返回Dask系列

python、pandas、dask

我有Dask系列的Dask数据帧。我想在本系列中建立索引，以获取dask数据帧以供后续工作使用。但是，使用loc[0]会导致另一个dask系列。使用to_frame也不起作用，因为结果是"Dask系列Dask数据帧的Dask数据帧“。下面是一个使用Dask系列Pandas数据帧的最小示例(不完全相同，但说明了问题)： import pandas as pd import dask.dataframe as dd pdf1 = pd.DataFrame({'a': [1,2,3,4], 'b': [4,3,2,1]}) pdf2 = pd.Data

浏览 3提问于2020-02-03得票数 1

1回答

达克和潘达给出了不同的结果

python、pandas、dask

当运行下面的代码时，我会得到不同的结果。 import dask # Loading Data df = dask.datasets.timeseries() # Dask Computation df.groupby("name").aggregate({"x": "sum", "y": "max"}).compute() # Pandas computation pandas_df = df.compute() pandas_df.groupby("name").aggregate({&#

浏览 5提问于2022-10-01得票数 0

1回答

如何将dask数据文件保存到与dask剪切器/工人相同的机器上？

python、dask、parquet

我试图通过Dataframe保存到与Dask调度程序/工作人员所在的同一台机器上。但是，我在这段时间里遇到了麻烦。 My安装程序：我的python脚本在本地计算机(笔记本电脑16 GB RAM)上执行，但该脚本为运行在远程计算机上的Dask调度程序(用于并行计算的具有400 GB RAM的服务器)创建了Dask客户端。Dask调度程序和工作人员都位于同一台服务器上，因此它们都共享本地可用的相同的文件系统。由于我的团队的所有成员都使用这个远程Dask调度程序，我们正在处理的文件也位于同一服务器上，通过同一个Dask集群向所有成员提供对所有文件的公共访问。我试过： # This saves th

浏览 2提问于2019-12-20得票数 2

回答已采纳

1回答

使用iloc更改列值不起作用

python、pandas

我想在dataframe中创建一个'istrain‘列。一些行属于训练数据，一些行属于测试数据。所以我试了一下。 df['istrain'] = 0 df.iloc[:train_len,:]['istrain'] = 1 但它并没有起作用。我通过如下更改代码解决了我的问题，但我仍然想知道为什么上面的方法是错误的。建议一种更好的方法也是很好的。谢谢你的回答。 df['istrain'] = 0 df.iloc[:train_len,data.columns.get_loc('istrain')] = 1

浏览 70提问于2020-09-21得票数 0

回答已采纳

2回答

为多个类别查找最近的时间索引

python、pandas、time-series

我正在尝试获取最接近多个独立类别的查询时间戳的数据点()： dt = pd.to_datetime(dt) df_output = list() for category in df.category.unique(): df_temp = df[df.category == category] i = df_temp.index.get_loc(dt, method='nearest') latest = df_temp.iloc[i] df_output.append(latest) pd.DataFrame(df_output) 这种方法

浏览 29提问于2018-01-02得票数 0

回答已采纳

1回答

Dask map_partitions在减少数量时会产生重复，结果与纯熊猫相比是错误的。

python、pandas、parallel-processing、distributed-computing、dask

当我使用dask通过map_partitions进行分组时，与简单的熊猫群相比，我获得了重复的数据和错误的结果。但是当我使用n_partitons=1时，我得到了正确的结果。这一切为什么要发生？如何使用多个分区而仍然得到正确的结果？我的代码是 measurements = measurements.repartition(n_partitions=38) measurements.map_partitions(lambda df : df.groupby(["id",df.time.dt.to_period("M"), "country",&

浏览 2提问于2020-02-28得票数 0

回答已采纳

1回答

Pandas在这里做什么，使我的索引[0]和[1]引用相同的值？

python、pandas

我有一个具有以下索引和值的数据： df[df.columns[0]] 1 example 2 example1 3 example2 当我访问dfdf.columns[0]时，我会得到"example1“。合乎道理。指数就是这样运作的。然而，当我访问df[df.columns]时，我得到了“示例”，当我访问df[df.columns1]时也得到了示例。所以为了 df[df.columns[0]][0] df[df.columns[0]][1] 我得到了“榜样”。奇怪的是，我可以删除“行”0，结果是

浏览 2提问于2016-08-09得票数 4

回答已采纳

1回答

dask的本地使用:客户端()还是不客户机()？

python、data-science、dask、dask-distributed

我正在尝试理解本地机器上Dask的使用模式。具体来说，我有一个适合记忆的数据集我想做一些熊猫手术集体..。日期解析等。熊猫通过一个核心来执行这些操作，这些操作对我来说需要几个小时。我在我的机器上有8个核心，因此，我想使用Dask尽可能地并行化这些操作。我的问题如下:在Dask中，这两种方法有什么区别？ import pandas as pd from sklearn.datasets import load_iris iris = load_iris() (1) import dask.dataframe as dd df = dd.f

浏览 0提问于2018-05-30得票数 6

回答已采纳

1回答

Holoviz面板不会打印Jupyter笔记本中的pandas数据帧行

pandas、dataframe、jupyter-notebook、holoviz、panel-pyviz

我正在尝试使用Pandas数据帧而不是Dask数据帧重新创建Holoviz教程中的第一个panel.interact示例。我得到了滑块，但pandas dataframe行没有显示。查看原始示例：我尝试使用了Holoviz示例中的Dask。Dask行可以很好地打印出来，但它演示了面板在打印时似乎以不同于Pandas dataframe行的方式处理Dask dataframe行。下面是我的最小代码： import pandas as pd import panel l1 = ['a','b','c','d','a'

浏览 4提问于2019-08-13得票数 0

3回答

按布尔表达式索引行，按位置索引pandas数据框中的列

python、pandas、dataframe

如何设置pandas数据帧切片的值，其中行由布尔表达式选择，列由位置选择？到目前为止，我通过以下方式做到了这一点： >>> vals = [5,7] >>> df = pd.DataFrame({'a':[1,2,3,4], 'b':[5,5,7,7]}) >>> df a b 0 1 5 1 2 5 2 3 7 3 4 7 >>> df.iloc[:,1][df.iloc[:,1] == vals[0]] = 0 >>> df a b

浏览 12提问于2020-04-01得票数 1

回答已采纳

1回答

在循环中修改熊猫数据的条目

python、loops、pandas、dataframe

我想在数据帧中添加每个记录的概率，因为我使用了for循环。 def map_score(dataframe,customers,prob): dataframe['Propensity'] = 0 for i in range(len(dataframe)): for j in range(len(customers)): if dataframe['Client'].iloc[i] == customers[j]: dataframe["Propensity"].iloc[i]

浏览 4提问于2017-01-28得票数 1

2回答

嵌套的dask.compute不阻塞

python、dask、dask-distributed、dask-delayed

dask.compute(...)应该是一个阻塞调用。然而，当我嵌套了dask.compute，并且内部的dask.compute执行I/O (如dask.dataframe.read_parquet)时，内部的and不是阻塞的。下面是一个伪代码示例： import dask, distributed def outer_func(name): files = find_files_for_name(name) df = inner_func(files).compute() # do work with df return result def inner

浏览 11提问于2017-08-10得票数 0

1回答

熊猫索引，数据检索

python、pandas、dataframe、indexing

问题求解使用loc代替iloc解决了这个问题，但我不知道为什么。中等尺寸的数据(80766，19)，由ints，浮标和日期组成。当我工作的时候，我发现我的结果很奇怪。我开始转换和简化表达式，看问题出在哪里，然后就产生了矛盾。使用这两行，我得到了相同的结果(正如预期的那样)： import pandas ... data_table[data_table[col_name] == 69][col_name] data_table.iloc[data_table.index[data_table[col_name] == 69]][col_name] 结果： 23270 69 232

浏览 7提问于2022-05-26得票数 0

回答已采纳

1回答

使用客户端时任务计算失败，未设置客户端时可正常工作

dask

我正在尝试使用dask客户端来并行化我的计算。当我运行df.compute()时，我得到了正确的输出(尽管它非常慢)，但当我在设置客户端后运行相同的东西时，我得到了以下错误： distributed.protocol.pickle - INFO - Failed to serialize <function part at 0x7fd5186ed730>. Exception: can't pickle _thread.RLock objects 这是我的代码，在第一个df.compute()中，我得到了预期的结果，在第二个中我没有得到。 @dask.delayed def

浏览 3提问于2018-11-06得票数 0

1回答

使用时间片的python变量分配

python、pandas

这更像是一个新的python问题。我有一个熊猫dataframe tmp_df，我使用3个datetime输入进行切片，如下所示来提取不同的数据时间范围： tmp_daily_df = tmp_df.loc[idx[daily[1]:daily[2]],:] tmp_weekly_df = tmp_df.loc[idx[weekly[1]: weekly[2]],:] tmp_monthly_df = tmp_df.loc[idx[monthly[1]: monthly[2]],:] 然后，我将得到的3个数据传递给一个名为compute_stats()的函数，该函数计算各种统计数据，并对输入数

浏览 2提问于2016-04-08得票数 2

回答已采纳

1回答

如何在访问熊猫多索引对象的同时忽略一个层次

python、pandas、multi-index

我正试图找到一种方法来执行这个循环。基本上，我有一堆需要访问的数据。我有一个ID号和收集数据的时间，对于每个数据点，我收集了多个变量(它们本身酌情存储在DataFrames/Series/ number中)。因此，我为一个系列创建了一个MultiIndex，在这个系列中，我存储的数据最后看起来如下所示。 df = ID No Time Variable 123 0.1 A (Dataframe) B (Dataframe) C (Dataframe

浏览 4提问于2019-10-11得票数 0

回答已采纳

1回答

错误代码:试图在DataFrame的切片副本上设置值

python、pandas、dataframe、slice、error-code

我正在尝试用Python编写代码，我的代码总是返回一个警告信号，上面写着： “正在尝试对DataFrame中切片的副本设置值” 我已经包含了我的代码片段，这段代码属于：

浏览 1提问于2017-02-03得票数 1

1回答

使用从拼花文件创建的dataframe时内存使用量过高

parquet、dask

我有拼花文件，也就是800 K行x8.7K列。我把它装进了一个dask数据仓库： import dask.dataframe as dd dask_train_df = dd.read_parquet('train.parquet') dask_train_df.info() 这产生了： <class 'dask.dataframe.core.DataFrame'> Columns: 8712 entries, 0 to 8711 dtypes: int8(8712) 当我尝试执行像dask_train_df.head()或dask_train_df

浏览 0提问于2018-12-24得票数 6

回答已采纳

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

当与dask dataframe groupby一起使用时，`.iloc()`返回奇怪的结果

相关·内容

随机访问一行Dask dataframe需要很长时间。

如何在dask.dataframe中子集一行？

索引到Dask系列可以返回Dask系列

达克和潘达给出了不同的结果

如何将dask数据文件保存到与dask剪切器/工人相同的机器上？

使用iloc更改列值不起作用

为多个类别查找最近的时间索引

Dask map_partitions在减少数量时会产生重复，结果与纯熊猫相比是错误的。

Pandas在这里做什么，使我的索引[0]和[1]引用相同的值？

dask的本地使用:客户端()还是不客户机()？

Holoviz面板不会打印Jupyter笔记本中的pandas数据帧行

按布尔表达式索引行，按位置索引pandas数据框中的列

在循环中修改熊猫数据的条目

嵌套的dask.compute不阻塞

熊猫索引，数据检索

使用客户端时任务计算失败，未设置客户端时可正常工作

使用时间片的python变量分配

如何在访问熊猫多索引对象的同时忽略一个层次

错误代码:试图在DataFrame的切片副本上设置值

使用从拼花文件创建的dataframe时内存使用量过高

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐