How to add a column in a dask dataframe包含基于其他列中的值的相似性的一列的值的平均值

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

2回答

、、、、

我有一个非常大的CSV文件，它已经作为dask数据帧导入到Python中。我制作了一个小数据框来解释我的问题。import dask.dataframe as dddf.head() 输出： +----+--_mean，如果col1中的对应值相同，则该列包含col3的<

浏览 7提问于2019-01-22得票数 0

1回答

Python dataframe.map_partitions()返回值

、、

所以dask.dataframe.map_partitions()采用了一个func参数和meta kwarg。它究竟是如何决定其返回类型的？例如：我对“分布式”计算非常陌生，但我直觉地期望它返回一个系列对象的集合(很可能是一个列表或dict )，但是结果是一个Series对象，它可以被认为是每个分区上example_func结果的

浏览 2提问于2016-11-17得票数 6

回答已采纳

3回答

Dask-Dataframe列中的唯一值数

、、、

我有一个从csv文件读取的Dataframe文件，有大约100万条记录和120个特性/列，我想在每一列中计算唯一值的数量。我可以使用for -循环分别为每一列执行此操作：dask_df = dd.read_csv("train.csv") for columnin dask_df.co

浏览 4提问于2021-11-11得票数 0

1回答

dask groupby agg加权平均“未知聚合lambda”错误

、

在Dask中，我需要基于第三列从两列的分组值计算加权平均值。() 在Pandas中，我耗尽了内存。在Dask中，我得到了： File "<ipython-input-16-0beb32700c04>", line 3, in <module> dask_df = dask_df.groupby/<e

浏览 35提问于2019-08-27得票数 2

1回答

如何操作Dask的group by返回的组？

value category1 20 B3 40 B 我想添加一个mean列，其中包含每个类别的值的平均值。中做同样的事情？我不能按原样使用pandas函数，因为你不能在Dask中枚举groupby对象。: 'Column not found: 0'。我可以使用apply函数来计算Dask

浏览 15提问于2019-10-18得票数 0

回答已采纳

1回答

将列添加到根据python中的列数据类型显示布尔值的dataframe中

、、、、

我正在尝试向dataframe中添加布尔值的列，这些布尔值基于对当前要迭代的列是字母数字、字母还是数字的判断。不幸的是，对于每个布尔测试，每一列都给出了False。我们的目标是，对于给定的列，我如何添加另一个列来显示给定列中的行是否为字母数字？我不想遍历<e

浏览 25提问于2019-12-11得票数 1

回答已采纳

2回答

遍历dask序列(从dask序列中获取唯一值到列表)

、

我需要遍历dask dataframe中的唯一值。我使用.unique()来获取列的惟一值，但是现在给了我一个不能用来迭代的dask对象。我需要知道如何将这些唯一值从这个dask对象中获取到一个列表(或类似的内容)中，这样我就可以使用这些值来迭代dask数据帧。df = dd.read_csv('fi

浏览 19提问于2019-06-02得票数 1

回答已采纳

1回答

将数据帧中的每行与其他行进行比较

、

我有一个数据帧，其中包含一列值(X)。 df = pd.DataFrame({'X' : [2,3,5,2]}) 对于每一行，我想找出其他行的X值的平均值(A)。 ? 

浏览 20提问于2019-06-25得票数 0

回答已采纳

2回答

如何在pandas DataFrame中忽略滚动平均值计算的NaN值？

、、、

我尝试创建一个包含基于长度为5的窗口的滚动平均值的DataFrame。但我的数据包含一个NaN值，因此我只能获得具有NaN值的第3列的NaN值。在使用.rolling(5).mean()时，如何可以忽略NaN值 Column1 Column2

浏览 69提问于2021-11-30得票数 0

3回答

在dataframe中将列乘以另一列

、、、

(完全披露这与我提出的另一个问题有关，所以请原谅我是否应该把它附加到我以前写的文章中，尽管问题不一样。) 我有一个由一列权重和包含0和1的二进制值的列组成的数据，我想把数据中的每一列乘以权重列。但是，我似乎要用with列替换dataframe中的每一列。我肯

浏览 12提问于2017-05-15得票数 2

回答已采纳

2回答

选择pd.mean()显示了多少数据？

、

当返回pd.mean()时，如何只显示特定的信息？示例new_df = pd.read_excel('example.xls', usecols = ['weight'] )结果 avg value for column weight is here: weight 2311.000000 dtype: fl

浏览 8提问于2022-05-06得票数 1

回答已采纳

1回答

选择子集后将其转换为pandas时，Dask* dataframe内存不足*

、、、、

所以我有一个包含160M记录和240列的拼图文件。因此，我使用dask在python中使用EMR CLuster m5.12xlarge加载它。import dask.dataframe as dd 现在我需要其中一列的值计数和归一化值计数： c

浏览 1提问于2021-09-23得票数 0

1回答

大熊猫CSV

、、

上一篇文章的续篇。以前，我帮助使用Pandas在dataframe中创建了一个新列，每个值都表示一个基于另一个列的值的分解后的或唯一的值。我想要分解它上的每个用户名。我一直在研究使用Dask，然而，我不能复制sort和factorize的功能来为Dask数据帧做我想要的事情。

浏览 0提问于2017-06-13得票数 1

2回答

如何将DataFrame中除第一列以外的所有列合并为一列，并删除空行？Python

、、

我有一个包含多列的大型数据帧，希望将除第一列以外的所有列中的所有值合并到一个新列('New')中。然后删除'New'为空的行。DataFrame如下所示(行'C'为空)： 'Column1' 'Column2' &#x

浏览 78提问于2018-07-05得票数 0

2回答

将元组的列拆分为两列

、、、、

我正在使用python2.7和dasktable[col] = table.apply(lambda x: (x[col1],x[col2]), axis = 1, meta = pd.Dataframe) table[[col1,col2]] = table[col].apply(pd.Series) 这样做的<

浏览 7提问于2017-11-19得票数 4

回答已采纳

1回答

如何根据CSV中的其他列值访问列值并求其平均值

、

我想要访问第3列的值，即基于索引列表中的索引的Total_network's_Disbelief列，并且必须找出这些值的平均值。来自OutCSV.csv 。索引包含值0、7、14、21、28、35、42、49、56。list1包含csv文件中的第一列Timevalues

浏览 16提问于2018-02-26得票数 0

回答已采纳

2回答

使用lotus notes公式获取视图中两列的平均值

如何使用lotus notes公式获得视图中两列的平均值

浏览 0提问于2011-03-18得票数 0

1回答

如何使用AVG()函数在包含的SQL中创建一列？

我有一个有一列和46行的表，我想创建另一列，它包含所有46行中第一列的平均值，例如，这是该表： CREATE TABLE table2FROM table1 我想添加另一列，每行(46行)包含AVG(column1)的值。

浏览 7提问于2021-04-05得票数 0

回答已采纳

1回答

读取文件时，Pandas mean函数中显示意外的值

、

当我使用pandas读取csv文件并找到平均值时，它的开头有一个额外的数字。97是数据的第一个条目(在A1中)。所有数字都在从A1到A100的表中，没有标题和数字列。谢谢

浏览 0提问于2020-02-11得票数 0

2回答

Dask DataFrame的逐行处理

、、

我需要处理一个大文件并更改一些值。我想做这样的事情： lol = doOtherStuffWith(row) dataFrame['coly'][index] = lol 对我不好，我不能做数据帧‘’col

浏览 5提问于2017-03-17得票数 5

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云