从列表列创建聚合数据帧

文章/答案/技术大牛

发布

1回答

pandas:如何使用列名进行分组和聚合？

我有一个数据帧，看起来像这样 col1 col2 col3 col4 .... col90 row2row1000 1001 1002 1003 1004 .... 1090 我希望将这些列一次分组为3列，并取每行的平均值。我将按以下步骤进行：我生成一个列表列表 [['col1','col2','col3], ['col4',

浏览 24提问于2019-02-19得票数 0

回答已采纳

1回答

、

我有一个使用Pygithub从Github存储库中提取的问题数据帧。它目前的结构如下-data = {'assignees': ['n/a', ['p1', 'p2'], ['p5

浏览 3提问于2019-10-29得票数 3

回答已采纳

1回答

基于条件的rbind ()

、、、

我有一堆基于用户输入创建不同数据帧(A)的if语句。在某些情况下，一些数据帧将是空的，所以可能(A)是空的，但是(D)有信息。我正在尝试创建一个条件rbind()，其中只有在数据帧不是空的情况下，它才会组合行。cond_a <- nrow(a) !编辑:退一步，更好地解释:我有一个数据框架，我通过一个列将它划分为6个不同

浏览 3提问于2017-11-18得票数 1

回答已采纳

10回答

基于另一个变量保持顺序的collect_list

、、

我试图使用现有列集上的groupby聚合来在Pyspark中创建一个新的列表列。下面提供了一个示例输入数据框架：id | date | value1 |2014-'date'],ascending = True) grouped_df = ordered_df.groupby("id").agg(F.collect_list("value

浏览 8提问于2017-10-05得票数 82

回答已采纳

1回答

列表列在R语言中是一个概念吗？

列表列数据结构是否是R语言中的一个概念？列表列在数据帧的定义中是隐式的:数据帧是等长向量的命名列表。列表是向量，所以使用列表作为数据框架的列是合法的。但是，基本R不便于创建列表列，data.frame()将列表视为<e

浏览 2提问于2020-06-03得票数 0

1回答

搜索由collect_list聚合创建的单元数组中的列值

我使用的是一个py spark数据框架和一个使用collect_list的聚合列，我必须在该集合列表列中搜索另一个数据帧列值，我创建了一个UDF，如下所示，但它始终失败为阶段故障。上面的步骤还包含使用这两个数据帧的联接。样本输入数据：id page_ids (collect_list) 12 ['1001','1001','1002&

浏览 1提问于2017-08-01得票数 0

1回答

基于列和列的列表连接pandas数据框

、、

我正在尝试连接基于多列的两个数据框。然而，其中一个条件不是直接的，因为一个数据帧中的一列存在于另一个数据帧中的列表列中。如下所示 df_a： ? df_b： ? 我想根据节点、通道、值来连接两个数据帧。但是，值在列尾部的列表中我试图从df_a创建一个字典，将节点和通道作为关键字，但这不是唯一的，我将值作为关键字添加，但随后我无法查找该值。

浏览 12提问于2020-04-17得票数 0

2回答

从BIRT报告中删除列

我有一个包含10列的BIRT Excel报告。我有一个查询，它执行并带来所有10列的数据。我尝试更改查询，但无法动态设置select参数。在Query或BIRT中有没有一种方法可以根据输入条件删除一些列？

浏览 15提问于2016-08-03得票数 1

1回答

dataframe列是否需要具有与datetime索引相同数量的元素？

、、、、

我知道pandas数据帧可以有NaN值。我的意思是，特别是当我从不同大小的列表列表中创建数据帧时。行数少于最长列的列是否会自动使用NaNs填充？如果我使用datetime索引，这会有什么影响？

浏览 7提问于2020-07-14得票数 1

1回答

如何将字符列强制到列表列

我正在尝试绑定数据帧行。我在聚合后生成一些带有列表列的数据帧，但有些是字符。我找不到办法把他们绑起来。我试着使用as.list()转换字符列，但这不起作用。

浏览 5提问于2017-08-16得票数 0

回答已采纳

1回答

如何在聚合后将pandas数据帧转换为单索引？

、、

我一直在玩pandas数据帧中的聚合。','e'], 'c':[4,1,3,4,5,1,3,2]}) 我必须对batch列进行聚合，对列a使用mean，对列c使用min。) 问题是，我希望最终的数据帧具有与原始数据帧相同的列，只是在每一列中显示聚合值的细微差别。上

浏览 21提问于2020-09-05得票数 0

回答已采纳

1回答

在列表列工作流中使用dplyr::select()

、、

我有一个大数据帧的列表，我想对每个帧进行子集，只保留某些列。我想要的列的名称包含在每个数据帧特有的字符向量中。真正的应用程序将包括24个大型数据集的列表，以及24个唯一字符向量的列表。下面是这个数据结构的一个很小的例子来说明

浏览 0提问于2020-10-23得票数 2

回答已采纳

2回答

J抄Aggrgate报告数据未保存在.csv文件中

我配置了一个针对线程组的“J抄聚合报告”。当我在GUI模式下运行相同的时候，我可以看到gui中的“聚合报表”表/列，它看起来也不错。但是，如果我查看保存的stattics1.csv文件，它不包含列文件中的相同数据，就像所有所需的聚合报告表列数据都不在保存的聚合文件中一样(例如，平均值、中位数、最大值、最小、吞吐量等列)。你能帮我一下吗，我怎样才能在CSV文件中得到“聚合表”<

浏览 9提问于2017-05-25得票数 0

3回答

基于列表值聚合DataFrame

、、、

., 'wordN'] 我有带值的数据帧： +--------------+----------+-----------+ | keywords | impressions | clicks请建议我如何创建一个特定的，聚合的数据帧与列值从列表和印象和点击的总和，如果从列表中的词在关键字列中满足。我曾尝试使用iterrows()方法遍历dataframe，但在这种情况下不起作用。

浏览 28提问于2020-07-10得票数 0

回答已采纳

0回答

Dataframe中的Pandas中的聚合列

、、、

我使用groupby()和reset_index()函数使用来自Pandas Dataframe的数据创建具有聚合值的列：我想将所有这些聚合</em

浏览 5提问于2017-06-13得票数 0

回答已采纳

2回答

如何将Python Dataframe转换为列表列表？

、、

我有一个尺寸为21392x1972的Python数据帧。我想要完成的是将数据帧转换为列表列表，这样我的数据帧的第一列是长列表中的第一个列表，数据帧的第二列是具有一个长列表的第二个列表，依此类推。我尝试使用tolist()将数据帧转换为列表列表。现在发生的情况是，我的数据帧的每一行都变成了长列表中的一个列表。但是

浏览 21提问于2019-01-18得票数 0

回答已采纳

1回答

如何编写从两个不同大小的数据帧中提取参数的矢量化函数

、、、

我正在组装一个新的格式化数据帧，它聚合了来自不同数据帧的数据。我需要在这个新的数据帧中创建一个列，用于过滤和聚合来自辅助数据帧的数据。为此，我编写了一个函数，该函数根据新的列标题和新数据帧中另一列的每一行的值过滤第二个数据帧。然后，该函数对

浏览 22提问于2021-11-10得票数 0

2回答

如何使用pandas绘制类似命名的列？

、、、

现在只有两个文件，但在几周内，我将使用数百个具有相同数据变量的csv文件。我使用for循环读取文件，并将数据帧附加到单个列表中，然后使用此for循环来区分一些名称：我的问题是，如何使用条形图比较文件之间的变量？如何调用所有温度列在条形图中对它们进行比较？<code>A1</code>

浏览 21提问于2021-03-13得票数 1

回答已采纳

1回答

Apache Spark多个聚合

、、

例如，我在Scala中使用Apache spark对数据帧中的多个列运行聚合selectcolumn2, sum(1) as count from df group by column2 实际的聚合比sum(1)复杂得多，但它超出了要点。上面的例子这样的查询字符串是为我想要聚合的每个变量编译的，我通过Spark sql上下文执行每个字符串，以创建代表相关<

浏览 1提问于2015-10-30得票数 0

1回答

.)), tidied = map(model, tidy)) 我在输出数据帧中得到了所需的行数(22，匹配不同级别的'event')。但是我想要“取消嵌套”tided列，这样它们就是fitted.models中的附加列。~Flow, data = .)), tidied = map(model, tidy)) %>% unnest(tidied) 列被解包，但每个事件列出两次(现在的总行数为44)。我错过了什么？我的数据帧： df<-s

浏览 57提问于2021-08-16得票数 0

点击加载更多

pandas:如何使用列名进行分组和聚合？