pandas group by agg根据pattern在组内选择 - 腾讯云开发者社区

、、

我有一个Pandas数据帧，看起来像这样： import pandas as pd f1 = [['abc', 'def'], ['ghi', 'jkl'], ['mno', 'pqr'], ['stu', 'vwx'], ['yz', 'xx'], ['yx', 'zx'], ['text', 'more'], ['stuff', 'here&

浏览 13提问于2019-09-19得票数 4

回答已采纳

1回答

模式聚合在熊猫中不起作用(必须产生聚合值)

、、、

运行此程序时： import pandas as pd df = pd.DataFrame(dict(x=[1, 1, 2, 2, 3, 3], group=["a", "a", "a", "a", "b", "b"])) df.groupby(["group"]).agg({ "x": [pd.Series.mode, "sum"] }) 返回此错误： ValueError Tr

浏览 9提问于2022-08-31得票数 0

回答已采纳

5回答

Pandas使用动态列名进行聚合

、、、

我有一个脚本，它生成一个具有不同数量的值列的pandas数据框。例如，此df可能是 import pandas as pd df = pd.DataFrame({ 'group': ['A', 'A', 'A', 'B', 'B'], 'group_color' : ['green', 'green', 'green', 'blue', 'blue'], 'val1': [5, 2, 3

浏览 67提问于2019-09-18得票数 22

回答已采纳

5回答

Python Pandas:使用groupby()和agg()时是否保持顺序？

、、

我经常使用pandas的agg()函数对data.frame的每一列运行汇总统计信息。例如，下面是生成平均值和标准差的方法： df = pd.DataFrame({'A': ['group1', 'group1', 'group2', 'group2', 'group3', 'group3'], 'B': [10, 12, 10, 25, 10, 12], 'C': [100,

浏览 399提问于2014-10-20得票数 59

回答已采纳

1回答

我很难在火星雨上使用熊猫的UDF。你能帮我理解一下这是如何实现的吗？以下是我的尝试： import pyspark from pyspark.sql import SparkSession from pyspark.sql.functions import pandas_udf from pyspark import pandas as ps spark = SparkSession.builder.getOrCreate() df = ps.DataFrame({'A': 'a a b'.split(), 'B&#

浏览 4提问于2021-10-27得票数 1

回答已采纳

1回答

Pandas DataFrame中的多步聚合

、、

在Pandas中，如何在同一个数据集中进行多步/顺序聚合？好像每个步骤都是下一个步骤的“子查询”。在SQL中，我可以这样想： SELECT x.A, COUNT(x.B) as B_COUNT, SUM(x.C_SUM) as C_SUM FROM ( SELECT df.A, df.B, SUM(df.C) as C_SUM FROM df GROUP BY df.A, df.B ) x GROUP BY x.A 在Python3.4和Pandas0.19.2中工作，我有这样一个数据框架： import pandas import numpy numpy.rand

浏览 0提问于2016-12-30得票数 1

回答已采纳

1回答

如何使用多个索引&映射到数据格式

、

有个测试数据集。我可以按某些列进行分组，然后使用.map将结果作为新列添加--这不是问题。但是我需要的是按两列分组，然后我想将结果添加到df中，但它不起作用。例如，对于上一栏中有5年的2款奥迪，应该有111000 (这是我们从两者之和中收集的)两个条目，而对于8岁的用户，应该有一个不变的值。如果你能帮我的话会很高兴的。 dff = pd.read_csv('https://raw.githubusercontent.com/codebasics/py/master/ML/5_one_hot_encoding/Exercise/carprices.csv') dff group

浏览 1提问于2022-04-02得票数 0

回答已采纳

1回答

熊猫:在加入字符串的过程中，出现了一些意想不到的行为。

、、、

具有pandas数据框架，其中包含str类型的两列 group sc wc 0 1 A word1 1 2 B word2 2 2 C word3 3 1 D word4 其创建方式如下： df = pd.DataFrame({"group":[1,2,2,1],"sc":["A","B","C","D"],"wc":["word1", "word2", &#

浏览 1提问于2020-12-17得票数 1

回答已采纳

1回答

根据N的值创建行的存储桶列表

、

我有一个有11行的熊猫数据帧。我想根据N的值创建一个列的列表，如下所示： import numpy as np import pandas as pd import math import sys df = pd.DataFrame({'group':[1,1,1,2,2,2,2,3,3,4,5]}) df 例如：如果N值被指定为2，那么我想创建2列表，如下所示： list = [[1,1,1,2,2,2,2], [3,3,4,5]] 以便每个组都留在相同的列表中。如果列表的长度不相同也没关系。

浏览 12提问于2019-12-13得票数 3

2回答

如何用正规化实现电火花中的值计数

我有一个火花放电数据，它看起来像这样： import pandas as pd so = pd.DataFrame({'id': ['a','a','a','a','b','b','b','b','c','c','c','c'], 'time': [1,2,3,4,1,2,3,4,1,2,3,4],

浏览 9提问于2022-04-26得票数 0

回答已采纳

3回答

返回array_agg()中的第一个元素

、

我正在写一个查询，以获得所有球队的所有球员。我没有在应用程序中循环，而是决定使用array_agg()在一个查询中获得所有团队的球员。我所写的查询如下： SELECT team_id, array_agg(team_name) AS teamname, array_agg(player_id||'##'||player_name) AS playerdetails FROM team INNER JOIN players ON team_id = player_team GROUP BY team_id 这个查询给我的结果如下，在结果集中，teamname被重复(

浏览 4提问于2015-06-23得票数 27

回答已采纳

1回答

如何在Spark中一步计算文本表达式的数值？

、

我从下表开始： |date | first_cat | second_cat | price_change| |:--------- | :--------- |: -------- | ----------:| |30/05/2022 | old | test_2 | 0.94| |31/08/2022 | old | test_3 | 1.24| |30/05/2022 | old | test_2 | 0.90| |31/08/2022 | old

浏览 3提问于2022-09-27得票数 1

回答已采纳

4回答

用分组.agg计算熊猫的加权平均值

、、

我想按组计算数据集中某一列的平均值和另一列的加权平均值，使用.agg()函数在中计算。我知道有几个解决方案，但它们并不是很简洁。这里已经发布了一种解决方案( )，但它仍然不太灵活，因为权重列是在lambda函数定义中硬编码的。我希望创建一个更接近于此的语法： ( df .groupby(['group']) .agg(avg_x=('x', 'mean'), wt_avg_y=('y', 'weighted_mean', weights='weight') ) 下面是一个完全可用的代码示

浏览 4提问于2020-05-15得票数 2

1回答

如何从所有记录中选择特定的记录集

、

我有一个查询给我所有的记录。现在，我想在所有记录中检查这三种情况之间有多少记录。少于或等于250 000 25万到50万之间 500 000及以上我一共得到了6栏。通过减去列Credit Dist dt - App Received dt，得到working days1，减去LO Issued - appr_dec，得到working days2。在确定了哪些记录在哪种情况下之后，我必须对这些条件中的所有应用程序进行计数，并使用working day1和working day2来划分应用程序的计数。如何确定哪一种申请处于哪一种状态并继续进行？这个查询很长，所以我尝试使

浏览 3提问于2012-12-05得票数 1

1回答

熊猫群和小数位数

、

我正在尝试groupby一个pandas DataFrame，并从一个列中计算分位数和聚合。下面是一个示例DataFrame： import pandas as pd import numpy as np df = pd.DataFrame({ 'id': [1, 1, 1, 2], 'cat': ['p','p','p','n'], 'num': [5, 10, 1

浏览 4提问于2022-05-17得票数 0

2回答

分组行部分[Python] [Pandas]

、、、

大家早上好。我有以下数据： import pandas as pd info = { 'states': [-1, -1, -1, 1, 1, -1, 0, 1, 1, 1], 'values': [34, 29, 28, 30, 35, 33, 33, 36, 40, 41] } df = pd.DataFrame(data=info) print(df) >>> states values 0 -1 34 1 -1 29 2 -1 28 3

浏览 0提问于2023-03-04得票数 0

回答已采纳

1回答

从熊猫GroupBy对象创建新的数据框架

、

我真正想做的事情可以用sql来表达，如下所示： SELECT v1, v2, COUNT(*) AS v_count FROM my_table GROUP BY 1,2 这意味着，我想创建一个新的数据框架，它由3列组成：(v1, v2, v_count)。以下是我尝试使用pandas的方法 grp = df.groupby(['v1', 'v2']) # GROUP BY v1, v2 cnt = grp.count() # get v_count for each group 但是如何将它们放在一个新的数据框架中呢？

浏览 3提问于2014-07-04得票数 0

回答已采纳

1回答

为什么方解石将GROUP_CONCAT改为LISTAGG？

我使用以下SQL构建了一个RelNode： SELECT GROUP_CONCAT(ename ORDER BY ename DESC SEPARATOR 'a') FROM emp 我使用RelToSqlConverter将其转换为SQL。我得到了这个SQL： SELECT LISTAGG(`ename`, 'a') WITHIN GROUP (ORDER BY `ename` IS NULL DESC, `ename` DESC) FROM `emp` 但我想要的是GROUP_CONCAT而不是LISTAGG。

浏览 2提问于2021-07-16得票数 0

1回答

熊猫-在列和行id中找到最长的字符串值。

、

我正在试图找到最长的字符串值的连续以及它所在的位置。我所拥有的数据的格式如下： ID Datetime Name 0 Date1, Harald 1 Date2, Harald 2 Date3, Esther 3 Date4, Steve 4 Date5, Esther 5 Date6, Esther 6 Date7, Esther 预期的输出为:按字符串值和日期或行号计算的最大的连列。 Output = { Harald: 2, 0 or Date1 Esther: 3, 4 or Date5 Steve: 1, 3 or

浏览 3提问于2019-11-11得票数 1

回答已采纳

2回答

提高postgres sql -版本10.5的性能

、

我有下面的表，需要下面的输出被星号包围的列名有索引. agent_group | id (INTEGER) | **agent_id** (INTEGER) | **group_id** (INTEGER)| | 1 | 87204 | 29 | | 2 | 87204 | 34 | | 3 | 87204 | 44 | | 4

浏览 0提问于2019-08-17得票数 0

1回答

我怎样才能提高groupby的速度？

、、

我有以下数据帧： import pandas as pd array = {'id': [1, 1, 1, 2, 2, 2, 3, 3], 'A': [False, False, True, False, False, False, True, True], 'B': [False, True, True, False, True, False, False, False]} df = pd.DataFrame(array) df 我想在一行中表示每个id。如果特定列上此id的所有值都为False，则其值应为False。如果至

浏览 44提问于2021-07-18得票数 3

回答已采纳

8回答

有可变组数的正则表达式？

、

是否可以创建一个具有可变组数的正则表达式？例如在运行这个之后..。 Pattern p = Pattern.compile("ab([cd])*ef"); Matcher m = p.matcher("abcddcef"); m.matches(); ..。我想要一些类似的 m.group(1) = "c" m.group(2) = "d" m.group(3) = "d" m.group(4) = "c"。 (背景:我正在解析一些数据行，其中一个“字段”正在重复。我希望

浏览 8提问于2011-02-16得票数 36

回答已采纳

2回答

如何在火花放电中用群生成过渡矩阵

我有一个pyspark数据文件，看起来像这样 import pandas as pd so = pd.DataFrame({'id': ['a','a','a','a','b','b','b','b','c','c','c','c'], 'time': [1,2,3,4,1,2,3,4,1,2,3,4],

浏览 5提问于2022-04-21得票数 0

回答已采纳

1回答

多行括号中的Regex匹配文本

、

我有以下案文： node [ id 2 label "node 2" thisIsASampleAttribute 43 ] node [ id 3 label "node 3" thisIsASampleAttribute 44 ] 我希望将每个节点及其内容分组到括号中，例如： node [ id 2 label "node 2" thisIsASampleAttribute 43 ] 但是，我用下面的代码对整个文本进行分组： Pattern p = Pattern

浏览 3提问于2016-01-23得票数 4

回答已采纳

1回答

保存正则表达式解析的数据

、、

我有一个Regex模式，它与我需要解析的数据完全匹配。不幸的是，使用拆分方法，它正在删除所需的数据并将垃圾传递给我。通常，我只会尝试另一个Regex表达式来做相反的事情，但它并不像听起来那么简单。它必须是用Java编写的，因为本节是一个更大的程序/包的一部分。模式p= Pattern.compile("/^{\?|\:|\=|||(- \？|\：|\=|||)“) 这是我正在解析的字符串(在每个节之后都有回车)：搜索结果：：getBleh()：{BLEHID=BLEH blehLastmoddate=1-Jul-11 bleh=BLEH；Beh description=

浏览 5提问于2012-07-11得票数 0

回答已采纳

3回答

将熊猫数据一组值转换为多个列表

、

浏览 7提问于2020-05-08得票数 1

回答已采纳

1回答

按Pandas中的数字范围分组并提取起始值和结束值

、

问题下面的例子可以用Pandas中的一系列数字(int)来分组吗？如果没有，我将如何实现期望的输出？数据 df = pd.DataFrame( {"price": [9, 8, 9, 10, 11, 6, 7, 8, 9, 9, 9, 9, 10, 11, 5]}, index=pd.date_range("19/3/2020", periods=15, freq="H"), ) df["higher"] = np.where(df.price > df.price.shift(), 1, 0) df[

浏览 1提问于2022-07-03得票数 0

回答已采纳

1回答

在SQL中，排序查询上的groupby是否与在同一个查询中执行这两种操作相同？

、、

以下查询是相同的，还是可能得到不同的结果(在任何主要的DB系统中，例如MSSQL、MySQL、Postgres、SQLite)：在相同的查询中执行这两个操作： SELECT group, some_agg_func(some_value) FROM my_table GROUP BY group ORDER BY some_other_value 子查询中的排序： SELECT group, some_agg_func(some_value) FROM ( SELECT group, some_value FROM my_table ORDER BY some_oth

浏览 2提问于2021-06-10得票数 0

回答已采纳

2回答

如何将PandasGroupByObject切片并在agg中使用多个函数

、、

我有一个带有Data和Group的熊猫Group，我想使用agg-method来执行多个功能。 from scipy.stats import iqr, norm import pandas as pd df = pd.DataFrame({'Data':[1,2,3,5,10,5,3,3,4,1], 'Group':[1,2,2,1,1,1,2,2,2,1]}) df.groupby('Group')['Data'].agg(['median', iqr]) 效果很好。但是现在我想在执行操作之前对组进行分割。问

浏览 8提问于2022-08-26得票数 3

回答已采纳

3回答

Pandas:组内最大值和最小值之间的差异

、、

给定一个如下所示的数据帧 GROUP VALUE 1 5 2 2 1 10 2 20 1 7 我想计算每组中最大值和最小值之间的差异。也就是说，结果应该是 GROUP DIFF 1 5 2 18 在Pandas中，有什么简单的方法可以做到这一点？在Pandas中，对于具有大约200万行和100万组的数据帧，执行此操作的快速方法是什么？

浏览 4提问于2016-10-22得票数 39

2回答

Python大熊猫应用:没有第一行的问题

、、、、

我需要些帮助。编写寻找组模式的代码，并将任何模式替换为该模式。当“无”排在第一排时，thad不起作用： df = pd.DataFrame([[16, None, 3], [17, None, 30], [10, "v", 30], [10, "z", 3], [None, "a", 23], [2, "a", 23]], columns=['A', 'B', 'C']) dict_group = df.groupby('C')['B'].agg(l

浏览 2提问于2019-12-10得票数 0

回答已采纳

5回答

具有NaN (缺少)值的pandas GroupBy列

、、、、

我有一个在列中有许多缺失值的DataFrame，我希望按这些值进行分组： import pandas as pd import numpy as np df = pd.DataFrame({'a': ['1', '2', '3'], 'b': ['4', np.NaN, '6']}) In [4]: df.groupby('b').groups Out[4]: {'4': [0], '6': [2]} 可以看到Pandas已经删除了具

浏览 225提问于2013-08-25得票数 211

1回答

根据列中的值，有条件地聚合具有不同函数的分组数据框

、

考虑下面的Pandas数据帧。 import pandas as pd df = pd.DataFrame({"val":[1, 2, 3, 10, 20, 30, 40], "group_id":["ones", "ones", "ones", "tens", "tens", "tens", "tens"], "condition":["sum&#

浏览 21提问于2021-01-24得票数 1

回答已采纳

1回答

寻找不同大熊猫数据的余弦相似性

、、

我有三只熊猫，假设group_1，group_2，group_3 import pandas as pd group_1 = pd.DataFrame({'A':[1,0,1,1,1], 'B':[1,1,1,1,1]}) group_2 = pd.DataFrame({'A':[1,1,1,1,1], 'B':[1,1,0,0,0]}) group_3 = pd.DataFrame({'A':[1,1,1,1,1], 'B':[0,0,0,0,0]}) 填充的虚拟值，对于上述组

浏览 3提问于2022-09-03得票数 1

回答已采纳

1回答

熊猫:如何将行与先前的行合并，如果它们以特定的模式开始

、

我有一个非常混乱的数据集和url后面的文本，如下所示： import pandas as pd data = {'URL': ['www.google.com this is fine', 'www.google.com this is also fine', 'www.google.com ', ' what the hell?']} df = pd.DataFrame(data, columns=['URL']) 我需要所有不以URL开头的东西与前一行合并，但我不知道如何在python/大熊

浏览 1提问于2020-10-13得票数 0

回答已采纳

4回答

java按括号拆分，并保留delmiter - RegEx

、

我正在尝试使用regex分隔字符串，并以结束括号作为分隔符，必须保留方括号。 i/p String: (GROUP=test1)(GROUP=test2)(GROUP=test3)(GROUP=test4) needed o/p: (GROUP=test1) (GROUP=test2) (GROUP=test3) (GROUP=test4) 我使用的是java regex -“(^)*”，它向我抛出error..Below是我正在使用的代码，当我试图获取组时，它抛出了错误。 Pattern splitDelRegex = Pattern.compile("\\([^)]*?

浏览 5提问于2017-02-22得票数 1

回答已采纳

2回答

使用Regex (Java)将字符串拆分为key=value组

、、

我不是regexp方面的专家，这就是为什么我要求您提出一种在key=value组中拆分这个字符串的有效方法。输入字符串： x-x="11111" y-y="John-Doe 23" db {rty='Y453'} code {codeDate='2000-03-01T00:00:00'} 我需要的是获得key=value对： key=x-x, value="11111" key=y-y, value="John-Doe 23" key=rty, value='Y453' key=c

浏览 8提问于2017-07-26得票数 2

回答已采纳

1回答

函数在用regex匹配替换大熊猫列值时只返回无值。

、、

浏览 2提问于2021-11-06得票数 1

回答已采纳

2回答

PostgreSQL中的行嵌套分组

、、

我在PostgreSQL 11中有以下“事务”表： |=====================|==================|==================|===========================| | owner | amount | category | timestamp | |=====================|==================|==================|=====================

浏览 1提问于2020-10-24得票数 0

2回答

如何将数据从长转换为宽，并在索引中按年对值进行分组？

、、、、

下面的代码与我使用的前一个csv一起工作，两个csv的列数量相同，列的名称也是相同的。运行的csv的数据没有的csv数据这个错误意味着什么？我为什么要犯这个错误？ from pandas import read_csv from pandas import DataFrame from pandas import Grouper from matplotlib import pyplot series = read_csv('carringtonairtemp.csv', header=0, index_col=0, parse_dates=True, squeeze=

浏览 3提问于2020-09-20得票数 6

回答已采纳

2回答

熊猫枢轴表组总结

、、

鉴于以下数据框架： import numpy as np import pandas as pd df = pd.DataFrame({'group':['s','s','s','p','p','p'], 'section':['a','b','b','a','a','b'] }) gro

浏览 1提问于2016-06-03得票数 0

回答已采纳

4回答

Java如何根据输入检查多个正则表达式模式？

、

(如果我走错了方向，请告诉我是否有更好的方法来处理这个问题) 我有一个Java程序，它将有多个模式，我想将它们与输入进行比较。如果其中一个模式匹配，那么我希望将该值保存在一个字符串中。我可以让它用一个单一的模式，但我想要能够检查与许多。现在，我要检查输入是否与一种模式匹配： Pattern pattern = Pattern.compile("TST\\w{1,}"); Matcher match = pattern.matcher(input); String ID = match.find()?match.group():null; 因此，如果输入为TST1234或abc

浏览 2提问于2017-03-23得票数 3

回答已采纳

1回答

合并分类栏的问题

、

在聚合包含分类列的多个列时，我在pandas 0.25.2中遇到了一个问题。 import pandas as pd df = pd.DataFrame({ "col1": [1, 3, 4, 1], "col2": pd.Categorical(["b", "a", "c", "b"], categories=["a", "b", "c"], ordered=False), "col3": [4, 5,

浏览 5提问于2019-11-03得票数 4

回答已采纳

1回答

熊猫群应用功能组合某些组，而不是其他组

、、

我在我的groupby DataFrame df上使用熊猫，它有type，subtype和其他11栏。然后，我在组中使用我的apply (需要更好的名称)调用combine_function (需要更好的名称)如下： grouped = df('type') reduced = grouped.apply(combine_function) 其中，我的combine_function检查组中的任何元素是否包含具有给定子类型的任何元素，比如1，如下所示： def combine_function(group): if 1 in group.subtype:

浏览 3提问于2013-11-21得票数 3

回答已采纳

1回答

从DirectoryEntry中提取组名

、

当我使用下面的代码获取组列表时，我得到一个长字符串表示组名。 CN=group.xy.admin.si，OU=Other，OU=Groups，OU=03，OU=UWP客户，DC=WIN，DC=CORP，DC=com 但我只想得到组名，在本例中是group.xy.admin.si public static List<string> GetGroups(DirectoryEntry de) { var memberGroups = de.Properties["memberOf"].Value; var groups =

浏览 0提问于2013-01-15得票数 0

回答已采纳

1回答

分组后的不同值之和将爆炸一个度量。

、

我在用 with t1 as ( SELECT DATE_TRUNC(PARSE_DATE("%Y%m%d", date), MONTH) as month, fullVisitorId, product.productSKU, product.v2ProductName, case when hits.ecommerceaction.action_type = '2' then 1 else 0 end as pdp_visitor, count(case when hits.ecommerceaction.a

浏览 2提问于2021-04-28得票数 0

回答已采纳

2回答

熊猫枢轴表中所有对应的最大值

、

我有以下数据(熊猫版本0.13.1) >>> import pandas as pd >>> DF = pd.DataFrame({'Group':['G1','G1','G2','G2'],'Start':['10','10','12','13'],'End':['13','13','14','15'],'Sam

浏览 1提问于2015-06-18得票数 1

回答已采纳

1回答

从不同的表中获取每个日期的特定数据

、、、

我有两张桌子 X列为id、日期和计数。另一个表是Y，列为id，代码。现在，我希望得到上述表单中的结果，以便在不同的列中有列代码、id和计数，所以应该如下所示 TABLE X id date count 1 2016-08-16 20 1 2016-08-17 34 1 2016-08-18 56 1 2016-08-19 67 1 2016-08-20 87 TABLE Y id code 1 101 2

浏览 4提问于2017-05-28得票数 1

回答已采纳

1回答

是否有一种简单的方法来手动迭代现有的熊猫群对象？

、、、、

是否有一种简单的方法来手动遍历现有的 pandas groupby对象？ import pandas as pd df = pd.DataFrame({'x': [0, 1, 2, 3, 4], 'category': ['A', 'A', 'B', 'B', 'B']}) grouped = df.groupby('category') 在应用程序中，下面是一个for name, group in grouped:循环。对于手动测试，我想做一些类似group =

浏览 0提问于2019-07-30得票数 1

回答已采纳

1回答

CSV中大DataSet的Pandas GroupBy均值

、

一个常见的SQLism是"Select A，mean(X) from table group by A“，我想在pandas中复制这一点。假设数据存储在CSV文件中，并且太大而无法加载到内存中。如果CSV可以放在内存中，那么一个简单的两行代码就足够了： data=pandas.read_csv("report.csv") mean=data.groupby(data.A).mean() 当无法将CSV读入内存时，可以尝试： chunks=pandas.read_csv("report.csv",chunksize=whatever) cmeans=pa

浏览 2提问于2014-04-21得票数 5