动态创建自定义聚合以与Pandas groupby一起使用_身份验证:自定义登录方法并创建手动IAuthSession以与[身份验证]属性一起使用？ - 腾讯云开发者社区

python、pandas、pandas-groupby、python-3.7

我试图动态创建一个lambda函数的字典，将其传递给Pandas中的agg()函数，并计算“异常”的数量。aggdict[feature_a] = lambda x: (x >= threshold_a).sum() dailyAgg = df.

浏览 38提问于2021-05-10得票数 1

回答已采纳

1回答

Spark Structured Streaming -带窗口时间事件的自定义聚合

scala、apache-spark、apache-spark-sql、spark-structured-streaming

我正在尝试在具有事件时间窗口的结构化流上进行自定义聚合。首先，我尝试将#Aggregator接口(类型化为UDAF)与.agg函数一起使用，如下所示： .select($"id",$"time", $"eventType", $"eventValue")) .groupBy(window($"time",

浏览 0提问于2018-05-09得票数 2

1回答

是否将行中的值追加到新列中？

python

例如(使用上面的数据)：Alexander,Frank,Johnson,460700,1,0,0,0 Ashley

浏览 0提问于2018-09-14得票数 0

3回答

使用Pandas展开()时，“没有要聚合的数值类型”

python、pandas、dataframe、pandas-groupby

在Pandas1.1.4中，我收到了一个DataError:在使用ExpandingGroupby时没有要聚合的数字类型。col1 col2b redc greend bluetmp.groupby('col1').agg(lambda x: ','.join(x))tmp.groupby('c

浏览 10提问于2022-02-10得票数 2

回答已采纳

0回答

Dataframe中的Pandas中的聚合列

python、pandas、dataframe、pandas-groupby

我使用groupby()和reset_index()函数使用来自Pandas Dataframe的数据创建具有聚合值的列： df1=data.groupby(["subscription_id"

浏览 5提问于2017-06-13得票数 0

回答已采纳

2回答

带有groupby的pyspark collect_set或collect_list

list、group-by、set、pyspark、collect

在groupby之后，如何在数据帧上使用collect_set或collect_list。例如：df.groupby('key').collect_set('values')。

浏览 2提问于2016-06-02得票数 62

回答已采纳

1回答

寻找术语的频率并处理相应值的替代方法

python、pandas、loops、csv

基本上，每个供应商的名称出现多次(与供应商拥有的产品数量一样多)。我的目的是创建一个csv，其中包含供应商的名称、产品的数量和国家(如果价值是"world“，我将指定5或1)。到目前为止，我还没有尝试使用更多的算法思维方式。相反，我使用了下一个代码 num_listings = df['vendor_name'].value_counts().to_dict我假设使用for循环可以使我的

浏览 2提问于2018-09-18得票数 0

回答已采纳

1回答

pandas.groupby.aggregate

python、pandas、pandas-groupby、pandas-apply

我试图使用自定义聚合函数来提高pandas.groupby.aggregate操作的性能。我注意到--如果我错了-- pandas按顺序调用每个块上的聚合函数(我怀疑它是一个简单的for-loop)。由于pandas在很大程度上是基于numpy的，是否有一种方法可以使用numpy的矢量化特性来加速计算？在我的代码中，我需要将风数据平均样本聚合在一起。N_samples=1e4输出： Wi

浏览 1提问于2020-12-01得票数 5

回答已采纳

1回答

pandas group by agg根据pattern在组内选择

python、pandas、dataframe

我正在尝试编写一个自定义聚合函数，它将始终从每个组中选择以最少零结尾的字符串。例如，下面是一个数据帧示例： import pandas as pd1 "10534"1 "105

浏览 28提问于2021-08-16得票数 0

回答已采纳

1回答

每天过滤熊猫数据

python、pandas、performance、datetime、pandas-groupby

我有一个以分钟为单位的外汇数据框架，长达一年(371635行)：0

浏览 0提问于2018-11-09得票数 7

回答已采纳

3回答

通过制作系列熊猫；而不是按对象分组

python、pandas、dataframe、pandas-groupby

我有一个交易的Pandas DataFrame：0命令：它生成一个groupby对象： Purchase_Type year_month

浏览 0提问于2018-07-22得票数 3

回答已采纳

1回答

Pandas索引提供KeyError：(片(无，无，无)

python-3.x、pandas、dataframe

我正在用Python3中的Pandas索引和切片数据来计算空间统计数据。当我在纬度和经度范围上运行for循环时，使用.loc,为输入文件中没有可用值的特定纬度和经度集提供一个错误KeyError: (slice(None, None, None), )。import numpy as npfrom scipy import stats df = pd.read_csv_getitem_lowerdim(tup) File "

浏览 6提问于2022-07-09得票数 0

1回答

在有重叠的熊猫中创建一个定制群

python、pandas、group-by

我正在聚合包含数据的数据，使用pd.Grouper对数据进行均匀采样，对数据进行分组，然后应用函数。在内部，一旦按时间定义了一个组(假设组为1秒)，则连续组将在随后的秒开始，没有重叠。|grouped = df.groupby([pd.Grouper(level=df.time, freq='1s', dropna=True) ]) 如果数据上的数据具有恒定的采

浏览 7提问于2022-09-23得票数 0

1回答

每个属性的分割

python、pandas、dataframe

首先，我为每个team创建了新的数据格式。生成的新txt文件，每个team列中的唯一值都有一个。码df = pd.read_csv('combined.csv')df.to_csv('RED.csv')但是，我想从一个数据each开始，读取所有唯一的“team”，并为每个团队创建一个带有头文件的.txt文件。

浏览 0提问于2021-02-02得票数 1

回答已采纳

3回答

使用pandas GroupBy.agg()对同一列进行多个聚合

python、pandas、dataframe、aggregate、pandas-groupby

pandas有没有一种内置的方法，可以在同一列df["returns"]上应用两个不同的聚合函数f1, f2，而不必多次调用agg()？示例数据帧：import datetime as dtdf = pd.DataFrame: np.repeat(1, 10)语法上错误，但直觉上正确的方法是： # Assume `f1` and `f2` are defined for aggrega

浏览 0提问于2012-09-26得票数 190

回答已采纳

1回答

聚合步骤在本地发出结果，但在GCP数据流中部署时不会产生结果

python、google-cloud-platform、google-cloud-dataflow、apache-beam

我们希望从这些数据中创建15分钟的聚合(积分和平均值)。为此，我们创建一个FixedWindow，然后创建/groupby/删除一个虚拟键，它允许我们将所有消息都放在一个列表中，然后使用一个使用熊猫执行处理的DoFn自定义类创建这些聚合。class Aggregator(beam.DoFn): # parsing t

浏览 3提问于2021-08-02得票数 3

回答已采纳

0回答

Python Pandas:将参数传递给agg()中的函数

python、pandas、group-by、aggregate

我正在尝试通过使用不同类型的函数和参数值来减少pandas数据帧中的数据。但是，我没有设法更改聚合函数中的默认参数。'y': ['a','a','b','b']}) x y1 NaN a3 1.0 b在下面的代码中，我可以将此函数与默认的

浏览 11提问于2017-06-16得票数 11

回答已采纳

1回答

将PySpark中的两个DataFrames组合成矩阵

python、dataframe、apache-spark、pyspark

我在PySpark脚本中有2个DataFrames。+-----+--------------++-----+--------------+| 2 | apple |+-----+--------------++----+---------------++----+---------------+ | 13 | ['abc',

浏览 2提问于2019-11-22得票数 0

2回答