在pyspark中按小时分组？_按每日pyspark分组_在sql中按日期、小时分组 - 腾讯云开发者社区

、

10 00:59:00 23 01:56:00 34 每次我尝试按小时对时间列进行分组时

浏览 26提问于2019-10-09得票数 0

回答已采纳

1回答

分组依据列表中的元素

、、

我是PySpark的新手。我创建了spark dataframe，并且我有一个" countries“列，其中包含国家列表。如何通过存在于国家/地区列表中的单个国家/地区来groupBy我的数据帧 +-----------------++-----------------+ | [

浏览 4提问于2019-10-09得票数 0

1回答

PySpark -聚合还是按多个键缩减？

、

我有一个具有以下元组格式的RDD：我只想按(a, (b,c))和d进行分组，如下所示：在pySpark中如何按多个键分组?

浏览 6提问于2017-12-19得票数 0

2回答

GroupBy在PySpark中的优化

、、、、

我有一个数据集，在该数据集中，我将按多个变量分组，使用PySpark计算每个用户ID的最大值和平均值的中位数，如下所示：df = spark.read.parquet在数以十亿计的行上运行2个小时。有什么办法来优化这个吗？

浏览 21提问于2022-01-10得票数 0

回答已采纳

1回答

在火星雨中不能用1小时的翻滚窗口进行分组

、、、

Consumer.html HTTP/1.0" 200 1325，我想按主机名进行分组，并得到每个小时(翻滚小时)每个唯一主机名的字节大小之和。，我下面的代码是按主机名分组的，但是输出似乎不正确。不确定代码中有什么问题。Python代码：import findspark fi

浏览 4提问于2020-09-09得票数 1

回答已采纳

1回答

如何将多行共享id合并为一行(PYSPARK)

我在PySpark里有这个数据。我希望获得col3的唯一值。在SQL中，我将按col1进行分组，并将max( col3 )作为col3这是预期的产出： +

浏览 0提问于2020-03-20得票数 0

回答已采纳

2回答

pyspark是否支持窗口函数(例如first、last、lag、lead)？

、

pyspark是否支持窗口函数(例如first, last, lag, lead)？例如，如何按一列分组并按另一列排序，然后按SparkSQL或数据框选择每个组的第一行(这就像窗口函数一样)？我发现pyspark.sql.functions类包含聚合函数first和last，但它们不能用于groupBy类。

浏览 2提问于2015-03-24得票数 3

1回答

将事务分组到嵌套模式中

、、

我希望将存储在pyspark.sql.dataframe.DataFrame "ddf“中的事务按列"key”分组，该列指示事务的来源(在本例中为customer )。分组是一个非常昂贵的过程，因此我想在嵌套模式中将组写入磁盘：如何创建嵌套模式并将其写入磁盘？

浏览 6提问于2016-05-14得票数 0

回答已采纳

1回答

如何选择R中包含最大小时值的日期？

、、、

我想获取最大小时的日期。现在我正在尝试类似上面的东西，但它不起作用。= sum(volume)) %>% select(Date) 我想要这个返回值"12-02-2020“，因为它包含最高小时

浏览 17提问于2021-08-19得票数 0

回答已采纳

1回答

在特征和时间上聚合数据

、

我有一个10分钟间隔的pyspark数据帧，我如何在一个分类特征和2小时的时间内聚合它，然后计算其他两个特征的平均值和第三个特征的第一个值from pyspark.sql import S

浏览 21提问于2020-05-10得票数 0

回答已采纳

1回答

按每日pyspark分组

、

我有一个PySpark DataFrame：起始id到id价格日期 a b 20 30/05/2019 b c 5 30/05/2019

浏览 21提问于2020-12-06得票数 0

回答已采纳

1回答

在pyspark中保持至少有一个元素满足条件的组

、、

我一直在尝试用pyspark重现一些在Pandas中很容易做到的东西，但我现在已经挣扎了一段时间。12,5,1,19,2,7]}) a b1 2 53 1 195 2 7 和列表 l = [5,1] 我尝试做的是按a进行分组，如果b中的任何元素都在列表中，则为该组中的所有值返回True。中的可重现数据帧： fro

浏览 8提问于2020-11-04得票数 2

回答已采纳

1回答

我正在准备一个使用PySpark训练机器学习模型的数据集。我正在处理的数据帧包含数千条关于不同建筑和城市不同房间内不同日期登记的存在的记录。8| 48| +----+--------+----+---+-----+------+--------+-------+---------+ inHour和inMinute表示访问的小时和分钟小时数以0-23的格式考虑。所有列都只包含整数值。我缺少的是我的机器学习模型的目标值，即房间、建筑物、城市、日、月和时间间隔的组合的人数。我将尝试更好地解释，第一行表示访问时间为8，退出时间为13的

浏览 12提问于2021-01-10得票数 1

回答已采纳

2回答

pyspark dataframe、groupby和列的方差计算

、、、

我想按pyspark数据帧分组，并计算特定列的方差。对于一般人来说，这很容易，可以这样做AVERAGES=df.groupby('country').agg(func.avg('clicks').alias('avg_clicks')).collect() 然而，对于方差，函数子模块中似乎没有任何聚合函数(我也想知道为什么，因为这是一个相当常见的操作)。

浏览 7提问于2015-08-12得票数 5

1回答

按一天中的每小时生成一行

、、

我希望获得按小时分组的行内容，每小时的整数数据作为AVG(整数数据)。例如:行：(2, 10:25)(9, 11:25)6, 10:00 一个新手和可怕的方式是为每个小时范围提供一个查询第二种方法可能是按条款使用组，但我不确定如何使用。我在googled上搜索了一些关于堆栈溢出的答案，但是没有帮助。我真的很感激你的贡献。谢谢!

浏览 6提问于2013-04-05得票数 0

回答已采纳

1回答

pyspark将事务转换为列表列表

、、、、

我想在pyspark中使用PrefixSpan序列挖掘。103', u'b'], [u'4', u'104', u'a'],)订单中的组产品[u'b', u'c']), (u'

浏览 1提问于2017-06-05得票数 0

1回答

在IQueryable中按小时分组

、、、、

在我的项目中，我接收来自SPS的一些数据(所有x秒)。每y分钟我都会将当前的数据存档在数据库中，这样我就能够显示统计数据。我收到的数据被放入一个模型中。我相信它被称为linq到实体，但如果不是的话，我指的是将表达式树转换为sql或其他什么的功能，而不仅仅是在C#中执行它。由于数据库中每小时有一个无法确定的条目数量，所以我希望只获得每小时一个条目(第一个条目)，这样我就可以在图形中显示它。下面是一些日期时间的示例，它

浏览 0提问于2019-07-15得票数 3

回答已采纳

5回答

在SQLAlchemy中按小时分组？

、、

如何按SQLAlchemy中datetime列的小时部分对查询结果进行分组？

浏览 0提问于2010-01-22得票数 11

回答已采纳

1回答

在SQLAlchemy中按小时分组

、、

我试图从数据库中得到每小时的平均值。func.date_format(dlog.time, '%H'))\ .all() 问题在于，虽然它得到了每个小时的平均值，但它也是从第二天对同一小时进行分组的。因此，如果我想要每小时分组两天的数据(48小时内有48项)，我将得到1天的数据，其中有2天的数据分组在一起。

浏览 0提问于2021-08-26得票数 0

回答已采纳

2回答

如何在pyspark dataframe中添加具有最大值的常量列而不进行分组

、、

假设我们有一个包含两列的PySpark数据帧: ID (它是唯一的)和VALUE。我需要添加第三列，它始终包含相同的值，即列值的最大值。我观察到，在这种情况下，按ID分组没有任何意义，因为我需要一个全局最大值。这听起来很简单，可能是这样的，但我只看到了涉及分组的解决方案，这并不适合我的情况。我试了很多方法，但都不管用。我需要一个解决方案只在PySpark/Python代码。非常感谢!

浏览 15提问于2019-10-03得票数 0

点击加载更多