从pyspark dataframe获取平均日期值_Dataframe从值获取索引日期_根据其他列值从DataFrame获取值(PySpark) - 腾讯云开发者社区

apache-spark、pyspark、apache-spark-sql

------+|2019-12-03 07:02:07| |2020-01-16 23:10:08| 现在，我想提取Created_datetime列中的平均值(或与现有平均值最接近的值)。

浏览 16提问于2020-10-15得票数 0

回答已采纳

3回答

从数据帧中获取价值

python、pyspark、type-conversion、apache-spark-sql

在Scala中，我可以使用get(#)或getAs[Type](#)从数据帧中获取值。在pyspark中我应该怎么做呢？我有一个两列的DataFrame：item(string)和salesNum(integers)。我做了一个groupby和mean来获得这些数字的平均值，如下所示：而且它是有效的。现在我在一个数据帧中有了一个值的均值。如何从数据帧中<em

浏览 2提问于2016-06-28得票数 21

回答已采纳

1回答

Pyspark使用列表计算整个列的平均值

python、apache-spark、pyspark、apache-spark-sql

我有一个pyspark dataframe，它有一个列，其中包含如下列表： | value | | ["1| 有没有一种方法可以用pyspark计算总体的平均值？因此，我希望具有以下值: 26.6

浏览 90提问于2020-12-19得票数 1

回答已采纳

2回答

如何在pyspark dataframe中返回空值的行？

python、pyspark、apache-spark-sql

我正在尝试从pyspark dataframe中获取空值的行。在pandas中，我可以在数据帧上使用isnull()来实现这一点：但在PySpark的情况下，当我运行以下命令时，它显示Attributeerror：AttributeError：'DataFrame‘对象没有属性'isNull’。如何在不对每一列进行检查的情况下获

浏览 25提问于2018-11-27得票数 5

1回答

PySpark:检索数据帧中组的平均值和平均值周围的值的计数

python、sql、apache-spark、apache-spark-sql、window-functions

每个观察的变量名称，时间戳和值在当时。因此，我需要首先得到每个变量的平均值。这就是为什么我使用GroupBy来获取每个变量的统计信息(而不是整个数据集)。，我就可以为

浏览 5提问于2016-07-06得票数 7

回答已采纳

1回答

在groupBy(x).agg中进行过滤，以在的不同子集上创建平均值

dataframe、pyspark、aggregate-functions

通常，当我必须进行聚合时，我使用类似于PySpark中的以下代码：现在，我实际上想要计算dataframe df的多个子集上的平均值(例如，在不同的时间窗口上，例如去年的平均值，过去两年的平均值，

浏览 4提问于2021-03-18得票数 1

回答已采纳

1回答

具有数据帧查询的PySpark* UDF函数？*

pyspark、pyspark-sql

我有另一种解决方案，但我更喜欢使用PySpark 2.3来实现它。我有一个二维PySpark数据框架，如下所示：---------- | ----09/31/2018 | 1009/01/2018 | null我希望通过查找过去最接近的值来替换ID空值，或者如果该值是空的

浏览 0提问于2019-02-02得票数 0

回答已采纳

2回答

如何将值传递给表中的pyspark变量？

python、pyspark、apache-spark-sql

这可能是一个愚蠢的问题，但我有一个表，其中的每一列都包含要传递给变量的值： select sfObject from db.tblwhere Id = {} 我看到的是一个名为sfObject的列，它的预期值为'ValueA‘，我得到一个pyspark.sql.dataframe.DataFrame</e

浏览 1提问于2020-06-10得票数 1

回答已采纳

7回答

我在这里使用PySpark数据帧。"test1“是我的PySpark数据帧和事件 _ date是一个TimestampType。因此，当我尝试获取事件的不同计数时 _ date，结果是一个整数变量，但是当我尝试获取同一列的max时，结果是一个dataframe。我想了解哪些操作会导致数据帧和变量。我还想知道如何将事件日期的最大值存储为变量生成整数类型的代码： loop_cnt=test1.select('event_date').dist

浏览 147提问于2016-05-03得票数 5

回答已采纳

2回答

熊猫DataFrame的复杂平均值

python、pandas

我有一个简单的DataFrame，有2列-日期和值。我需要创建另一个包含每年每个月平均值的DataFrame。例如，我有从2015-01-01到2018-12-31的每日数据，我需要2015年、2016年每个月的平均数据，这是最简单的方法？

浏览 2提问于2019-02-15得票数 2

回答已采纳

2回答

熊猫群值和日期范围的平均值

python、pandas

我有一个像这样的DataFrame0columnsdf.plot( x='date',y='value') 这里的点，这个图必须有许多波动，我想要软化这一点，我的想法是按日期间隔将值分组，得到平均</

浏览 1提问于2019-01-30得票数 0

回答已采纳

2回答

在分组数据上使用PySpark* Imputer*

pyspark、missing-data

我想估算每个Class组的平均Age。

浏览 5提问于2018-09-10得票数 1

回答已采纳

1回答

使用配置单元元数据读取HDFS文件- Pyspark

python、dataframe、pyspark、apache-spark-sql、pyspark-sql

我是PySpark新手，正在尝试读取HDFS文件(上面创建了hive表)并创建PySpark数据帧。通过PySpark读取配置单元表非常耗时。有没有什么方法可以动态获取hive列名(用作dataframe中的模式)？我希望将文件位置、表名和数据库名作为输入传递给aa程序/函数，以便从配置单元元数据(可能是元数据xml)中获取模式/列名称，并作为dataframe返回。请指教

浏览 15提问于2019-03-06得票数 0

回答已采纳

2回答

如何将单元格访问到数据帧中

python、pyspark、apache-spark-sql、pyspark-sql

尝试从DataFrame获取值时出现问题我做了什么：#It´s a dataframef['COUNTF'].iloc[0] 但是

浏览 1提问于2019-05-29得票数 0

1回答

pySpark，聚合复函数(连续事件的差异)

python、pandas、apache-spark、pyspark

我有一个DataFrame (df)，它的列是userid (用户id)、day (日期)。userid day 1 2016-09-201 2016-09-25 如果DataFrame是Pandas DataFrame，我可以像这样计算我感

浏览 4提问于2016-12-10得票数 1

2回答

pyspark获取周数月数

sql、hadoop、apache-spark、pyspark

我很难从datafrme列中的pyspark中获取月份的周数，例如，假设我的dataframe为1,01/JAN/2017WeekIDm,DateField,MOF2,15/FEB/2017,2 我尝试使用striftime和其他我无法实现的日期函数。

浏览 16提问于2017-07-27得票数 1

8回答

使用pyspark获取列的数据类型

apache-spark、pyspark、apache-spark-sql

Collection列有两个不同的值(例如：(bson.Int64,int) (int,float) )。我的问题是有些列有不同的数据类型。当我从pyspark dataframe查询计数时我有这样的例外 "Cannot cast STRING into a DoubleType (value: BsonString

浏览 42提问于2017-07-11得票数 62

回答已采纳

1回答

PySpark:如何使用窗口函数按固定日期范围和另一列来计算值列的和？

python、apache-spark、pyspark、apache-spark-sql、pyspark-sql

我有一个星火DataFrame，由三列组成：Date、Item和Value，类型分别是Date、String和Double。我想按日期范围分组(其中每个范围的持续时间从数据中的第一个日期开始起为7天)和项，并计算由日期范围(实际周号)和项定义的每个此类组的值的总和。我怀疑PySpark的窗口函数在某些时候应该被用于日期范围，但是在这种情况下无法找到实现它们的方法。

浏览 1提问于2019-03-27得票数 2

1回答

加入两个数据后最终DataFrame上的DataFrame条件格式

python、dataframe、date、pyspark、group-by

PySpark DataFrame场景：有一个叫DF的DataFrame。Date.Each DF的两个主要列是ID，ID平均有40+唯一的Date(非连续日期)，现在有第二个DataFrame，称为DF_date，它有一个名为Date的列。DF.Now，中的“日期”的最大值和最小值之间的日期目标是用每个唯一的“ID”的连续开始日期和结束日期填充DF (缺失的终止日期</

浏览 7提问于2022-03-30得票数 0

回答已采纳

1回答

使用另一个数据筛选器进行PySpark筛选，通过使用ids对日期和组进行访问和分组。

dataframe、apache-spark、pyspark、filter

我有一个每月频率的火花放电数据date_dataframefrom_date, to_date2021-02-01, 2022-02-01使用dataframe，我希望过滤另一个具有数百万记录(每日频率)的数据，方法是将它们按id分组并进行聚合以计算平均值。的过滤数据，使用ID最终聚合来计算平均值。from functools import reduce from pys

浏览 5提问于2022-11-29得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云