腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
从
pyspark
dataframe
获取
平均
日期
值
apache-spark
、
pyspark
、
apache-spark-sql
------+|2019-12-03 07:02:07| |2020-01-16 23:10:08| 现在,我想提取Created_datetime列中的
平均
值(或与现有
平均
值最接近的
值
)。
浏览 16
提问于2020-10-15
得票数 0
回答已采纳
3
回答
从
数据帧中
获取
价值
python
、
pyspark
、
type-conversion
、
apache-spark-sql
在Scala中,我可以使用get(#)或getAs[Type](#)
从
数据帧中
获取
值。在
pyspark
中我应该怎么做呢?我有一个两列的
DataFrame
:item(string)和salesNum(integers)。我做了一个groupby和mean来获得这些数字的
平均
值,如下所示:而且它是有效的。现在我在一个数据帧中有了一个
值
的均值。 如何
从
数据帧中<em
浏览 2
提问于2016-06-28
得票数 21
回答已采纳
1
回答
Pyspark
使用列表计算整个列的
平均
值
python
、
apache-spark
、
pyspark
、
apache-spark-sql
我有一个
pyspark
dataframe
,它有一个列,其中包含如下列表: | value | | ["1| 有没有一种方法可以用
pyspark
计算总体的
平均
值?因此,我希望具有以下
值
: 26.6
浏览 90
提问于2020-12-19
得票数 1
回答已采纳
2
回答
如何在
pyspark
dataframe
中返回空
值
的行?
python
、
pyspark
、
apache-spark-sql
我正在尝试
从
pyspark
dataframe
中
获取
空
值
的行。在pandas中,我可以在数据帧上使用isnull()来实现这一点:但在
PySpark
的情况下,当我运行以下命令时,它显示Attributeerror:AttributeError:'
DataFrame
‘对象没有属性'isNull’。如何在不对每一列进行检查的情况下
获
浏览 25
提问于2018-11-27
得票数 5
1
回答
PySpark
:检索数据帧中组的
平均
值和
平均
值周围的
值
的计数
python
、
sql
、
apache-spark
、
apache-spark-sql
、
window-functions
每个观察的变量名称,时间戳和
值
在当时。 因此,我需要首先得到每个变量的
平均
值。这就是为什么我使用GroupBy来
获取
每个变量的统计信息(而不是整个数据集)。,我就可以为
浏览 5
提问于2016-07-06
得票数 7
回答已采纳
1
回答
在groupBy(x).agg中进行过滤,以在的不同子集上创建
平均
值
dataframe
、
pyspark
、
aggregate-functions
通常,当我必须进行聚合时,我使用类似于
PySpark
中的以下代码:现在,我实际上想要计算
dataframe
df的多个子集上的
平均
值(例如,在不同的时间窗口上,例如去年的
平均
值,过去两年的
平均
值,
浏览 4
提问于2021-03-18
得票数 1
回答已采纳
1
回答
具有数据帧查询的
PySpark
UDF函数?
pyspark
、
pyspark-sql
我有另一种解决方案,但我更喜欢使用
PySpark
2.3来实现它。我有一个二维
PySpark
数据框架,如下所示:---------- | ----09/31/2018 | 1009/01/2018 | null我希望通过查找过去最接近的
值
来替换ID空
值
,或者如果该
值
是空的
浏览 0
提问于2019-02-02
得票数 0
回答已采纳
2
回答
如何将
值
传递给表中的
pyspark
变量?
python
、
pyspark
、
apache-spark-sql
这可能是一个愚蠢的问题,但我有一个表,其中的每一列都包含要传递给变量的
值
: select sfObject from db.tblwhere Id = {} 我看到的是一个名为sfObject的列,它的预期
值
为'ValueA‘,我得到一个
pyspark
.sql.
dataframe
.
DataFrame</e
浏览 1
提问于2020-06-10
得票数 1
回答已采纳
7
回答
将
PySpark
数据框列聚合
值
存储到变量中
apache-spark
、
pyspark
我在这里使用
PySpark
数据帧。"test1“是我的
PySpark
数据帧和事件 _ date是一个TimestampType。因此,当我尝试
获取
事件的不同计数时 _ date,结果是一个整数变量,但是当我尝试
获取
同一列的max时,结果是一个
dataframe
。我想了解哪些操作会导致数据帧和变量。我还想知道如何将事件
日期
的最大
值
存储为变量 生成整数类型的代码: loop_cnt=test1.select('event_date').dist
浏览 147
提问于2016-05-03
得票数 5
回答已采纳
2
回答
熊猫
DataFrame
的复杂
平均
值
python
、
pandas
我有一个简单的
DataFrame
,有2列-
日期
和
值
。我需要创建另一个包含每年每个月
平均
值的
DataFrame
。例如,我有
从
2015-01-01到2018-12-31的每日数据,我需要2015年、2016年每个月的
平均
数据,这是最简单的方法?
浏览 2
提问于2019-02-15
得票数 2
回答已采纳
2
回答
熊猫群
值
和
日期
范围的
平均
值
python
、
pandas
我有一个像这样的
DataFrame
0columnsdf.plot( x='date',y='value') 这里的点,这个图必须有许多波动,我想要软化这一点,我的想法是按
日期
间隔将
值
分组,得到
平均</
浏览 1
提问于2019-01-30
得票数 0
回答已采纳
2
回答
在分组数据上使用
PySpark
Imputer
pyspark
、
missing-data
我想估算每个Class组的
平均
Age。
浏览 5
提问于2018-09-10
得票数 1
回答已采纳
1
回答
使用配置单元元数据读取HDFS文件-
Pyspark
python
、
dataframe
、
pyspark
、
apache-spark-sql
、
pyspark-sql
我是
PySpark
新手,正在尝试读取HDFS文件(上面创建了hive表)并创建
PySpark
数据帧。通过
PySpark
读取配置单元表非常耗时。有没有什么方法可以动态
获取
hive列名(用作
dataframe
中的模式)?我希望将文件位置、表名和数据库名作为输入传递给aa程序/函数,以便
从
配置单元元数据(可能是元数据xml)中
获取
模式/列名称,并作为
dataframe
返回。 请指教
浏览 15
提问于2019-03-06
得票数 0
回答已采纳
2
回答
如何将单元格访问到数据帧中
python
、
pyspark
、
apache-spark-sql
、
pyspark-sql
尝试
从
DataFrame
获取
值时出现问题我做了什么:#It´s a
dataframe
f['COUNTF'].iloc[0] 但是
浏览 1
提问于2019-05-29
得票数 0
1
回答
pySpark
,聚合复函数(连续事件的差异)
python
、
pandas
、
apache-spark
、
pyspark
我有一个
DataFrame
(df),它的列是userid (用户id)、day (
日期
)。userid day 1 2016-09-201 2016-09-25 如果
DataFrame
是Pandas
DataFrame
,我可以像这样计算我感
浏览 4
提问于2016-12-10
得票数 1
2
回答
pyspark
获取
周数月数
sql
、
hadoop
、
apache-spark
、
pyspark
我很难
从
datafrme列中的
pyspark
中
获取
月份的周数,例如,假设我的
dataframe
为1,01/JAN/2017WeekIDm,DateField,MOF2,15/FEB/2017,2 我尝试使用striftime和其他我无法实现的
日期
函数。
浏览 16
提问于2017-07-27
得票数 1
8
回答
使用
pyspark
获取
列的数据类型
apache-spark
、
pyspark
、
apache-spark-sql
Collection列有两个不同的
值
(例如:(bson.Int64,int) (int,float) )。我的问题是有些列有不同的数据类型。当我
从
pyspark
dataframe
查询计数时我有这样的例外 "Cannot cast STRING into a DoubleType (value: BsonString
浏览 42
提问于2017-07-11
得票数 62
回答已采纳
1
回答
PySpark
:如何使用窗口函数按固定
日期
范围和另一列来计算
值
列的和?
python
、
apache-spark
、
pyspark
、
apache-spark-sql
、
pyspark-sql
我有一个星火
DataFrame
,由三列组成:Date、Item和Value,类型分别是Date、String和Double。我想按
日期
范围分组(其中每个范围的持续时间
从
数据中的第一个
日期
开始起为7天)和项,并计算由
日期
范围(实际周号)和项定义的每个此类组的
值
的总和。我怀疑
PySpark
的窗口函数在某些时候应该被用于
日期
范围,但是在这种情况下无法找到实现它们的方法。
浏览 1
提问于2019-03-27
得票数 2
1
回答
加入两个数据后最终
DataFrame
上的
DataFrame
条件格式
python
、
dataframe
、
date
、
pyspark
、
group-by
PySpark
DataFrame
场景: 有一个叫DF的
DataFrame
。Date.Each DF的两个主要列是ID,ID
平均
有40+唯一的Date(非连续
日期
),现在有第二个
DataFrame
,称为DF_date,它有一个名为Date的列。DF.Now,中的“
日期
”的最大
值
和最小
值
之间的
日期
目标是用每个唯一的“ID”的连续开始
日期
和结束
日期
填充DF (缺失的终止
日期</
浏览 7
提问于2022-03-30
得票数 0
回答已采纳
1
回答
使用另一个数据筛选器进行
PySpark
筛选,通过使用ids对
日期
和组进行访问和分组。
dataframe
、
apache-spark
、
pyspark
、
filter
我有一个每月频率的火花放电数据date_
dataframe
from_date, to_date2021-02-01, 2022-02-01使用
dataframe
,我希望过滤另一个具有数百万记录(每日频率)的数据,方法是将它们按id分组并进行聚合以计算
平均
值。的过滤数据,使用ID最终聚合来计算
平均
值。from functools import reduce from
pys
浏览 5
提问于2022-11-29
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
遇见YI算法之初识Pyspark(二)
Python开源数据分析工具TOP 3!
大数据下Python的三款大数据分析工具
肝了3天,整理了90个Pandas案例
pandas系列学习(三):DataFrame
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券