腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用另外两
列
中
的
信息并列放置两个
PySpark
df
列
python
、
datatable
、
pyspark
、
pyspark-sql
我
的
PySpark
数据帧中有四
列
: 'drivers','cars','topSpeeds','dates' 假设每个司机在不同
的
日期用不同
的
汽车达到了不同
的
最高速度,不同
的
汽车在不同
的
日期用不同
的
司机达到了不同
的
最高速度我可以将每辆车
的
司机在所有日期
的
最高速度
的
平均值</e
浏览 9
提问于2019-02-20
得票数 0
回答已采纳
1
回答
Pyspark
:
添加
具有
groupby
平均值
的
列
pyspark
、
apache-spark-sql
我有一个这样
的
数据帧: test = spark.createDataFrame( (1, 0, 100), (3, 1, 150), ],) 我想创建另一个
列
,并输入该标志
的
groupby
的
平均值
test.
groupBy<
浏览 9
提问于2021-02-03
得票数 0
回答已采纳
1
回答
如何在
PySpark
中获得布尔
列
的
平均值
?
python
、
pyspark
.agg(avg("boolean_column")),但得到错误: "function average requires numeric types, not boolean" 怎样才能得到这样一个
列
的
平均值
浏览 23
提问于2019-06-19
得票数 0
回答已采纳
2
回答
多列上
的
Spark数据帧聚合
pyspark
、
apache-spark-sql
、
spark-dataframe
Actually I am working on
pyspark
code.2.01 | 1.85 | 3.42 | 4.44 |我需要通过聚合所有collectX
列
来查找每个元素
的
平均值
和2.09 ||C2 | 2.93 | 1.23 |下面的代码分解了各个
列
的
浏览 0
提问于2016-03-24
得票数 1
3
回答
从数据帧中获取价值
python
、
pyspark
、
type-conversion
、
apache-spark-sql
在
pyspark
中我应该怎么做呢?saleDF.
groupBy
("salesNum").mean()).collect()如何从数据帧中获取该值,以获得浮点数形式
的
浏览 2
提问于2016-06-28
得票数 21
回答已采纳
1
回答
如果所有值都为负值,则返回常量,但如果只有一些值为负值,则返回
PySpark
组。
python
、
dataframe
、
apache-spark
、
pyspark
、
apache-spark-sql
我有一个像这样
的
数据文件:+----+-----++----+-----+| 1| 30||如果值
列
是负
的
,我想忽略这一点,除非特定年份
的
所有值都是负值(年份= 2)。然后我只想显示avg(值)为-1。我正在做: df.filter(df.Value > 0).
groupBy
('Year').agg(avg('Value').alias('Ave
浏览 0
提问于2020-11-09
得票数 0
回答已采纳
1
回答
在
groupBy
(x).agg中进行过滤,以在
的
不同子集上创建
平均值
dataframe
、
pyspark
、
aggregate-functions
通常,当我必须进行聚合时,我使用类似于
PySpark
中
的
以下代码:现在,我实际上想要计算dataframe df
的
多个子集上
的
平均值
(例如,在不同
的
时间窗口上,
浏览 4
提问于2021-03-18
得票数 1
回答已采纳
1
回答
pyspark
:
groupby
和aggregate avg,以及多列上
的
first
pyspark
、
apache-spark-sql
我有一个示例
pyspark
dataframe,在
groupby
之后,我想要计算
平均值
,并且是多
列
中
的
第一
列
,在实际情况下,我有100
列
,所以我不能单独计算。0| as| asd|| c| 4| 4| sd| acc|
浏览 34
提问于2020-06-28
得票数 0
回答已采纳
3
回答
打印
列
中
的
所有类别
python
、
pyspark
、
pyspark-sql
我有一个很大
的
数据空间,其中有一个名为location
的
列
,只有少数几个城市,例如:["New York", "London", "Paris", "Berlin"...]。我希望在该
列
中打印所有不同
的
值,例如,我知道是否缺少一个城市
的
值。既然.describe('location')方法没有帮助,我怎么能这样做呢?
浏览 1
提问于2018-11-14
得票数 0
回答已采纳
1
回答
在Spark中进行聚合
的
最佳方式
apache-spark
、
pyspark
、
spark-dataframe
我在
pySpark
中运行它。有没有另一种方法可以根据特定
的
组计算
列
的
平均值
,这样运行起来会更好?df = df.
groupBy
("id", "timestamp").avg("accel_lat", "accel_long", "accel_vert")
浏览 7
提问于2016-08-24
得票数 0
2
回答
除1外,所有
列
的
星火群之和
python
、
apache-spark
、
pyspark
我有一个
具有
如下标题
的
数据集:from
pyspark
.sql import SparkSession import
pyspark
.sql.functi
浏览 3
提问于2022-04-19
得票数 0
1
回答
PySpark
中每个组
的
平均值
pyspark
、
apache-spark-sql
、
average
我有下面的
PySpark
数据帧: cust | amount | A | 5 | A | 3| C | 1 | C | 5 | 我需要按
列
'cust'分组,并计算每个组
的
平均值
。data.withColumn("avg_amount"
浏览 32
提问于2021-02-01
得票数 0
回答已采纳
1
回答
Pyspark
使用列表计算整个
列
的
平均值
python
、
apache-spark
、
pyspark
、
apache-spark-sql
我有一个
pyspark
dataframe,它有一个
列
,其中包含如下列表: | value | | ["1| 有没有一种方法可以用
pyspark
计算总体
的
平均值
?因此,我希望
具有
以下值: 26.6
浏览 90
提问于2020-12-19
得票数 1
回答已采纳
3
回答
PySpark
DataFrame上分组数据
的
熊猫式转换
python
、
pandas
、
apache-spark
、
pyspark
、
apache-spark-sql
如果我们有一个由一
列
类别和一
列
值组成
的
Pandas数据框架,我们可以通过执行以下操作来删除每个类别中
的
平均值
:据我所知,不直接提供这个按组/转换操作(我在Spark1.5.0上使用
PySpark
)。那么,实现这
浏览 8
提问于2015-12-25
得票数 19
回答已采纳
1
回答
如何使用
PySpark
使用组
的
聚合填充空值
python
、
apache-spark
、
pyspark
我有一个简单
的
数据集,其中包含一些空值:10,Mrnull,Mr2, Miss我想用一个不同
的
列
来填充这个分组
的
聚合值(在本例中是例如,标题栏
的
平均值
是:1.5, MissAge,Title20,Mr1, Miss1.5, Miss 我见过许多使用df["Age"] = df.
groupby
浏览 4
提问于2019-04-24
得票数 1
回答已采纳
2
回答
多个列表中每个元素
的
焦火花
平均值
list
、
pyspark
、
aggregate
、
embedding
我有一个有2
列
的
df:这是一个关于它
的
外观
的
示例:| vector| id8.44,3.62,5.54,6.4]|1046091128|+--------------------+----------+ 我想要
groupBy
,appid,取向量
的
每个元素
的
平均值</
浏览 1
提问于2022-03-04
得票数 1
2
回答
电火花码群函数中
的
一个错误
python
、
python-3.x
、
pandas
、
apache-spark
、
pyspark
chess_wc_history_game_info.csv", game_info.
groupBy
浏览 12
提问于2022-08-09
得票数 0
2
回答
寻找火花放电array<double>
的
均值
apache-spark
、
pyspark
、
apache-spark-sql
在火星雨中,我有一个可变长度
的
双数数组,我想找出它
的
平均值
。但是,平均函数需要一个数字类型。 from
pyspark
.sql.functions import col imp
浏览 0
提问于2019-04-03
得票数 12
回答已采纳
1
回答
如何在DataFrame中创建和使用新函数?
python
、
pandas
、
function
、
dataframe
、
aggregates
如何在我
的
DataFrame中创建新函数并使用这个新函数,以便在聚合时
添加
新
列
?从我
的
DataFrame中,我获得了“风向”和“温度”,对于这些
列
,我想将它聚合起来,并创建
具有
“风向”
平均值
和所有城市
的
值与
平均值
"aa“之间
的
差值以及”温度“
的
平均值
的
表。然而,在我使用函数"aa“
的
列
中,我得到了0。问题出在
浏览 6
提问于2019-10-21
得票数 1
2
回答
Pandas
列
python
、
pandas
我连接了几个Pandas数据帧,现在我有一个更大
的
数据帧。06 1 3 0在运行df_total = df_total.
groupby
(['Time'])['Packets'].mean()之后,连接后
的
文件如下所示1.0 0.0000003.0 3.8809524.0 6.797619 5.0
浏览 1
提问于2018-12-25
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python之数据聚合与分组运算
一文读懂PySpark数据框
一文读懂 PySpark 数据框
Python Pandas模块数据统计与分析常用方法
在Pandas中通过时间频率来汇总数据的三种常用方法
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券