腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如
何在
PySpark
中
获得
布尔
列
的
平均值
?
、
.agg(avg("boolean_column")),但得到错误: "function average requires numeric types, not boolean" 怎样才能得到这样一个
列
的
平均值
浏览 23
提问于2019-06-19
得票数 0
回答已采纳
1
回答
如何为HIVE/
PySpark
表
中
的
每一
列
获取唯一值?
、
、
我有一张带有A、B和C
列
的
HIVE/
PySpark
的
桌子。我想为每一
列
获得
唯一
的
值,
如
任何格式(数据、表格等) 如
何在
或
PySpark
中高效地执行这个(与每个
列
并行)?我现在
的
方法是分别为每一
列
做这件事,因此花费了很多时间。
浏览 0
提问于2018-07-18
得票数 0
回答已采纳
1
回答
熊猫-使用groupby()时避免
布尔
结果
、
、
我有这样
的
剧本:输出:我希望保持相同
的
groupy(),但是将"investment_in_millions“
列
的
结果过滤为
平均值
> 10或其他值。sectors = df.groupby(['company_sector']).mean()['investm
浏览 0
提问于2020-08-04
得票数 0
回答已采纳
1
回答
如何将电火花
列
(
pyspark
.sql.column.Column)转换为火花放电数据?
、
、
我有一个用例来映射基于条件
的
pyspark
列
的
元素。通过这个文档,我找不到一个函数来执行映射函数。因此,尝试使用
pyspark
映射函数,但无法将
pyspark
列
转换为dataFrame
浏览 4
提问于2021-11-19
得票数 0
回答已采纳
3
回答
从数据帧
中
获取价值
、
、
、
在Scala
中
,我可以使用get(#)或getAs[Type](#)从数据帧
中
获取值。在
pyspark
中
我应该怎么做呢?我有一个两
列
的
DataFrame:item(string)和salesNum(integers)。我做了一个groupby和mean来
获得
这些数字
的
平均值
,如下所示:而且它是有效
的
。现在我
浏览 2
提问于2016-06-28
得票数 21
回答已采纳
3
回答
打印
列
中
的
所有类别
、
、
我有一个很大
的
数据空间,其中有一个名为location
的
列
,只有少数几个城市,例如:["New York", "London", "Paris", "Berlin"...]。我希望在该
列
中
打印所有不同
的
值,例如,我知道是否缺少一个城市
的
值。既然.describe('location')方法没有帮助,我怎么能这样做呢?
浏览 1
提问于2018-11-14
得票数 0
回答已采纳
1
回答
如
何在
不重命名列
的
情况下计算单行数据框
列
的
平均值
、最大值、最小值
、
、
、
如
何在
不使用
pyspark
重命名列
的
情况下,从单行数据框
列
中计算同一
列
的
平均值
、最大值、最小值 我使用了下面的命令,但它抛出了一个错误 df5=df5.agg(avg(col("Salaray")),
浏览 22
提问于2021-10-29
得票数 0
1
回答
Pyspark
标准定标器-均值计算时不包括空值
、
、
我正在尝试对包含空值
的
列
的
数据帧使用sparkML库
的
standardScaler。我想保留NULL值,但是当我使用带有mean
的
标准缩放器时,具有NULL值
的
列
的
平均值
也变成了null。有没有办法让标准
的
定标器跳过均值计算
的
空值(就像向量汇编程序
中
的
handleInvalid选项)?下面是代码示例 from
pyspark
.sql import
浏览 37
提问于2021-06-24
得票数 2
回答已采纳
1
回答
如何为包含True、False和Null值
的
布尔
字段创建分层示例?
、
、
我有一个带
布尔
字段
的
DataFrame。[False], [True], [None]我想要创建一个具有相同True、False和Null值
的
分层样本(
PySpark
)。如
何在
我
的
示例
中
获得
空值(不接受None: 0.3) sampled = df.sampleBy("match", fractions={True:
浏览 1
提问于2020-09-10
得票数 1
回答已采纳
3
回答
如何使用MapReduce计算数据集中每
列
的
最小最大值和
平均值
?
、
、
假设我有一个大
的
数据集,下面是它
的
缩写部分Healthy,4.5044,0.7443,6.34,1.9052Patient,5.7422,0.8862,5.1013,0.9402我知道最简单
的
方法是在
pyspark
中使用df.describe().show(),但是如
何在
pys
浏览 7
提问于2022-01-15
得票数 0
1
回答
在spark数据帧
中
插入记录
、
我在
pyspark
有一个数据帧。这是它看起来
的
样子,|timestamp| price ||670098928| 50 ||670098934| 55 |我想用之前
的
状态来填补时间戳
中
的
空白,这样我就可以得到一个完美的集合来计算时间加权
平均值
。,并可视化我
的
分析。我
浏览 4
提问于2016-08-18
得票数 2
1
回答
如
何在
saveAsTable期间指定数据类型
、
这些
列
是否应该修改为double,如果是的话,在什么时候?在我
的
查询(
如
select cast(column as float)altering my表)
中
,在创建后更改
列
类型,或者完全忽略此错误消息
浏览 7
提问于2021-07-06
得票数 1
回答已采纳
1
回答
pySpark
-行
的
意思是不包括零
、
、
、
我有一个由> 1200
列
组成
的
星火数据框架,需要逐行取
列
集合
的
平均值
,不包括零值。| 0 | 3我希望:1 | 2.5 3 | 2在Python
中
,我知道使用类似于means = np.nanmean(data[:, 1:], axis=1) 但我不知道如
何在
pySpark<
浏览 0
提问于2018-10-17
得票数 0
回答已采纳
4
回答
如何通过
布尔
列
过滤星火数据?
、
、
、
我创建了一个具有以下模式
的
dataframe:root |-- review_count: integer (nullable = true)我只想选择记录与“打开”
列
是我在
PySpark
中
运行
的
以下命令没有返回任何内容: yelp_df.filter(yelp_df[&q
浏览 5
提问于2016-04-22
得票数 12
回答已采纳
1
回答
PySpark
MLLib:将数字转换为范畴
、
、
、
我从一个数据回购
中
获得
了一个数据文件,它有一些基于日期
的
特性,例如The types of all these are IntegerType() 问题
浏览 1
提问于2020-04-02
得票数 0
2
回答
如
何在
pyspark
中
筛选
布尔
列
我有一个包含
布尔
列
的
sql表。我提取新数据集
的
代码: def create_dataset(my_table): my_table.select( ) return output 我添加了一个过滤器来获取我有column_4 is true
的
地方
的
行last_name
浏览 23
提问于2019-09-20
得票数 0
回答已采纳
1
回答
如果所有值都为负值,则返回常量,但如果只有一些值为负值,则返回
PySpark
组。
、
、
、
、
我有一个像这样
的
数据文件:+----+-----++----+-----+| 1| 30||如果值
列
是负
的
,我想忽略这一点,除非特定年份
的
所有值都是负值(年份= 2)。然后我只想显示avg(值)为-1。-----------------+| 3| 15.0|我想要
的
浏览 0
提问于2020-11-09
得票数 0
回答已采纳
1
回答
如
何在
when in Spark中使用AND或or条件
、
、
我想在像这样
的
情况下评估两个条件: 'trueVal', F.when(df.value< 1 OR df.value2 == 'false' , 0 ).otherwise(df.value)) df = df.withColumn(
浏览 1
提问于2016-11-19
得票数 30
回答已采纳
2
回答
在
PySpark
GroupedData上迭代
、
、
£11 £16Comp3 C £12 £15我希望根据
列
值(例如区域)
获得
子数据
的
列表,例如:Comp1 A £10 £15Comp3 A £11 £16 在Python
中</e
浏览 2
提问于2018-07-23
得票数 11
回答已采纳
1
回答
如何计算分组Spark数据帧
中
的
布尔
值
、
、
、
、
我想从分组
的
Spark数据帧中计算一
列
中有多少条记录是真的,但我不知道如
何在
python
中
做到这一点。例如,我有一个包含region、salary和IsUnemployed
列
的
数据,其中IsUnemployed是一个
布尔
值。我想看看每个地区有多少失业人员。我知道我们可以先做一个filter,然后再做groupby,但是我想同时生成两个聚合,如下所示data.groupb
浏览 0
提问于2016-02-19
得票数 17
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
一文读懂PySpark数据框
70个NumPy分级练习:用Python一举搞定机器学习矩阵运算
一文读懂 PySpark 数据框
70个NumPy练习:在Python下一举搞定机器学习矩阵运算
Python做数据处理:6个使效率倍增的 Pandas 技巧
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券