如何在PySpark中获得布尔列的平均值？_如何在pyspark中筛选布尔列_如何在pyspark中获得模型的预测 - 腾讯云开发者社区

、

.agg(avg("boolean_column"))，但得到错误： "function average requires numeric types, not boolean" 怎样才能得到这样一个列的平均值

浏览 23提问于2019-06-19得票数 0

回答已采纳

1回答

如何为HIVE/PySpark表中的每一列获取唯一值？

、、

我有一张带有A、B和C列的HIVE/PySpark的桌子。我想为每一列获得唯一的值，如任何格式(数据、表格等) 如何在或PySpark中高效地执行这个(与每个列并行)？我现在的方法是分别为每一列做这件事，因此花费了很多时间。

浏览 0提问于2018-07-18得票数 0

回答已采纳

1回答

熊猫-使用groupby()时避免布尔结果

、、

我有这样的剧本：输出：我希望保持相同的groupy()，但是将"investment_in_millions“列的结果过滤为平均值> 10或其他值。sectors = df.groupby(['company_sector']).mean()['investm

浏览 0提问于2020-08-04得票数 0

回答已采纳

1回答

如何将电火花列(pyspark.sql.column.Column)转换为火花放电数据？

、、

我有一个用例来映射基于条件的pyspark列的元素。通过这个文档，我找不到一个函数来执行映射函数。因此，尝试使用pyspark映射函数，但无法将pyspark列转换为dataFrame

浏览 4提问于2021-11-19得票数 0

回答已采纳

3回答

从数据帧中获取价值

、、、

在Scala中，我可以使用get(#)或getAs[Type](#)从数据帧中获取值。在pyspark中我应该怎么做呢？我有一个两列的DataFrame：item(string)和salesNum(integers)。我做了一个groupby和mean来获得这些数字的平均值，如下所示：而且它是有效的。现在我

浏览 2提问于2016-06-28得票数 21

回答已采纳

3回答

打印列中的所有类别

、、

我有一个很大的数据空间，其中有一个名为location的列，只有少数几个城市，例如：["New York", "London", "Paris", "Berlin"...]。我希望在该列中打印所有不同的值，例如，我知道是否缺少一个城市的值。既然.describe('location')方法没有帮助，我怎么能这样做呢？

浏览 1提问于2018-11-14得票数 0

回答已采纳

1回答

如何在不重命名列的情况下计算单行数据框列的平均值、最大值、最小值

、、、

如何在不使用pyspark重命名列的情况下，从单行数据框列中计算同一列的平均值、最大值、最小值我使用了下面的命令，但它抛出了一个错误 df5=df5.agg(avg(col("Salaray")),

浏览 22提问于2021-10-29得票数 0

1回答

Pyspark标准定标器-均值计算时不包括空值

、、

我正在尝试对包含空值的列的数据帧使用sparkML库的standardScaler。我想保留NULL值，但是当我使用带有mean的标准缩放器时，具有NULL值的列的平均值也变成了null。有没有办法让标准的定标器跳过均值计算的空值(就像向量汇编程序中的handleInvalid选项)？下面是代码示例 from pyspark.sql import

浏览 37提问于2021-06-24得票数 2

回答已采纳

1回答

如何为包含True、False和Null值的布尔字段创建分层示例？

、、

我有一个带布尔字段的DataFrame。[False], [True], [None]我想要创建一个具有相同True、False和Null值的分层样本(PySpark)。如何在我的示例中获得空值(不接受None: 0.3) sampled = df.sampleBy("match", fractions={True:

浏览 1提问于2020-09-10得票数 1

回答已采纳

3回答

如何使用MapReduce计算数据集中每列的最小最大值和平均值？

、、

假设我有一个大的数据集，下面是它的缩写部分Healthy,4.5044,0.7443,6.34,1.9052Patient,5.7422,0.8862,5.1013,0.9402我知道最简单的方法是在pyspark中使用df.describe().show()，但是如何在pys

浏览 7提问于2022-01-15得票数 0

1回答

在spark数据帧中插入记录

、

我在pyspark有一个数据帧。这是它看起来的样子，|timestamp| price ||670098928| 50 ||670098934| 55 |我想用之前的状态来填补时间戳中的空白，这样我就可以得到一个完美的集合来计算时间加权平均值。，并可视化我的分析。我

浏览 4提问于2016-08-18得票数 2

1回答

如何在saveAsTable期间指定数据类型

、

这些列是否应该修改为double，如果是的话，在什么时候？在我的查询(如select cast(column as float)altering my表)中，在创建后更改列类型，或者完全忽略此错误消息

浏览 7提问于2021-07-06得票数 1

回答已采纳

1回答

pySpark -行的意思是不包括零

、、、

我有一个由> 1200列组成的星火数据框架，需要逐行取列集合的平均值，不包括零值。| 0 | 3我希望：1 | 2.5 3 | 2在Python中，我知道使用类似于means = np.nanmean(data[:, 1:], axis=1) 但我不知道如何在pySpark<

浏览 0提问于2018-10-17得票数 0

回答已采纳

4回答

如何通过布尔列过滤星火数据？

、、、

我创建了一个具有以下模式的dataframe：root |-- review_count: integer (nullable = true)我只想选择记录与“打开”列是我在PySpark中运行的以下命令没有返回任何内容： yelp_df.filter(yelp_df[&q

浏览 5提问于2016-04-22得票数 12

回答已采纳

1回答

PySpark MLLib:将数字转换为范畴

、、、

我从一个数据回购中获得了一个数据文件，它有一些基于日期的特性，例如The types of all these are IntegerType() 问题

浏览 1提问于2020-04-02得票数 0

2回答

如何在pyspark中筛选布尔列

我有一个包含布尔列的sql表。我提取新数据集的代码： def create_dataset(my_table): my_table.select( ) return output 我添加了一个过滤器来获取我有column_4 is true的地方的行last_name&#

浏览 23提问于2019-09-20得票数 0

回答已采纳

1回答

如果所有值都为负值，则返回常量，但如果只有一些值为负值，则返回PySpark组。

、、、、

我有一个像这样的数据文件：+----+-----++----+-----+| 1| 30||如果值列是负的，我想忽略这一点，除非特定年份的所有值都是负值(年份= 2)。然后我只想显示avg(值)为-1。-----------------+| 3| 15.0|我想要的

浏览 0提问于2020-11-09得票数 0

回答已采纳

1回答

如何在when in Spark中使用AND或or条件

、、

我想在像这样的情况下评估两个条件： 'trueVal', F.when(df.value< 1 OR df.value2 == 'false' , 0 ).otherwise(df.value)) df = df.withColumn(

浏览 1提问于2016-11-19得票数 30

回答已采纳

2回答

在PySpark* GroupedData上迭代*

、、

£11 £16Comp3 C £12 £15我希望根据列值(例如区域)获得子数据的列表，例如：Comp1 A £10 £15Comp3 A £11 £16 在Python中</e

浏览 2提问于2018-07-23得票数 11

回答已采纳

1回答

如何计算分组Spark数据帧中的布尔值

、、、、

我想从分组的Spark数据帧中计算一列中有多少条记录是真的，但我不知道如何在python中做到这一点。例如，我有一个包含region、salary和IsUnemployed列的数据，其中IsUnemployed是一个布尔值。我想看看每个地区有多少失业人员。我知道我们可以先做一个filter，然后再做groupby，但是我想同时生成两个聚合，如下所示data.groupb

浏览 0提问于2016-02-19得票数 17

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云