pyspark:在python中`val`是变量的情况下，如何在计算中使用多个` `lit(val)`？

pyspark

D = # came from numpy.int64 via pandas output_df.withColumn("c", F.col("A") - F.log(F.lit(D) - F.lit(E))) 我尝试在列操作的pyspark中使用多个lit<

浏览 14提问于2020-07-06得票数 1

3回答

将SCALA === (三等号)转换为用于火花列的Python

python、scala、apache-spark、pyspark

我在Scala中有一段用于Python转换的代码import org.apache.spark.sql.._ val searchTermsNoEndDatecountryCodes: String): String = { countr

浏览 3提问于2022-03-18得票数 0

1回答

如何在Scala中以分数图的形式获取不同的值？

python、scala、apache-spark

我想在Scala中对我的数据帧进行分层采样。我的dataframe只有一列，我想为它形成一个分数映射。我可以在pyspark中实现，但在Scala中会出错。以下是我在Scala中尝试的内容：val<

浏览 87提问于2018-06-07得票数 0

3回答

计算数据帧Spark中缺少的值的数量

apache-spark、dataframe、apache-spark-sql

我有一个缺失值的dataset，我想要得到每一列缺失值的数量。下面是我所做的，我得到了非缺失值的数量。如何使用它来获取缺失值的数量？-------+---+---+---++-------+---+---+---+ 如有任何帮助，请获取一个dataframe，我们将在其中查找列和每个列的缺失值的数量

浏览 3提问于2017-06-07得票数 9

回答已采纳

2回答

如何将参数传递给自定义函数？

python、apache-spark、pyspark

我有一个用户定义的函数： result = df.withColumn('col1', calc(col

浏览 1提问于2017-11-13得票数 8

回答已采纳

17回答

在Apache Spark DataFrame中连接列

sql、apache-spark、dataframe、apache-spark-sql

如何在Apache Spark DataFrame中连接两列？Spark SQL中有没有我们可以使用的函数？

浏览 7提问于2015-07-16得票数 159

1回答

在pyspark中创建列的数组

python、apache-spark、pyspark、apache-spark-sql

我有一个单行多列的数据帧。我希望它能将其转换为多行。我在stackoverflow上发现了一个类似的问题。import org.apache.spark.sql.Column var ColumnsAndValues: Array[Column] = df.col

浏览 18提问于2021-03-11得票数 0

回答已采纳

9回答

转置柱与星火

python、apache-spark、pivot、transpose

我正试着把我桌子上的一些列转成一行。我正在使用Python和Spark1.5.0。这是我的第一张桌子：| A |col_1|col_2|col_...|| 1|+-----+--------+-----------++-----+--------+----------谢谢你

浏览 12提问于2016-06-16得票数 43

回答已采纳

1回答

如何在星火scala中通过数据动态调用withColumn函数

scala、apache-spark、spark-dataframe

这在火花-scala中是可能的吗？我用的是火花2.2 .withColumn("id", lit("this isid")) .withColumn("type", lit<

浏览 0提问于2018-04-30得票数 0

回答已采纳

2回答

如何根据数据中的条件设置新的列表值？

apache-spark、pyspark、apache-spark-sql、spark-dataframe、pyspark-sql

我有一个像下面这样的DataFrame。|[3.594114, 1.3512149, 1.6967168] |我想根据我的where我想在其中设置新的特性值id=1，我当前的功能值是[6.629056, 0.26771536, 0.79063195,0.8923]，但是我想设置[0,0,0,0]。我想在其中设置新的特性值id=2，我当前的功能值是

浏览 6提问于2017-12-18得票数 0

回答已采纳

1回答

SparkSQL:使用两列的条件求和

sql、apache-spark、aggregate-functions、apache-spark-sql、pyspark

我有一个如下的DF： (1, "a", "2014-12-01", "2015-01-01", 100), 我喜欢做一个groupBy prodId，并聚合“value”，将其相加，得到由列“dateIns”和“dateTrans”之间的差异定义<

浏览 0提问于2015-11-23得票数 3

回答已采纳

3回答

如何处理spark sql中缺少的列

scala、apache-spark、apache-spark-sql

我们正在处理无模式的JSON数据，有时spark作业会失败，因为我们在spark SQL中引用的一些列在一天中的某些时间内不可用。在这些小时内，spark作业失败，因为所引用的列在数据帧中不可用。我尝试过UDF，但是我们缺少太多的列，所以不能真正地检查每一列的可用性。我还尝试在更大的数据集上推断模式，并将其应用于数据帧，期望缺少的列将用null填

浏览 5提问于2018-08-10得票数 2

1回答

Spark: UDF未读取已定义的值

scala、apache-spark

它根据特定列中的值应用类别。该函数使用了前面在代码中定义的值。代码如下所示： val sc = new SparkContext()} 这会在尝试读取函数内部的

浏览 0提问于2015-06-08得票数 0

1回答

在Pyspark中使用具有多个参数的Scala UDF

scala、apache-spark、pyspark、user-defined-functions

如果需要多个参数，我很难调用UDF。以下是我到目前为止在Scala和Pyspark中所能做的事情：class SparkUDFTest() extends Serializable {Scala主类：val stringLength = spark.sqlContext.udf.r

浏览 1提问于2018-02-12得票数 2

2回答

无法为dataframe添加数据写入中的“引号”

apache-spark、spark-dataframe

目前，该文件不包含在“引号”中。我正在使用Spark2.1.0DataOutputResult.write.format("com.databricks.spark.csv").输出格式(必需) : "XXX","1",&

浏览 4提问于2017-04-14得票数 1

回答已采纳

2回答

pyspark中的ARRAY_CONTAINS多重值

python、sql、hive、pyspark

我正在使用pyspark.sql.dataframe.DataFrame。我想根据多个变量来过滤stack的行，而不是一个单独的变量，我正在使用一个Python2Jupyter笔记本。765 | . . . |[4, 5, 8]| filtered_stack = stack.filter("array_contains(list, {val})"

浏览 0提问于2017-01-09得票数 8

7回答

基于日期的火花数据过滤

apache-spark、apache-spark-sql

我在没有运气的情况下尝试了下面的方法据我所知，查询是不正确的。有人能告诉我应该以什么方式格式化查询吗？我检查过数据仓库中的所有企业都有价值--它们有价值。

浏览 12提问于2015-08-13得票数 54

回答已采纳

1回答

如何使用pySpark将items行中的数组列单元格转换为计数？

arrays、pyspark、dataset、transformation

我有一个在一列中有多个值的数据集，并且我想计算每个值在数据集的所有行中出现的次数。initial dataset (example)+ answers ++ val1#val2#val3 ++ val2 ++-----------

浏览 15提问于2019-10-06得票数 0

回答已采纳

5回答

星火数据-在加入时实现Oracle NVL功能

scala、apache-spark、apache-spark-sql

我需要实现NVL功能的火花，同时加入两个数据文件。所以我已经这样写了，但是NVL或Coalesce函数缺少.so，它返回了错误的值。如何将"NVL“纳入火花数据格式？

浏览 5提问于2017-09-20得票数 5

回答已采纳

2回答

Spark DataFrame:计算行平均值(或任何聚合操作)

python、apache-spark、apache-spark-sql、pyspark

(在numpy中，这称为在axis=1上执行操作)。如果要计算行中DataFrame的平均值(axis=0)，那么这已经是内置的了：F.mean(...)但是，有没有一种方法可以通过编程方式对列中的条目执行此操作？+--+---+---+| 1| 0|100| 0| | 1| 0|

浏览 0提问于2015-09-20得票数 8

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

将SCALA === (三等号)转换为用于火花列的Python

如何在Scala中以分数图的形式获取不同的值？

计算数据帧Spark中缺少的值的数量

如何将参数传递给自定义函数？

在Apache Spark DataFrame中连接列

在pyspark中创建列的数组

转置柱与星火

如何在星火scala中通过数据动态调用withColumn函数

如何根据数据中的条件设置新的列表值？

SparkSQL:使用两列的条件求和

如何处理spark sql中缺少的列

Spark: UDF未读取已定义的值

在Pyspark中使用具有多个参数的Scala UDF

无法为dataframe添加数据写入中的“引号”

pyspark中的ARRAY_CONTAINS多重值

基于日期的火花数据过滤

如何使用pySpark将items行中的数组列单元格转换为计数？

星火数据-在加入时实现Oracle NVL功能

Spark DataFrame:计算行平均值(或任何聚合操作)

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐