如何通过scala访问udf中的dataframe列值_如何统计scala Dataframe中列的特定值的记录更改_如何访问DataFrame列中的元素 - 腾讯云开发者社区

scala、apache-spark

我知道使用.withColumn()向星火.withColumn()添加新列的方法，以及返回DataFrame的UDF。我还知道，我们可以将结果DataFrame转换为DataSet。我的问题是：如果我们仍然遵循传统的DF方法(即将列名作为UDF输入的字符串传递)，DataSet的类型安全性是如何发挥作用的？是否有一种“面向对象的方式”来<

浏览 1提问于2016-11-15得票数 11

回答已采纳

1回答

如何通过scala访问udf中的dataframe列值

dataframe、scala、apache-spark、apache-spark-sql

我正在尝试向dataframe添加一列，使用来自特定列的值--让我们假设它是一个id--从另一个df中查找它的实际值。String): String { .where(s”id = ‘$id’”).as[String].first } 如果我通过传递一个id字符串自己测试查找def，它会返回相应的值。但是我很难找到在

浏览 13提问于2021-11-20得票数 0

回答已采纳

1回答

在Pyspark中使用具有多个参数的Scala UDF

scala、apache-spark、pyspark、user-defined-functions

我有一个用Scala编写的UDF，我希望能够通过Pyspark会话调用它。UDF有两个参数，字符串列值和第二个字符串参数。如果UDF只需要一个参数(列值)，我就可以成功地调用它。以下是我到目前为止在Scala和Pyspark中所能做的事情：class SparkUDFTest() extends Serializable { def s

浏览 1提问于2018-02-12得票数 2

1回答

我对Scala和Spark非常陌生，我正在用棒球统计做一些自制的练习。我正在使用case类，创建一个RDD并为数据分配一个模式，然后将其转换为一个DataFrame，这样我就可以使用SparkSQL来通过满足特定条件的统计数据来选择玩家组。一旦我有了我感兴趣的球员的子集，我想找到一个列的平均值；例如打击平均数或打点。从那以后，我想根据所有球员的平均表现，把他们分成百分位组；前10%，最低10%，40-50%。但是，我

浏览 0提问于2015-07-22得票数 14

回答已采纳

1回答

加入数据和数据集时的Scala MatchError

dataframe、scala、apache-spark

Paris, Country -> France} |31 | 我试图通过检查列"City_Name“中的映射是否包含在列"Country_Details”的映射中来连接它们。dataset2.join(dataframe1 , mapEqual(dataset2("Country_Details"

浏览 3提问于2022-07-18得票数 0

1回答

Scala -当我们将GMM模型与数据拟合成两个单独的列时，如何将我们得到的概率列(向量列)分开？

scala、apache-spark、apache-spark-sql、apache-spark-mllib

prob1 & prob2，每个列都有对应的值，如probability列中所示。我发现了类似的问题--一个在PySpark中，另一个在Scala。我不知道如何翻译PySpark代码，而且我收到了Scala代码的错误。'c1'), split2_udf('probability').alias('c2')) 或将这些列附加到原始<e

浏览 3提问于2017-06-13得票数 5

回答已采纳

1回答

Apache注册一个UDF返回的数据

scala、apache-spark、user-defined-functions

我有一个返回数据的UDF。就像下面的那个res3: org.apache.spark.sql.DataFrame时我遇到了一个错误 java.lang.UnsupportedOperationException

浏览 3提问于2016-12-20得票数 3

回答已采纳

1回答

java，如何在spark 1.4.1中调用UDF

java、apache-spark、user-defined-functions、spark-dataframe

在spark 1.4.1中，callUdf方法的参数是没有任何方法可以直接作用于列，如1.5.1中的方法那么如何在1.4.1中调用UDF呢？或如何将列类型更改为 scala.collectio

浏览 1提问于2016-11-28得票数 0

回答已采纳

1回答

无法将函数应用于列

scala、apache-spark、dataframe、udf

我正在尝试将一个函数应用到我的dataframe列之一，以转换值。列中的值类似于"20160907“，我需要的值是"2016-09-07”。scala代码中，我使用的是： val oneDF = hiveContext.read.orc("/tmp/new_file.txt&qu

浏览 4提问于2017-05-18得票数 0

回答已采纳

2回答

使用NonPrimitive数据类型创建UDF函数并在Spark查询中使用: Scala

scala、apache-spark、hive、apache-spark-sql

我正在scala中创建一个函数，我想在我的星星之火中使用它-- sql query.my查询在单元格中运行良好，或者如果我在星火sql中提供相同的查询，但是在多个地方使用相同的查询，所以我希望将它作为可重用的函数我在scala类中创建了下面的函数。For 'substr'：未找到:值substr。另外，如果我正在创建任何简单的函数(同时以类型作为列)，我无法注

浏览 3提问于2020-05-07得票数 0

回答已采纳

2回答

将映射列转换为结构列

dataframe、scala、apache-spark、dictionary、struct

我有一个dataframe，其中一个列是map类型的。映射来自UDF和dataframe的现有列。我使用Scala2.10，地图的列有50多个字段。

浏览 6提问于2017-08-18得票数 1

回答已采纳

3回答

Scala在中断字符串后返回UDF中的多个列。

scala、apache-spark、spark-dataframe、user-defined-functions

我正在尝试打破一个字符串(技术上是从dataframe的列中传递的字符串)，并将这些破碎的字符串作为列表返回到dataframe。Scala版本2.11。我更喜欢使用udf的scala或pyspark解决方案--因为在udf内部发生了很多事情。(在udf中，因为那里发生了很多事情；Scala版本2.11)

浏览 4提问于2018-04-24得票数 1

回答已采纳

2回答

如何在不指定每一列的情况下将整行作为参数传递给Spark (Java)中的UDF？

java、apache-spark、apache-spark-sql

UDF所做的就是检查广播HashMap是否包含rowKey，如果包含，则返回一个新行，其中包含输入行中的一些现有值，以及来自广播HashMap的一些更新的值。如果没有，则按原样返回输入行。我这样做是因为我想根据HashMap中的值更新行列值。"),

浏览 10提问于2017-05-22得票数 3

1回答

将ArrayType列传递给Spark Scala中的UDF

scala、apache-spark、apache-spark-sql

我在Scala中的Spark dataframe中有一个列，它是使用以下命令聚合多列后生成的 agg(collect_list(struct(col(abc), col(aaa)).as(def)我希望将此列传递给UDF进行进一步处理，以便处理此聚合列中的一个索引。当我将参数传递给我的UDF时： .withColumn(def, remove

浏览 21提问于2021-10-19得票数 1

回答已采纳

1回答

迭代的列并更新指定的值

scala、apache-spark、hive、apache-spark-sql

为了迭代从Hive表创建的Spark列并更新所有所需的列值，我尝试了以下代码。import org.apache.spark.sql.functions._ val a:b = {for (column: String <- required_columns) { a.withColumn(colu

浏览 0提问于2018-05-06得票数 0

回答已采纳

2回答

Scala -如何将Dataset[Row]转换为可以添加到Dataframe的列

scala、apache-spark、dataframe、dataset

我试图将一个列的数据main添加到更大的dataframe中，但是，第一个dataframe的问题是，在创建它之后，尝试通过命令将其添加到主dataframe中： required: org.apache.spark.sql.Column** 我知道DatasetRow应该是Dataframe

浏览 0提问于2018-05-20得票数 3

回答已采纳

2回答

不使用UDF从dataframe访问scala映射

scala、apache-spark、apache-spark-sql、rdd、user-defined-functions

我有一个Spark (版本1.6) Dataframe，我想添加一个包含在Scala中的值的列，这是我的简化代码：valdf2 = df.withColumn("newVal", map(col("key"))) 此代码不工作，显然我收到以下错误，因为映射在接收列

浏览 2提问于2018-05-18得票数 2

回答已采纳

1回答

将元组列表作为参数传递给scala中的spark

scala、apache-spark、udf

我试图将元组列表传递给scala中的udf。我不知道如何准确地定义数据类型。我试着把它作为一整行传递，但它不能真正解决它。我需要根据元组的第一个元素对列表进行排序，然后将n个元素发回。我为udf尝试了以下定义 def udfFilterPath= udf((id: Long, id

浏览 3提问于2017-01-09得票数 6

回答已采纳

1回答

有一个星火内置的扁平嵌套数组吗？

scala、apache-spark、apache-spark-sql、user-defined-functions

我有一个DataFrame字段，它是一个Seq[Seq[String]]，我构建了一个UDF来将所述列转换为SeqString列；基本上，是用于Scala中的flatten函数的UDF。def combineSentences(inCol: String, outCol: String): DataFrame => DataFrame = { def flatfunc(seqOfSe

浏览 0提问于2019-01-19得票数 1

回答已采纳

1回答

火花数据计算柱

scala、apache-spark、apache-spark-sql

我正在学习星星之火(scala)，并且我正在创建一个带有派生列的dataframe。我正在努力找出最佳做法。我的用例有两个派生列，它们寻找另一个列的值-例如- if (col22 = "USD") then col1 = "US" elseif (col22 = "CDN" the col1 = "CA" else我想知道有什么更好的方法

浏览 3提问于2016-06-18得票数 2

回答已采纳

点击加载更多