Spark UDF返回字段长度而不是值长度

Spark UDF（User-Defined Function）是一种自定义函数，用于在Spark中进行数据处理和转换。它允许用户根据自己的需求定义函数，并将其应用于Spark DataFrame或Spark SQL中的列。

在Spark中，UDF可以返回字段的长度而不是值的长度。字段长度是指字段中存储的字符数，而值长度是指字段中实际值的字符数。

优势：

灵活性：通过自定义函数，可以根据具体需求对数据进行高度定制化的处理和转换。
扩展性：UDF可以轻松地添加到现有的Spark应用程序中，以满足新的数据处理需求。
性能优化：通过使用UDF，可以在Spark中执行自定义的高性能数据处理操作，提高处理速度和效率。

应用场景：

数据清洗：可以使用UDF来清洗和规范化数据，例如去除空格、转换大小写等。
数据转换：可以使用UDF将数据从一种格式转换为另一种格式，例如日期格式转换、数值格式转换等。
特征提取：可以使用UDF从原始数据中提取特定的特征，用于机器学习和数据分析。

推荐的腾讯云相关产品：

腾讯云提供了一系列与大数据处理相关的产品和服务，以下是其中几个推荐的产品：

腾讯云数据仓库（TencentDB for TDSQL）：提供高性能、可扩展的云原生数据仓库服务，适用于大规模数据存储和分析。链接地址：https://cloud.tencent.com/product/tdsql
腾讯云数据计算服务（TencentDB for TDSQL）：提供强大的数据计算能力，支持Spark、Hadoop等开源框架，用于大规模数据处理和分析。链接地址：https://cloud.tencent.com/product/emr
腾讯云数据传输服务（Tencent Data Transmission Service）：提供高效、安全的数据传输服务，支持数据在不同云端之间的迁移和同步。链接地址：https://cloud.tencent.com/product/dts

请注意，以上推荐的产品仅作为参考，具体选择应根据实际需求和情况进行评估和决策。

在星火Dataset<Row>中使用custome UDF withColumn；不能将java.lang.String转换为org.apache.spark.sql.Row

、、、、

我有一个包含许多字段的JSON文件。我在java中使用spark的Dataset读取该文件。火花版本2.2.0 java 1.8.0_121 下面是密码。 SparkSession spark = SparkSession .builder() .appName("Java Spark SQL basic example") .config("spark.some.config.option", "some-value")

浏览 2提问于2017-08-25得票数 4

回答已采纳

1回答

使用Spark和Java对不同的Mongo集合进行读写

、、

对于Spark来说，我还是个新手。我需要使用Spark读取Java中的Mongo集合，更改一些字段值，假设我将"123“附加到一个字段值并写入另一个集合。因此，我在Spark中配置了两个单独的Mongo URI作为输入和输出URI。然后，我继续从输入集合中读取。然而，我不理解的是，我如何将文档的RDD作为另一个集合的输出。这是输入代码： String inputUri = "mongodb://" + kp.getProperty("source.mongo.userid") + ":" + Encrypt

浏览 13提问于2019-11-28得票数 1

回答已采纳

1回答

pandas_udf错误RuntimeError:来自pandas_udf的结果向量不是所需的长度:预期长度为12，实际长度为35

、、

我在下面的代码中遇到了pandas_udf错误。代码是创建一个基于另一列的数据类型的列。相同的代码适用于正常的较慢的udf (注释掉)。基本上，任何比"string"+data更复杂的东西都会返回一个错误。 # from pyspark.sql.functions import udf import pyspark.sql.types from pyspark.sql.functions import pandas_udf, PandasUDFType @pandas_udf(returnType=pyspark.sql.types.StringType(), functi

浏览 109提问于2019-11-28得票数 3

回答已采纳

2回答

星火scala数据帧udf返回行

、、

假设我有一个dataframe，它包含一个列(称为colA)，它是一个行的seq。我想在colA的每个记录中添加一个新字段。(新文件与前一条记录相关联，因此我必须编写一个udf。)我该如何编写这个udf呢？我试图编写一个以colA作为输入的udf，并在每个记录都包含新的字段的情况下输出SeqRow。但问题是udf不能返回SeqRow/例外是‘模式类型org.apache.spark.sql.Row不支持’。我该怎么办？不支持我编写的udf：val convert = udf[Seq[Row], Seq[Row]](blablabla...)，java.lang.UnsupportedOpe

浏览 0提问于2018-04-08得票数 10

回答已采纳

1回答

把熊猫变成火花公子

因此，我正在尝试将python算法转换为Spark友好代码，并且遇到了以下问题： indexer = recordlinkage.SortedNeighbourhoodIndex \ (left_on=column1, right_on=column2, window=41) pairs = indexer.index(df_1,df_2) 它基本上比较一列和另一列，并为可能相同的列生成索引对(记录匹配)。我的代码： df1 = spark.read.load(*.csv) df2 = spark.read.load(*.csv) func_udf =

浏览 0提问于2018-07-25得票数 0

回答已采纳

2回答

Scala和Spark UDF函数

、、、

我创建了一个简单的UDF来转换或提取spark中temptabl中的时间字段的一些值。我注册了该函数，但是当我使用sql调用该函数时，它抛出了一个NullPointerException。下面是我的函数和执行它的过程。我在用齐柏林飞艇。奇怪的是，昨天它还在工作，但今天早上它停止了工作。函数 def convert( time:String ) : String = { val sdf = new java.text.SimpleDateFormat("HH:mm") val time1 = sdf.parse(time) return sdf.format(tim

浏览 14提问于2016-07-28得票数 11

回答已采纳

1回答

函数在中工作时，PySpark udf返回空。

、、、

我正在尝试创建一个用户定义的函数，它接受数组的累加和，并将值与另一列进行比较。下面是一个可重复的例子： from pyspark.sql.session import SparkSession # instantiate Spark spark = SparkSession.builder.getOrCreate() # make some test data columns = ['loc', 'id', 'date', 'x', 'y'] vals = [ ('a', 'b&

浏览 5提问于2019-10-18得票数 3

回答已采纳

1回答

PySpark:带有标量Pandas的无效returnType

、、

我正在尝试从pandas_udf返回一个特定的结构。它在一个集群上工作，但在另一个集群上失败。我尝试在组上运行udf，这需要返回类型为数据框架。 from pyspark.sql.functions import pandas_udf import pandas as pd import numpy as np from pyspark.sql.types import * schema = StructType([ StructField("Distance", FloatType()), StructField("CarId", IntegerTy

浏览 2提问于2018-03-26得票数 5

回答已采纳

1回答

火花DenseVector作为StringType的输出

、、

当转换为DenseVector时，StringType输出中的额外值是多少？以下内容应可重复使用。 spark = pyspark.sql.SparkSession.builder.getOrCreate() spark.version # u'2.2.0.cloudera1' from pyspark.ml.linalg import DenseVector import pyspark.sql.functions as F import pyspark.sql.types as T testdf = spark.createDataFrame([\

浏览 0提问于2018-01-23得票数 3

回答已采纳

2回答

使用udf在spark dataframe中添加引用另一个dataframe的列

、、

我有一个包含列的数据帧"Forecast“- Store, Item, FC_startdate, FC_enddate, FC_qty 另一个包含columns - Store, Item, Saledate, Sales_qty的数据帧"Actual“。我想创建一个带有参数的UDF - p_store, p_item, p_startdate, p_enddate，并在这些日期之间获得Sales_qty的总和，并将其作为新列(Act_qty)添加到"Forecast“dataframe中。但是spark不允许在UDF中与Forecast字段一起传递数据帧。而不

浏览 1提问于2020-01-02得票数 1

1回答

为什么这个List[String]到数据仓库NullPointerException在斯派克斯卡拉？

、

下面的代码将导致NullPointerException。我不确定，这个异常是发生在某些行上，还是总是因为dataframe很大而无法指向行。 def removeUnwantedLetters(str: String): String = { str.split("\\W+").filter(word => (word.matches("[a-z]+") && (word.length > 1))).mkString(" ") } val myudf = spark.udf.register("le

浏览 0提问于2018-11-30得票数 0

回答已采纳

1回答

使用udf函数删除DataFrame字段中的新行会导致TypeTag错误。

、、、

val trim: String => String = _.trim.replace("[\\r\\n]", "") def main(args: Array[String]) { val spark = ... ... import spark.implicits._ val trimUDF = udf[String,String](trim) val df = spark.read.json(df_path) ... val fixed_dblogs_df = df.wi

浏览 2提问于2017-05-11得票数 0

回答已采纳

2回答

什么是非类型化Scala和类型化Scala？他们有什么不同？

、、

我使用Spark2.4已经有一段时间了，最近几天我刚刚开始使用Spark3.0。在切换到Spark3.0运行udf((x: Int) => x, IntegerType)后，我得到了这个错误 Caused by: org.apache.spark.sql.AnalysisException: You're using untyped Scala UDF, which does not have the input type information. Spark may blindly pass null to the Scala closure with primitive-ty

浏览 9提问于2020-12-03得票数 6

回答已采纳

1回答

python中的UDF和python函数

、、

我有一份数据文件，在Pyspark as中： listA = [(1,'AAA','USA'),(2,'XXX','CHN'),(3,'KKK','USA'),(4,'PPP','USA'),(5,'EEE','USA'),(5,'HHH','THA')] df = spark.createDataFrame(listA, ['id', 'name','countr

浏览 0提问于2018-12-05得票数 2

回答已采纳

2回答

获取Spark dataframe中列的数组中项的索引

、

通过执行以下操作，我可以根据数组字段中是否存在特定值来过滤Spark dataframe (在PySpark中)： from pyspark.sql.functions import array_contains spark_df.filter(array_contains(spark_df.array_column_name, "value that I want")).show() 有没有一种方法可以获得数组中找到项的位置的索引？它看起来应该存在，但我没有找到它。谢谢。

浏览 1提问于2018-12-13得票数 5

回答已采纳

2回答

使用pandas_udf时“索引处的值为空”错误

、

对于吡火花中的DataFrame，如果使用F.lit(1) (或任何其他值)初始化列，则将其赋值给pandas_udf内部的一些值(在本例中使用shift()，但可能发生在任何其他函数)，这将导致“值在索引上为空”错误。有人能提供一些提示，为什么会发生这种情况？是火星雨里的虫子吗？请参阅下面的代码和错误。 spark = SparkSession.builder.appName('test').getOrCreate() df = spark.createDataFrame([Row(id=1, name='a', c=3), Row(id=2, name=

浏览 0提问于2019-07-22得票数 4

回答已采纳

2回答

Spark 2.1 -支持callUDF中的字符串参数

、、

我有一个UDF，它既接受字符串参数，也接受字段，但似乎"callUDF“只能接受字段。我找到了一个使用selectExpr的解决方案(.)或者使用spark.sql(.)，但是我想知道是否有更好的方法来做到这一点。下面是一个示例: Schema - id、mapString、String spark.sqlContext.udf.register("get_from_map", (map: Map[String, String], att: String) => map.getOrElse(att, "")) val data = spark.

浏览 0提问于2018-04-18得票数 0

回答已采纳

3回答

如何在spark scala中将二进制字符串转换为scala字符串

、、、

我正在读取一个avro文件，其中包含一个作为二进制字符串的字段，我需要将其转换为java.lang.string以将其传递到另一个库(spark-xml-util)，如何有效地将其转换为avro。这是我到目前为止得到的代码： val df = sqlContext.read.format("com.databricks.spark.avro").load("filePath/fileName.avro") df.select("myField").collect().mkString 最后一行给出了以下例外：- Exception

浏览 0提问于2017-08-03得票数 1

回答已采纳

1回答

如何使用Apache生成固定长度的二进制表示？

、

使用下面的代码，我试图将字符串转换为二进制表示： import org.apache.spark.ml.feature.{HashingTF, IDF, Tokenizer} val sentenceData = spark.createDataFrame(Seq( (0.0, "Hi I heard about Spark"), (0.0, "I wish Java could use case classes"), (1.0, "Logistic regression models are neat") )).toDF("

浏览 2提问于2017-04-29得票数 0

回答已采纳

1回答

PySpark - Spark数组与DataFrame列表是否不同？

、、、、

如果我有一个包含arrays的Spark，我可以通过DataFrame在这些数组上使用Python List方法吗？如何将Spark DataFrame array<double>转换为Python列表？下面是一个示例，其中包含一些UDF。我不确定为什么使用最大值可以，但是使用len就不行了。最后，我想用原始数组列中的采样值创建一个新列。这也会得到一个关于期望两个参数的错误，如果你能帮助的话也会得到加分！我有以下Spark DataFrame from pyspark.sql.functions import udf from pyspark.sql import Row fr

浏览 1提问于2016-10-28得票数 4

回答已采纳

1回答

将python spark数据存储到列表中并作为参数传递

、、

我有一个python spark文件： from pyspark.sql import Row from pyspark.sql import SparkSession from pyspark.sql import SQLContext import pyspark.sql.functions as psf import json spark = SparkSession \ .builder \ .appName("Hello") \ .config("World") \ .getOrCreate() sc = spark

浏览 0提问于2017-10-17得票数 0

2回答

spark中的UDF用法

、、

我有一个自定义的udf，并在spark.If中注册，我试图访问那个UDF，它抛出error.Unable来访问。我试过这样做。 spark.udf.register("rssi_weightage", FilterMap.rssi_weightage) val filterop = input_data.groupBy($"tagShortID", $"Timestamp", $"ListenerShortID", $"rootOrgID", $"subOrgID").agg(first(rs

浏览 0提问于2017-08-10得票数 0

1回答

使用Spark SQL collect_set避免列表中的列表

、

我正在尝试找到一个有效的解决方案来解决Spark SQL中的一个恼人的行为。我正在对大量文件进行预处理，以便加载到Druid中，这涉及到以下操作： val dfIn = spark.read.json(inPath) val df = dfIn.select("A","B","C","D").filter($"B" === 1 || $"B" === 2) val dfFinal = dfx.groupBy("B","C","D").agg(coll

浏览 1提问于2017-07-01得票数 0

1回答

每关键字数量的groupBy数据集有限制

、

基于某些关键字聚合数据集，但通过固定数量限制聚合列表。附加了用于创建数据集的代码。需要帮助来实现类似grouped()与list的工作方式的机制。 case class AggrBook( city: String, state:String, books:List[Int] ) case class Bookings(bookingId: Int, userId:String, city

浏览 4提问于2021-10-18得票数 1

1回答

pandas_udf给出了与pyarrow相关的错误

、、、、

我有一个数据帧，我想要在其中使用pysaprk中的polyline库获取给定地理位置的lat_long +-----------------+--------------------+----------+ | vid| geolocations| trip_date| +-----------------+--------------------+----------+ |58AC21B17LU006754|eurnE||yqU???????...|2020-02-22| |2T3EWRFV0

浏览 30提问于2020-08-31得票数 0

回答已采纳

2回答

如何使用Scala在星火数据格式中将array<FloatType>转换为BinaryType

、、

在星星之火数据框架中，我的一个列包含一个浮点值数组，如何将该列转换为BinaryType。以下是一些示例数据及其外观： val df = spark.sparkContext.parallelize(Seq(("one", Array[Float](1, 2, 3, 4, 5)), ("two", Array[Float](6, 7, 8, 9, 10)))).toDF("Name", "Values") df.show() df:org.apache.spark.sql.DataFrame Name:string Values

浏览 0提问于2019-09-09得票数 2

回答已采纳

1回答

定义一个接受Spark DataFrame中的对象数组的UDF？

、、、、

在使用Spark的DataFrames时，需要用户定义函数(UDF)来映射列中的数据。UDF要求显式指定参数类型。在我的例子中，我需要操作一个由对象数组组成的列，但我不知道要使用哪种类型。下面是一个例子： import sqlContext.implicits._ // Start with some data. Each row (here, there's only one row) // is a topic and a bunch of subjects val data = sqlContext.read.json(sc.parallelize(Seq( "&

浏览 2提问于2016-08-18得票数 29

回答已采纳

1回答

使用Java使用Spark列从java Map读取值

、

我尝试了下面的代码，通过java中的spark列获取Map值，但根据每个关键字搜索，从Map获取期望精确值的null值。 Spark数据集包含一列，名称为KEY，数据集名称为dataset1 数据集中的值： KEY 1 2 Java代码- Map<String,string> map1 = new HashMap<>(); map1.put("1","CUST1"); map1.put("2","CUST2"); dataset1.withColumn("ABCD", functio

浏览 118提问于2021-10-14得票数 1

回答已采纳

1回答

在星火中的嵌套XML中，从父数据帧中为子数据帧添加额外的列

、、

在加载了许多XML文件之后，我正在创建数据。每个xml文件都有一个唯一的字段fun:DataPartitionId，我正在从一个XML文件中创建许多行。现在，我想为来自XML的结果行中的每一行添加这个fun:DataPartitionId。例如，假设第一个XML有100行，那么每100行都有相同的fun:DataPartitionId字段。因此，fun:DataPartitionId作为每个XML中的头文件。这就是我要做的。 val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext.i

浏览 0提问于2018-02-07得票数 0

回答已采纳

2回答

如何在Spark UDF中设置decimal返回类型的精度和小数位数？

以下是我的示例代码。我期望从UDF返回类型为decimal(16,4)，但它是decimal(38,18)。有没有更好的解决方案？我不期望得到“cast(价格表示为decimal(16,4))”的答案，因为除了强制转换之外，我的UDF中还有其他一些业务逻辑。提前谢谢。 import scala.util.Try import org.apache.spark.sql.functions.udf import org.apache.spark.sql.types.Decimal val spark = SparkSession.builder().master("local[*]

浏览 271提问于2020-04-08得票数 1

回答已采纳

2回答

将可空列作为参数传递给Spark

、

这里有一个Spark，我用它来计算一个值，用几个列。 def spark_udf_func(s: String, i:Int): Boolean = { // I'm returning true regardless of the parameters passed to it. true } val spark_udf = org.apache.spark.sql.functions.udf(spark_udf_func _) val df = sc.parallelize(Array[(Option[String], Option[Int])]( (So

浏览 0提问于2017-09-05得票数 9

回答已采纳

1回答

用火花将字段添加到Csv中

、、、

因此，我有一个CSV，它包含空间(latitude，longitude)和时态(timestamp)数据。为了对我们有用，我们将空间信息转换为"geohash"，将时间信息转换为"timehash“。问题是，如何为CSV中的每一行添加geohash和timehash字段(因为数据大约为200 GB)？我们尝试使用JavaPairRDD及其函数mapTopair，但问题仍然在于如何将其转换回JavaRdd，然后再转换为CSV？所以我认为这是个糟糕的解决方案，我要求的是一个简单的方法。问题的更新：在@Alvaro是帮助之后，我创建了这个java类： public

浏览 0提问于2018-08-02得票数 0

回答已采纳

1回答

Dataframe上的Pyspark列

、、

我正在尝试根据某些列的值在dataframe上创建一个新列。它在所有情况下都返回null。有人知道这个简单的例子出了什么问题吗？ df = pd.DataFrame([[0,1,0],[1,0,0],[1,1,1]],columns = ['Foo','Bar','Baz']) spark_df = spark.createDataFrame(df) def get_profile(): if 'Foo'==1: return 'Foo' elif 'Bar' =

浏览 2提问于2018-09-26得票数 2

回答已采纳

2回答

Spark Dataframe/RDD无法通过计算另一列的内容来创建新列

、、

我有一个Spark RDD (或Dataframe -转换成两者都不是问题)，它有以下列(每个结构的示例)： res248: org.apache.spark.rdd.RDD[(String, Array[String])] = MapPartitionsRDD[1004] at map at <console>:246 org.apache.spark.sql.DataFrame = [id: string, list: array<string>] 我想扩展这个RDD/DF，增加一个包含列表数组大小的列。因此，输出应该是这样的(示例)： org.apache.spa

浏览 27提问于2017-07-07得票数 0

回答已采纳

1回答

从pyspark中的字符串加载jalali日期

、、

我需要从字符串中加载jalali日期，然后将其作为gregorian日期字符串返回。我使用了以下代码： def jalali_to_gregorian(col, format=None): if not format: format = "%Y/%m/d" gre = jdatetime.datetime.strptime(col, format=format).togregorian() return gre.strftime(format=format) # register the function spark.udf.regi

浏览 11提问于2020-10-18得票数 1

回答已采纳

2回答

Spark Dataframe - Python -计算字符串中的子字符串

、、、

我有一个Spark dataframe，它有一个字符串类型的列("assigned_products")，它包含如下值： "POWER BI PRO+Power BI (free)+AUDIO CONFERENCING+OFFICE 365 ENTERPRISE E5 WITHOUT AUDIO CONFERENCING" 我想计算"+"在字符串中的出现次数，并在一个新列中返回该值。我尝试了以下方法，但一直返回错误。 from pyspark.sql.functions import col DF.withColumn('Number_

浏览 122提问于2018-07-21得票数 11

回答已采纳

3回答

StructType /行的Spark自定义项

、、

我在spark Dataframe中有一个"StructType“列，它有一个数组和一个字符串作为子字段。我想修改数组并返回相同类型的新列。我能用UDF处理它吗？或者，还有其他选择吗？ import org.apache.spark.sql.types._ import org.apache.spark.sql.Row val sub_schema = StructType(StructField("col1",ArrayType(IntegerType,false),true) :: StructField("col2",StringType,true

浏览 2提问于2017-03-21得票数 22

1回答

如何在spark中将json array<String>转换为csv

、、、

我尝试过这个查询，希望从linkedin的数据中获得所需的经验。 Dataset<Row> filteredData = spark .sql("select full_name ,experience from (select *, explode(experience['title']) exp from tempTable )" + " a where lower(exp) like '%developer%'&

浏览 6提问于2016-09-22得票数 1

回答已采纳

2回答

星火UDF中的类型错配

、、、

我创建了以下UDF，只获取1部分十进制值。 def udf_cleansing(col1 : Double) = udf((col1 : Double) => { val col2 : String = f"$col1%.5f" if(col2.trim == "" || col2 == null ) 0.toString else col2.substring(0,col2.indexOf("."))} ) 但是，在使用命令调用此函数时，如 df_aud.select(udf_cleansing(df_aud("HASH_TTL&

浏览 0提问于2018-02-05得票数 4

回答已采纳

2回答

在apache spark中使用current_timestamp获取正确的时区偏移量

、

我是Java和Apache spark的新手，正在尝试了解时间戳和时区的使用情况。我希望所有的时间戳都存储在SQL Server的EST时区中，来自我从apache spark DF获得的数据。当我使用current_timestamp时，我得到了正确的美国东部时间，但当我查看数据时，我得到的偏移量是'+00:00‘，而不是'-04:00’。下面是存储在数据库中的值，该值是从spark dataset传入的：2020-04-07 11:36:23.0220 +00:00 在我看来，current_timestamp不接受任何时区。任何帮助理解这一点的人都会很棒。

浏览 2提问于2020-04-08得票数 0

1回答

将自定义函数应用于数据type数组类型的列

、、、

我有一个名为‘count’的列的dataframe，我想将一个自定义函数"do_something“应用于列的每个元素，即每个数组。我不想修改dataframe，我只想做一个单独的操作与列计数。列的所有数组都具有相同的大小。 +----------------------+---------------------------------------+ |id| counts| +----------------------+---------------------------------------+ |1| [8.0, 2.0, 3.0

浏览 2提问于2017-09-22得票数 1

回答已采纳

2回答

星星之胞udf:没有处理程序用于联非新议程分析异常

、、、、

创建了一个项目‘spark udf’&编写的单元udf如下所示： package com.spark.udf import org.apache.hadoop.hive.ql.exec.UDF class UpperCase extends UDF with Serializable { def evaluate(input: String): String = { input.toUpperCase } 构建它&为它创建jar。试图在另一个spark程序中使用此udf： spark.sql("CREATE OR REPLACE FUNCTION up

浏览 4提问于2018-09-04得票数 5

回答已采纳

1回答

通过转换现有列之一来添加array<string>类型的新列时出现spark UDF问题

、、、

spark - 2.4.4 sparknlp 2.6.4 python = 3.7.0 transformed_df.show(10) +-----+--------------------+--------------------+ | id| text| finished_lemma| +-----+--------------------+--------------------+ |73471|Patriots Day Is B...|[Patriots, Day, B...| |73472|A Break in the Se...|[

浏览 21提问于2020-12-06得票数 0

回答已采纳

1回答

在Spark临时表中创建自动增量字段

、、、、

我对星火环境很陌生。我在我的项目中使用Spark。我想在Spark临时表中创建自动增量字段。我创建了UDF，但它没有正常工作。我在网上试过各种例子。这是我的Java POJO类： public class AutoIcrementId { int lastValue; public int evaluate() { lastValue++; return lastValue; } }

浏览 1提问于2016-11-18得票数 2

回答已采纳

2回答

Spark SQL中的udf

、、、

我有两个数据帧: dataDf和regexDf。dataDf有大量记录，而regexDf有两列正则表达式。我的问题是，我需要根据regexDef中的两列匹配正则表达式的两列来过滤dataDf。我想出了这个 dataDf.registerTempTable("dataTable") sqlContext.udf.register("matchExpressionCombination", matchExpressionCombination _) val matchingResults = sqlContext.sql("SELECT * FROM da

浏览 0提问于2015-10-14得票数 1

1回答

使用df.WithColumn()返回scala不可变映射的Spark

、、、、

我有个案课 case class MyCaseClass(City : String, Extras : Map[String, String]) 以及返回scala.collection.immutable.Map的用户定义函数 def extrasUdf = spark.udf.register( "extras_udf", (age : Int, name : String) => Map("age" -> age.toString, "name" -> name) ) 但这也有例外： import spar

浏览 2提问于2016-07-21得票数 1

回答已采纳

2回答

将字典传递给pyspark

、、

我是个新手，我正在尝试使用一个udf来映射一些字符串名。我必须将一些数据值映射到新的名称，所以我打算从sparkdf中发送列值，并将映射字段的字典发送到udf，而不是在.withColumn()之后编写大量的.withColumn()。尝试只将两个字符串传递给udf，它可以工作，但是传递字典不能。 def stringToStr_function(checkCol, dict1) : for key, value in dict1.iteritems() : if(checkCol != None and checkCol==key): return value stringT

浏览 3提问于2018-10-29得票数 4

回答已采纳

1回答

如何从列中获取MapType

、、、

浏览 1提问于2018-01-31得票数 2

回答已采纳

1回答

结构化流式处理`apply`没有输出

代码： df_streaming = spark \ .readStream \ .format("kafka") \ ... \ .load() \ .xxx() df_streaming = df_streaming \ .groupBy(["name", "height"]) \ .apply(cal_feature) stream_writer = df_streaming \ .writeStream \ .format("console")

浏览 8提问于2021-06-16得票数 0

1回答

如何处理scala中的空值？

、、

我知道有很多这样的答案与我要求的内容有关，但是由于我对scala非常陌生，所以我无法理解这些答案。如果有人能帮我纠正我的UDF，我会非常感激的。我有这个UDF，它用于完成从GMT到MST的时区转换： val Gmt2Mst = (dtm_str: String, inFmt: String, outFmt: String) => { if ("".equals(dtm_str) || dtm_str == null || dtm_str.length() < inFmt.length()) { null

浏览 17提问于2022-09-20得票数 0

回答已采纳