Spark 2.4上带有字典的UDF

是指在Apache Spark 2.4版本中使用字典（或映射）作为参数的用户定义函数（UDF）。UDF是一种自定义函数，允许用户在Spark中执行自定义逻辑。

字典是一种无序的键值对集合，可以用于存储和检索数据。Spark 2.4引入了对字典类型参数的支持，使得开发人员可以更灵活地使用UDF来处理复杂的数据转换和计算任务。

通过使用字典作为参数，UDF可以实现更高级的计算逻辑。开发人员可以根据自己的需求，定义自己的字典类型，并将其作为UDF的输入。这样，UDF可以根据键值对的映射关系，对输入数据进行个性化的处理和转换。

优势：

灵活性：使用字典作为参数，可以根据自己的需求定义键值对映射关系，实现高度个性化的数据处理。
可扩展性：字典类型参数可以轻松地扩展和修改，以适应不同的业务场景和数据需求。
提高代码可读性：通过使用字典，可以更清晰地表示和传递数据的映射关系，提高代码的可读性和可维护性。

应用场景：

数据清洗和转换：使用字典的UDF可以方便地处理数据清洗和转换任务，例如将特定的值映射为其他值、根据条件进行数据转换等。
数据分析和计算：通过使用字典，可以在UDF中实现复杂的数据分析和计算逻辑，例如对大规模数据进行聚合、计算统计指标等。
数据分类和标记：使用字典的UDF可以根据事先定义好的键值对映射，对数据进行分类和标记，方便后续的处理和分析。

腾讯云相关产品推荐：腾讯云提供了多个与Spark相关的产品和服务，以帮助用户更好地使用和部署Spark应用。以下是几个推荐的腾讯云产品：

腾讯云CVM（云服务器）：用于创建和管理云上的虚拟机实例，可作为Spark集群的计算节点使用。链接地址：腾讯云CVM
腾讯云COS（对象存储）：提供高可靠性、可扩展性和安全性的对象存储服务，可用于存储和管理Spark应用的输入和输出数据。链接地址：腾讯云COS
腾讯云SCF（无服务器云函数）：可帮助用户按需运行代码，无需管理和配置服务器，适用于开发和部署基于Spark的无服务器应用。链接地址：腾讯云SCF
腾讯云CDN（内容分发网络）：提供全球分布式加速服务，可加速Spark应用的数据传输和访问速度。链接地址：腾讯云CDN

请注意，以上产品仅为示例，实际应根据具体需求选择合适的产品和服务。

Spark 2.4.x: map中的重复键

、、、

在Spark中给定以下两个数组列： df = spark.createDataFrame( [ Row( [Row(x=0, y='a'), Row(x=1, y='b'), Row(x=0, y='c')] ) ], ["col"] ) df.show() +------------------------+ |col | +------------------------+ |[[0, a], [1, b

浏览 175提问于2021-07-15得票数 2

2回答

什么是非类型化Scala和类型化Scala？他们有什么不同？

、、

我使用Spark2.4已经有一段时间了，最近几天我刚刚开始使用Spark3.0。在切换到Spark3.0运行udf((x: Int) => x, IntegerType)后，我得到了这个错误 Caused by: org.apache.spark.sql.AnalysisException: You're using untyped Scala UDF, which does not have the input type information. Spark may blindly pass null to the Scala closure with primitive-ty

浏览 9提问于2020-12-03得票数 6

回答已采纳

2回答

pyspark: Spark2.3中的arrays_zip等价物

、、、

如何在Spark2.3中编写arrays_zip的等效函数？来自Spark 2.4的源代码 def arrays_zip(*cols): """ Collection function: Returns a merged array of structs in which the N-th struct contains all N-th values of input arrays. :param cols: columns of arrays to be merged. >>> from pyspark

浏览 4提问于2020-04-29得票数 7

1回答

Spark 2.3时间戳减去毫秒

、、

我使用的是Spark2.3，我读过here，它不支持时间戳毫秒(仅在2.4+中)，但我正在寻找关于如何做我需要做的事情的想法。我正在处理的数据将日期以字符串数据类型存储在Parquet文件中，格式为: 2021-07-09T01:41:58Z 我需要从其中减去1毫秒。如果是Spark 2.4，我想我可以这样做： to_timestamp(col("sourceStartTimestamp")) - expr("INTERVAL 0.001 SECONDS") 但是因为它是Spark 2.3，所以不能做任何事情。我确认它可以减去1秒，但它忽略任何小于1秒的值。

浏览 59提问于2021-07-30得票数 2

回答已采纳

1回答

在Dataframe的列上调用函数具有错误TypeError:列不可迭代

、、

我在Spark 2.4上使用Databricks。我正在编写Python 我创建了这个函数来将null转换为空字符串 def xstr(s): if s is None: return "" return str(s) 然后我有下面的代码 from pyspark.sql.functions import * lv_query = """ SELECT SK_ID_Site, Designation_Site FROM db_xxx.t_xxx ORDER BY SK_ID_Site li

浏览 19提问于2020-10-07得票数 0

回答已采纳

1回答

Apache Spark 2.3.0 -如何将两个array<string>合并成一个array<string>

、、

我试着用谷歌搜索，但找不到解决方案。将两个array<string>合并成一个array<string>在2.4.x版本中是可能的，也很容易，但在2.3.0版本中找不到这样做的方法。输入- [[one, two, three], [four, five, six]] 预期输出- [ one, two, three, four, five, six] 有人能解释一下如何使用Java在Spark中实现这一点吗？

浏览 9提问于2021-09-22得票数 1

1回答

用序列化问题在Dataframe上调用UDF

我在UDF的博客上看了一些似乎有效的例子，但实际上，当我运行它们时，它们给出了臭名昭著的任务，而不是可序列化的错误。我觉得奇怪的是，这是发表，而没有提到这种情况。运行星火2.4。代码，很直截了当，在火花中一定有什么改变了？： def lowerRemoveAllWhitespace(s: String): String = { s.toLowerCase().replaceAll("\\s", "") } val lowerRemoveAllWhitespaceUDF = udf[String, String](lowerRemoveAllWhitesp

浏览 1提问于2019-03-10得票数 2

回答已采纳

2回答

将字典传递给pyspark

、、

我是个新手，我正在尝试使用一个udf来映射一些字符串名。我必须将一些数据值映射到新的名称，所以我打算从sparkdf中发送列值，并将映射字段的字典发送到udf，而不是在.withColumn()之后编写大量的.withColumn()。尝试只将两个字符串传递给udf，它可以工作，但是传递字典不能。 def stringToStr_function(checkCol, dict1) : for key, value in dict1.iteritems() : if(checkCol != None and checkCol==key): return value stringT

浏览 3提问于2018-10-29得票数 4

回答已采纳

1回答

在不使用using的情况下获取ArrayType列中项目的计数

、

注意:我正在使用Spark2.4 这是我的数据集： df col [1,3,1,4] [1,1,1,2] 我想从本质上获得数组中值的value_counts。df结果 df_upd col [{1:2},{3:1},{4:1}] [{1:3},{2:1}] 我知道，我可以通过爆炸df，然后带一个小组，但我不知道我是否能做到这一点，而不爆炸。

浏览 13提问于2022-05-18得票数 0

回答已采纳

3回答

Spark (scala) dataframes -检查列中的字符串是否包含集合中的任何项

、

我是scala和spark的新手，我一整天都在努力寻找这个问题的解决方案--这让我头疼不已。我已经尝试了以下代码的20种不同变体，但在尝试对列执行计算时总是出现type mismatch错误。我有一个spark数据帧，我希望检查特定列中的每个字符串是否包含来自预定义的单词List (或Set)的任意数量的单词。以下是一些用于复制的示例数据： // sample data frame val df = Seq( (1, "foo"), (2, "barrio"), (3, "gitten"), (

浏览 5提问于2017-08-01得票数 3

回答已采纳

1回答

scala星星之火UDF ClassCastException :不能将WrappedArray$ofRef转换为[Lscala.Tuple2 ]

、、

因此，我执行必要的进口等 import org.apache.spark.sql.functions.udf import org.apache.spark.sql.types._ import spark.implicits._ 然后定义一些latlong点 val london = (1.0, 1.0) val suburbia = (2.0, 2.0) val southampton = (3.0, 3.0) val york = (4.0, 4.0) 然后，我创建了一个这样的星火Dataframe，并检查它是否工作： val exampleDF = Seq((List(lond

浏览 3提问于2021-02-15得票数 3

回答已采纳

1回答

使用scala在spark sql中编写UDF

、、、

我正在用spark SQL编写一个UDF，我想知道是否有一个地方可以阅读关于这方面什么是可能的，什么是不可能的文档？或者是教程？我使用的是SQLContext，不是HiveContext。我见过的示例通常涉及传递一个字符串，对其进行转换，然后输出其他对象的一些转换后的字符串，我已经成功地做到了这一点。但是，如果想要传入的输入实际上是某种Spark SQL Row对象，例如，或者一组Row对象，其中每个对象都有带有键值对的字段，等等。在我的例子中，我通过告诉UDF输入是List[MapString，Any]来传递一组Row对象。我认为问题的部分原因在于它实际上是某种GenericRowWith

浏览 1提问于2015-05-28得票数 2

1回答

某些列的PySpark更新值

、、、

我正在努力找出更新多列值的最佳方法，但返回整个数据集-星星之火变化迅速，许多答案似乎已经过时。我在一个小型集群上运行spark 2.1，创建一个数据文件，如下所示： df = spark.read.options(header="true",sep = '|').csv(path = 'file:///usr//local//raw_data//somefile.txt') print df.columns ['ID','field1','field2','field3',&#

浏览 1提问于2017-05-10得票数 0

回答已采纳

1回答

无法使用Spark.Net UDF和HDInsight集群

、、、、

我尝试在prod环境中运行一个简单的应用程序，其中包含来自https://github.com/dotnet/spark/blob/master/examples/Microsoft.Spark.CSharp.Examples/Sql/Batch/Basic.cs的代码，应用程序运行良好，并将输出发送到标准输出，直到遇到第一个UDF时该代码崩溃。感谢您在这方面的任何见解。环境代码使用以下方式打包 dotnet publish -c Release -f netcoreapp3.1 -r ubuntu.16.04-x64 HDInsight集群HDI4.0，Spark2.4 --服务器按照h

浏览 30提问于2020-10-28得票数 0

回答已采纳

3回答

结构的scala spark UDF过滤器数组

、、

浏览 40提问于2020-01-31得票数 4

回答已采纳

4回答

如何使用array_remove Spark SQL内置函数删除空值

、

Spark2.4引入了涉及数组的新的有用的Spark SQL函数，但当我发现：select array_remove(array(1, 2, 3, null, 3), null)的结果是null而不是[1, 2, 3, 3].时，我有点困惑这是预期的行为吗？是否可以使用array_remove删除空值顺便说一句，目前我使用的替代方法是databricks中的高阶函数： select filter(array(1, 2, 3, null, 3), x -> x is not null)

浏览 55提问于2019-01-12得票数 18

回答已采纳

1回答

将函数应用于Spark中csv的单个列

、、

使用Spark时，我正在读取csv，并希望将函数应用于csv上的列。我有一些可以工作的代码，但它非常粗糙。这样做的正确方法是什么？我的代码 SparkContext().addPyFile("myfile.py") spark = SparkSession\ .builder\ .appName("myApp")\ .getOrCreate() from myfile import myFunction df = spark.read.csv(sys.argv[1], header=True, mode="DROPMA

浏览 3提问于2016-12-05得票数 19

回答已采纳

1回答

按时创建Spark数据帧

、

我在谷歌上找不到的快速问题。创建带有时间戳的Spark Dataframe的最佳方法是什么假设我有startpoint端点和15分钟的间隔。在spark上解决这个问题的最好方法是什么？

浏览 0提问于2016-11-03得票数 0

2回答

如何反转和组合火花数据中的字符串列？

、、、、

我使用的是PyscemVersion2.4，我试图编写一个udf，它应该将列id1和列id2的值放在一起，并返回它的反向字符串。例如，我的数据如下： +---+---+ |id1|id2| +---+---+ | a|one| | b|two| +---+---+ 相应的代码是： df = spark.createDataFrame([['a', 'one'], ['b', 'two']], ['id1', 'id2']) 返回的值应该是 +---+---+----+ |id1|id2| va

浏览 0提问于2019-06-19得票数 1

回答已采纳

1回答

Dataframe上的Pyspark列

、、

我正在尝试根据某些列的值在dataframe上创建一个新列。它在所有情况下都返回null。有人知道这个简单的例子出了什么问题吗？ df = pd.DataFrame([[0,1,0],[1,0,0],[1,1,1]],columns = ['Foo','Bar','Baz']) spark_df = spark.createDataFrame(df) def get_profile(): if 'Foo'==1: return 'Foo' elif 'Bar' =

浏览 2提问于2018-09-26得票数 2

回答已采纳

1回答

基于spark数据框单元格值的查询

、、、

我希望通过使用python的Spark框架在表上运行许多查询，方法是并行运行它们，而不是按顺序运行。当我使用for循环运行查询时，它的执行速度非常慢，因为(我相信)它不能并行地中断作业。例如： for fieldName in fieldList: result = spark.sql("select cast({0} as string) as value, count({0}) as FREQ from {1} group by {0} order by FREQ desc limit 5".format(fieldName, tabl

浏览 9提问于2019-08-31得票数 0

1回答

从UDF火花放电返回字典列表

、、、、

我有一份字典的清单如下： department_amount_pairs = [{"department_1": 100},{"department_2": 200},{"department_1": 300}] 我目前正在做的是 def department_udf(department_amount_pairs ): pair = [] for d in department_amount_pairs: pair.append(json.dumps(d)) return pair 这是我的udf定义

浏览 0提问于2021-03-19得票数 0

2回答

mllib向量的最大值？

、、

我使用mllib创建了一个带有Apache的ML管道。评估器的结果是一个带有“概率”列的DataFrame，它是概率的mllib向量(类似于scikit-learn中的predict_proba )。 val rfPredictions = rfModels.bestModel.transform(testing) val precision = evaluator.evaluate(rfPredictions) 我尝试过这样的方法但没有成功： rfPredictions.select("probability").map{c => c.getAs[Vector](1).

浏览 3提问于2017-10-18得票数 3

回答已采纳

2回答

如何在火花外壳中注册Java SPark UDF？

、、、

下面是我的java udf代码， package com.udf; import org.apache.spark.sql.api.java.UDF1; public class SparkUDF implements UDF1<String, String> { @Override public String call(String arg) throws Exception { if (validateString(arg)) return arg; return "INVALID";

浏览 2提问于2019-02-19得票数 1

1回答

Spark中的用户定义函数(UDF)是否在集群工作节点上并行运行？

、

假设我在python中创建了一个函数，所以将一个数字求幂为2： def squared(s): return s * s 然后我在Spark session中注册了这个函数，如下所示： spark.udf.register("squaredWithPython", squared) 然后当我在Spark SQL中调用UDF时，如下所示： spark.range(1, 20).registerTempTable("test") %sql select id, squaredWithPython(id) as id_squared from test 那么，如

浏览 33提问于2019-10-10得票数 0

回答已采纳

1回答

如何将电火花列(pyspark.sql.column.Column)转换为火花放电数据？

、、

我有一个用例来映射基于条件的pyspark列的元素。通过这个文档，我找不到一个函数来执行映射函数。因此，尝试使用pyspark映射函数，但无法将pyspark列转换为dataFrame 注意:我之所以使用pyspark列，是因为我从我使用的库(远大期望)中获得了它的输入。 @column_condition_partial(engine=SparkDFExecutionEngine) def _spark(cls, column, ts_formats, **kwargs): return column.isin([3]) # need to replace the abov

浏览 4提问于2021-11-19得票数 0

回答已采纳

1回答

将spark.sql查询转换为spark/scala查询

、、

我使用在scala中返回true/false的一些业务逻辑，在中添加了一列。实现是使用UDF完成的，UDF有10个以上的参数，因此在使用UDF之前我们需要先注册UDF。已完成以下工作 spark.udf.register("new_col", new_col) // writing the UDF val new_col(String, String, ..., Timestamp) => Boolean = (col1: String, col2: String, ..., col12: Timestamp) => { if ( ... ) true

浏览 0提问于2019-04-20得票数 0

4回答

如何在火花放电中串接两个阵列

、

浏览 0提问于2019-10-29得票数 2

回答已采纳

1回答

从星火中插入记录到蜂巢表

、

我试图从Hive表( Spark(Scala) )中插入记录。我试图插入的值是作为case类出现的结构化数据。以下是我所拥有的： case class rcd( request: Int, extract_id: Int) } 然后： DF.as[rcd].take(DF.count.toInt).foreach(e => { // DF is a dataframe that contains data if <condition> { ss.sql(s"""INSERT INTO mytable select $e.req

浏览 0提问于2020-01-09得票数 0

2回答

分解函数的反转效果

、、

在使用spark-2.4的scala中，我想过滤列中数组中的值。从… +---+------------+ | id| letter| +---+------------+ | 1|[x, xxx, xx]| | 2|[yy, y, yyy]| +---+------------+ 至 +---+-------+ | id| letter| +---+-------+ | 1|[x, xx]| | 2|[yy, y]| +---+-------+ 我想过使用explode + filter val res = Seq(("1", Array("x&

浏览 11提问于2019-09-29得票数 0

2回答

pyspark寄存器内置函数及其在spark.sql查询中的使用

、、

在spark.sql查询中注册和使用pyspark version 3.1.2内置函数的正确方式是什么？下面是一个创建pyspark DataFrame对象并在纯SQL中运行简单查询的最小示例。尝试使用...TypeError: Invalid argument, not a string or column: -5 of type <class 'int'>. For column literals, use 'lit', 'array', 'struct' or 'create_map' fu

浏览 4提问于2021-08-19得票数 0

回答已采纳

2回答

Spark Dataframe/RDD无法通过计算另一列的内容来创建新列

、、

我有一个Spark RDD (或Dataframe -转换成两者都不是问题)，它有以下列(每个结构的示例)： res248: org.apache.spark.rdd.RDD[(String, Array[String])] = MapPartitionsRDD[1004] at map at <console>:246 org.apache.spark.sql.DataFrame = [id: string, list: array<string>] 我想扩展这个RDD/DF，增加一个包含列表数组大小的列。因此，输出应该是这样的(示例)： org.apache.spa

浏览 27提问于2017-07-07得票数 0

回答已采纳

1回答

org.apache.spark.SparkException:由: java.io.NotSerializableException引起的不可序列化的任务

、

我有两个Scala代码-- MyMain.scala和MyFunction.scala，分别构建和构建的MyFunction jar将在MyMain中充当UDF。 MyFunction.scala基本上包含一个带有公共方法public String myFunc(String val0, String val1)的Java类。该项目是在SBT中构建的，build_jar编译输出作为工件存储(只存储所需的类，即MyFunction.class，而不是依赖项)。 MyMain.scala将上述工件jar导入lib文件夹下，并使用unmanagedBase := baseDirectory.valu

浏览 1提问于2019-10-27得票数 2

回答已采纳

1回答

在Java中创建SparkSQL UDF

、、、、

问题我想在Java中创建一个用户定义的函数，它可以作为Apache操作符链中的Java方法调用。我很难找到不需要UDF存在于SQL查询中的Java示例。版本 Java 8 Scala 2.10.6 ApacheSpark1.6.0为Hadoop2.6.0预置我试过的工作我可以在Java中成功地创建一个UDF。但是，除非它在SQL查询中，否则我不能使用它： import org.apache.spark.sql.DataFrame; import org.apache.spark.sql.SQLContext; import org.apache.spark.sql.

浏览 4提问于2016-03-27得票数 5

回答已采纳

2回答

使用Scala、Spark UDF中的类型多态性将一系列Map展平为Map

、、

我有以下函数，它将字符串的映射序列展平为双精度。如何将类型字符串转换为双泛型？ val flattenSeqOfMaps = udf { values: Seq[Map[String, Double]] => values.flatten.toMap } flattenSeqOfMaps: org.apache.spark.sql.expressions.UserDefinedFunction = UserDefinedFunction(<function1>,MapType(StringType,DoubleType,false),Some(List(ArrayType(

浏览 34提问于2019-03-20得票数 1

回答已采纳

1回答

如何计算流数据集中数组字段中的元素数(一个除外)？

、、

我使用星火2.1.0.Cloudera 1。在流数据中有一个数组，数组中的数据如下所示： ["Windows","Ubuntu","Ubuntu","Mac","Mac","Windows","Windows"] 我需要这个数组的大小，不包括"Windows“元素。下面是我遵循的方法 WITH os_count AS( SELECT cluster_id, count(e) AS cnt FROM systems LATERAL VIEW EXPLOD

浏览 1提问于2019-11-20得票数 2

回答已采纳

1回答

星图内结构体数组上的聚合

、、、

浏览 0提问于2017-12-07得票数 2

回答已采纳

2回答

为udf提供额外的参数

、、、

我正在尝试创建scala，以便转换如下形状的MongoDB对象： Object: "1": 50.3 "8": 2.4 "117": 1.0 进入Spark。问题是，为了创建一个SparseVector，我需要一个更多的输入参数--它的大小。在我的应用程序中，我将向量大小保存在一个单独的MongoDB集合中。因此，我定义了以下UDF函数： val mapToSparseVectorUdf = udf { (myMap: Map[String, Double], size: Int) => { val vb

浏览 1提问于2018-03-20得票数 1

回答已采纳

2回答

在spark scala函数中将List作为参数传递会导致错误

、

我有一个spark scala udf，它接受一个参数作为dataframe的列，另一个参数作为列表，但当我运行该函数时，它抛出错误，指向列表参数为 type mismatch, found spark.sql.row ,required spark.sql.column 我正在运行udf，参数如下： udf_name($"column_name"，List_name) 请指导

浏览 2提问于2018-08-19得票数 0

1回答

scala抱怨NoClassDefFoundError

、、、、

我试图写这样一个简单的星星之火。当我在星火版10.4.x-scala2.12上的databricks笔记本上测试它时。同样的代码运行得很好。当我在一个打包的jar中运行这个程序并以相同的星火版本向databricks提交时，它会导致这样的异常，例外:在spark.sql(sql_stat).show(false) Job aborted due to stage failure. Caused by: NoClassDefFoundError: Could not initialize class com.test.TestClass$ : : at com.test.TestClass$.

浏览 10提问于2022-12-03得票数 0

2回答

如何扩展spark dataframe中的数据子集

、、、

我有一个包含多个列的spark dataframe，重要的是一列带有日期时间戳，另一列带有值。如果值对应于某个特定时间之前的日期时间，我希望将value列中的所有值按一个常量进行缩放。例如 id | datetime | value | other_col | 1 | 2020-10-1 | 0.1 | 200 | 1 | 2020-10-20 | 0.01 | 100 | 1 | 2020-10-14 | 0.2 | 200 | 1 | 2020-10-25 | 1 | 200 | 应转换为 id | dat

浏览 23提问于2021-04-21得票数 0

回答已采纳

1回答

如何将列数组传递给斯派克用户定义的Java函数？

、

我的星火数据集中有一组动态列。我想传递列数组，而不是单独的列。我们如何编写UDF函数，以便它接受列数组。我试过传递字符串序列，但它失败了。 static UDF1<Seq<String>, String> udf = new UDF1<Seq<String>, String>() { @Override public String call(Seq<String> t1) throws Exception { return t1.toString();

浏览 0提问于2019-07-03得票数 1

1回答

过滤Spark SQL数据帧中的距离

、、、、

我有一个带有纬度和经度列的Spark SQL DataDrame，我试图通过计算到输入的距离来过滤低于阈值的行。我当前的代码看起来像这样。我使用geopy (great_circle)来计算后面长对之间的距离。 from geopy.distance import great_circle point = (10, 20) threshold = 10 filtered_df = df.filter(great_circle(point, (df.lat, df.lon)) < threshold) 当我运行这段代码时，我得到以下错误 ValueError: Cannot conver

浏览 11提问于2017-12-19得票数 0

回答已采纳

1回答

运行时评估功能不能很好地使用Spark数据集/RDD

、、

我有个火花申请。我的用法是允许用户定义一个类似于Record => Record的任意函数，作为“规则”，它将应用于RDD/Dataset的每个记录。以下是守则： //Sample rows with Id, Name, DOB and address val row1 = "19283,Alan,1989-01-20,445 Mount Eden Road Mount Eden Auckland" val row2 = "15689,Ben,1989-01-20,445 Mount Eden Road Mount Eden Auckla

浏览 0提问于2019-01-18得票数 1

2回答

Spark withColumn性能

、、

我用spark写了一些代码，如下所示： val df = sqlContext.read.json("s3n://blah/blah.gz").repartition(200) val newdf = df.select("KUID", "XFF", "TS","UA").groupBy("KUID", "XFF","UA").agg(max(df("TS")) as "TS" ).filter(!(df("UA")=

浏览 23提问于2016-09-14得票数 3

1回答

在spark数据帧上实现pythonic统计函数

、、、

我在spark数据帧中有非常大的数据集，它们分布在节点上。我可以使用spark库pyspark.sql.functions进行简单的统计，如mean、stdev、skewness、kurtosis等。如果我想使用像Jarque-Bera (JB)或Shapiro Wilk(SW)等高级统计测试，我会使用像scipy这样的python库，因为标准的apache pyspark库没有它们。但为了做到这一点，我必须将spark数据帧转换为pandas，这意味着将数据强制到主节点中，如下所示： import scipy.stats as stats pandas_df=spark_df.toPan

浏览 30提问于2020-09-13得票数 0

1回答

为什么这个List[String]到数据仓库NullPointerException在斯派克斯卡拉？

、

下面的代码将导致NullPointerException。我不确定，这个异常是发生在某些行上，还是总是因为dataframe很大而无法指向行。 def removeUnwantedLetters(str: String): String = { str.split("\\W+").filter(word => (word.matches("[a-z]+") && (word.length > 1))).mkString(" ") } val myudf = spark.udf.register("le

浏览 0提问于2018-11-30得票数 0

回答已采纳

2回答

将Word2VecModel与UserDefinedFunction一起使用时的NullPointerException

、、、、

我正在尝试将一个word2vec模型对象传递给我的spark udf。基本上，我有一个带有电影I的测试集，我希望将这些I与model对象一起传递，以获得每一行的推荐电影数组。 def udfGetSynonyms(model: org.apache.spark.ml.feature.Word2VecModel) = udf((col : String) => { model.findSynonymsArray("20", 1) }) 然而，这给了我一个空指针异常。当我在udf之外运行model.findSynonymsArray("

浏览 3提问于2018-04-27得票数 3

1回答

无法在pyspark中应用pandas_udf

、、、

我正在尝试一些与pyspark相关的实验，在连接到AWS EMR实例的jupyter笔记本上。我有一个spark dataframe，它从s3读取数据，然后过滤掉一些东西。使用df1.printSchema()输出打印模式，如下所示： root |-- idvalue: string (nullable = true) |-- locationaccuracyhorizontal: float (nullable = true) |-- hour: integer (nullable = true) |-- day: integer (nullable = true) |-- da

浏览 39提问于2019-05-09得票数 2

回答已采纳

1回答

无效返回类型在火花放电为UDF

、、

我面临着一个奇怪的问题，我想要定义和使用一个UDF。我总是会犯这个错误： TypeError:无效的returnType: returnType应该是DataType或str，但是是<‘pyspk.sql.type. Invalid’> 我的代码实际上非常简单： from pyspark.sql import SparkSession from pyspark.sql.types import IntegerType def square(x): return 2 def _process(): spark = SparkSession.builder.ma

浏览 3提问于2020-06-14得票数 3

回答已采纳