Apache Spark UDF:访问冰山_Apache Spark Python UDF失败_Spark :访问UDF中的行 - 腾讯云开发者社区

scala、apache-spark、iceberg

我们正在对冰山进行POC测试，并首次对其进行评估。火花环境： workers)Spark: spark-3.1.2-bin-hadoop3.2Scala：独立集群设置(1主服务器和5 2.12.10Java: 1.8.0_321Hadoop: 3.2.0Iceberg 0.13.1 ) 正如Iceberg的官方文档中所建议的，为了在shell中添加对Iceberg的支持，我们在启动shell时添加了Iceberg依赖项，如下所示， spark-shell --packages org.apache.iceberg:iceberg-spark-runtime-3.2_2.12:0.13.1 在

浏览 11提问于2022-04-07得票数 1

回答已采纳

1回答

将spark.sql查询转换为spark/scala查询

scala、apache-spark、apache-spark-sql

我使用在scala中返回true/false的一些业务逻辑，在中添加了一列。实现是使用UDF完成的，UDF有10个以上的参数，因此在使用UDF之前我们需要先注册UDF。已完成以下工作 spark.udf.register("new_col", new_col) // writing the UDF val new_col(String, String, ..., Timestamp) => Boolean = (col1: String, col2: String, ..., col12: Timestamp) => { if ( ... ) true

浏览 0提问于2019-04-20得票数 0

1回答

如何将列数组传递给斯派克用户定义的Java函数？

java、apache-spark

我的星火数据集中有一组动态列。我想传递列数组，而不是单独的列。我们如何编写UDF函数，以便它接受列数组。我试过传递字符串序列，但它失败了。 static UDF1<Seq<String>, String> udf = new UDF1<Seq<String>, String>() { @Override public String call(Seq<String> t1) throws Exception { return t1.toString();

浏览 0提问于2019-07-03得票数 1

1回答

无法从AWS中的PySpark脚本查询冰山表

amazon-web-services、apache-spark、pyspark、aws-glue、iceberg

--我试图从冰山表中读取数据，数据采用ORC格式，并按列进行分区。我得到了这个错误- org.apache.hadoop.hive.ql.metadata.HiveException:无法获取表temp_tag_thrshld_iceberg。StorageDescriptor#InputFormat不能对表temp_tag_thrshld_iceberg为空(服务: null；状态代码: 0；错误代码: null；请求ID: null；代理: null) 这是我的代码: spark = SparkSession.builder.config("spark.driver.memory

浏览 9提问于2022-07-27得票数 0

回答已采纳

2回答

将pyspark df转换为pandas时抛出异常，等待结果

python、pandas、apache-spark、pyspark、databricks

我正在尝试使用UDF进行一些计算。但是在计算之后，当我尝试将pyspark数据帧转换为pandas时，它会给出org.apache.spark.SparkException: Exception thrown in awaitResult: 我会把可重现的代码写下来。 import pandas as pd import numpy as np import time n = 10000 sample_df = pd.DataFrame(np.random.rand(n,n)) sample_df.columns = sample_df.columns.astype(str) sample

浏览 6提问于2021-04-09得票数 0

1回答

如何在Java中创建接受字符串数组的Spark UDF？

java、apache-spark

这个问题已经被问到了Scala的，但它对我没有帮助，因为我正在使用Java API。我真的把所有的东西和厨房的水槽都扔进去了，所以这是我的方法： List<String> sourceClasses = new ArrayList<String>(); //Add elements List<String> targetClasses = new ArrayList<String>(); //Add elements dataset = dataset.withColumn("Transformer", callUDF(

浏览 40提问于2019-11-25得票数 1

回答已采纳

1回答

在DataFrame中为另一列的值添加邻居数的新列

scala、apache-spark、dataframe、spark-dataframe

我有这样一个DataFrame： org.apache.spark.sql.DataFrame = [Timestamp: int, AccX: double ... 17 more fields]` 时间戳不是连续的，而是划时代的。我想添加一个新列，为每一行添加接近当前行时间戳的timeStamps数。例子： TimeStamp 1 5 6 12 13 16 假设我们的范围为3，输出如下： | TimeStamp | New column | | 1 | 1 | | 5

浏览 2提问于2017-10-30得票数 2

回答已采纳

1回答

如何将Dataset<Row>转换为List<GenericRecord>

java、apache-spark、apache-spark-sql、avro、iceberg

想知道如何将Dataset<Row>转换为List<GenericRecord>。我说的是： org.apache.avro.generic.GenericRecord org.apache.spark.sql.Dataset org.apache.spark.sql.Row Dataset<Row> data = spark.sql(SQL_QUERY) 每个SQL_QUERY的结果是不同的，因此每个用例的模式可能是不同的。重要的是要知道，我正在从Iceberg表中读取文件，将文件保存为幕后的.avro。我目前的想法是找到一种方法，将Datas

浏览 13提问于2022-09-11得票数 0

5回答

来自自定义模块的函数不是在PySpark中工作，而是在交互模式下输入时工作。

pyspark、pyspark-sql

我已经编写了一个模块，其中包含了在PySpark DataFrames上工作的函数。它们对DataFrame中的列进行转换，然后返回一个新的DataFrame。下面是代码的一个示例，缩短为只包含其中一个函数： from pyspark.sql import functions as F from pyspark.sql import types as t import pandas as pd import numpy as np metadta=pd.DataFrame(pd.read_csv("metadata.csv")) # this contains metad

浏览 6提问于2016-03-10得票数 7

回答已采纳

1回答

无法在pyspark中应用pandas_udf

python、apache-spark、pyspark、amazon-emr

我正在尝试一些与pyspark相关的实验，在连接到AWS EMR实例的jupyter笔记本上。我有一个spark dataframe，它从s3读取数据，然后过滤掉一些东西。使用df1.printSchema()输出打印模式，如下所示： root |-- idvalue: string (nullable = true) |-- locationaccuracyhorizontal: float (nullable = true) |-- hour: integer (nullable = true) |-- day: integer (nullable = true) |-- da

浏览 39提问于2019-05-09得票数 2

回答已采纳

2回答

星星之胞udf:没有处理程序用于联非新议程分析异常

scala、apache-spark、hive、pyspark、spark-hive

创建了一个项目‘spark udf’&编写的单元udf如下所示： package com.spark.udf import org.apache.hadoop.hive.ql.exec.UDF class UpperCase extends UDF with Serializable { def evaluate(input: String): String = { input.toUpperCase } 构建它&为它创建jar。试图在另一个spark程序中使用此udf： spark.sql("CREATE OR REPLACE FUNCTION up

浏览 4提问于2018-09-04得票数 5

回答已采纳

1回答

Spark Scala上的java.lang.NullPointerException问题

scala、apache-spark

我有地理区域表和地点表，在位置表中我只有geoarea_id，而在地理区域表中我有id和名称我的目标是创建一个接受geoarea_id数组并在names数组中进行转换的函数声明这些表： val geoareas = ( spark.table("location.geoareas") ) val places = ( spark.table("location.places") .select('id, 'name, 'geoareas, 'lat, 'lng) ) 功能： import

浏览 55提问于2019-10-07得票数 0

1回答

冰山在写“星星之火”时不起作用。

apache-spark、google-cloud-storage、spark-avro、iceberg

我们在将AVRO文件从GCS追加到表时遇到以下错误。avro文件是有效的，但是我们使用的是紧缩的avro，这是一个问题吗？线程“流式-作业-执行器-0”中的异常: org/apache/avro/InvalidAvroMagicException在org.apache.iceberg.avro.AvroIterable.newFileReader(AvroIterable.java:101) at org.apache.iceberg.avro.AvroIterable.iterator(AvroIterable.java:77) at org.apache.iceberg.avro.Avr

浏览 7提问于2021-01-28得票数 0

2回答

Spark SQL中的udf

scala、apache-spark、apache-spark-sql、udf

我有两个数据帧: dataDf和regexDf。dataDf有大量记录，而regexDf有两列正则表达式。我的问题是，我需要根据regexDef中的两列匹配正则表达式的两列来过滤dataDf。我想出了这个 dataDf.registerTempTable("dataTable") sqlContext.udf.register("matchExpressionCombination", matchExpressionCombination _) val matchingResults = sqlContext.sql("SELECT * FROM da

浏览 0提问于2015-10-14得票数 1

1回答

如何处理scala中的空值？

scala、apache-spark、user-defined-functions

我知道有很多这样的答案与我要求的内容有关，但是由于我对scala非常陌生，所以我无法理解这些答案。如果有人能帮我纠正我的UDF，我会非常感激的。我有这个UDF，它用于完成从GMT到MST的时区转换： val Gmt2Mst = (dtm_str: String, inFmt: String, outFmt: String) => { if ("".equals(dtm_str) || dtm_str == null || dtm_str.length() < inFmt.length()) { null

浏览 17提问于2022-09-20得票数 0

回答已采纳

1回答

要检查的UDF是非零向量，不工作后CountVectorizer通过火花提交。

scala、apache-spark、apache-spark-mllib、minhash

根据这个，我正在应用udf来过滤CountVectorizer之后的空向量。 val tokenizer = new RegexTokenizer().setPattern("\\|").setInputCol("dataString").setOutputCol("dataStringWords") val vectorizer = new CountVectorizer().setInputCol("dataStringWords").setOutputCol("features") val pipeline

浏览 3提问于2018-02-12得票数 1

3回答

使用Spark注册配置单元自定义UDF (Spark SQL) 2.0.0

apache-spark、apache-spark-sql、udf

我正在开发一个spark 2.0.0版本，其中我的需求是在我的sql上下文中使用'com.facebook.hive.udf.UDFNumberRows‘函数来使用其中一个查询。在我的集群with Hive查询中，我将其用作临时函数，只需定义:创建临时函数myFunc为'com.facebook.hive.udf.UDFNumberRows'，这非常简单。我尝试将其注册到sparkSession，如下所示，但得到一个错误： sparkSession.sql("""CREATE TEMPORARY FUNCTION myFunc AS '

浏览 1提问于2016-11-02得票数 5

2回答

Apache Spark Python UDF失败

python、apache-spark、pyspark、user-defined-functions

我有一个用Python编写的简单udf，它是我在“24小时内的Apache Spark”一书中的一个代码示例中修改的。这本书使用的是旧版本的Spark，而我运行的是2.3.3。我确实找到了这个answer，但我很难弄清楚为什么书中的例子不起作用，我也不确定这个答案是否真的解决了我的问题。我在Windows 10上以本地模式运行此程序。 from pyspark.sql import SparkSession from pyspark.sql.functions import * from pyspark.sql.types import * spark = SparkSession \

浏览 26提问于2019-04-05得票数 0

回答已采纳

2回答

使用pandas_udf时“索引处的值为空”错误

pyspark、apache-spark-sql

对于吡火花中的DataFrame，如果使用F.lit(1) (或任何其他值)初始化列，则将其赋值给pandas_udf内部的一些值(在本例中使用shift()，但可能发生在任何其他函数)，这将导致“值在索引上为空”错误。有人能提供一些提示，为什么会发生这种情况？是火星雨里的虫子吗？请参阅下面的代码和错误。 spark = SparkSession.builder.appName('test').getOrCreate() df = spark.createDataFrame([Row(id=1, name='a', c=3), Row(id=2, name=

浏览 0提问于2019-07-22得票数 4

回答已采纳

1回答

火花数据挖掘中处理Spacy文档向量的错误

python、pyspark、nlp、spacy

我在AWS上使用Spacy预训练的大型模型生成的文档向量时遇到了非常糟糕的时间。当我将文档向量放入一个dataframe中时，问题就开始了。例如，这段代码对我来说很好： # Load infrastructure libraries import pandas as pd import numpy as np # Load NLP libraries and tools import spacy # Prepare the Spacy NLP parsers nlp = spacy.load('en_core_web_lg') # Load Spark from pys

浏览 9提问于2022-09-19得票数 2

1回答

为什么这个List[String]到数据仓库NullPointerException在斯派克斯卡拉？

scala、apache-spark

下面的代码将导致NullPointerException。我不确定，这个异常是发生在某些行上，还是总是因为dataframe很大而无法指向行。 def removeUnwantedLetters(str: String): String = { str.split("\\W+").filter(word => (word.matches("[a-z]+") && (word.length > 1))).mkString(" ") } val myudf = spark.udf.register("le

浏览 0提问于2018-11-30得票数 0

回答已采纳

2回答

Apache :无法将分组数据保存为CSV

python、apache-spark、pyspark、pyspark-sql

我想做一件简单的事。我想把所有的事件统计成2分钟的时间戳。效果很好。 df = df.groupBy(window(df["time_value"], "2 minutes")).count() df.show() +--------------------+-----+ | window|count| +--------------------+-----+ |[2018-04-10 15:00...| 770| |[2018-04-10 00:42...| 100| |[2018-04-10 04:14...| 54| |[2018-04-06 15:

浏览 1提问于2018-05-15得票数 1

回答已采纳

1回答

如何在DataFrame中使用CountVectorizerModel.vocabulary将termIndices转换为term？

apache-spark、user-defined-functions、apache-spark-ml

我使用CountVectorizerModel创建文本外的要素，以便在LDA中进行训练 +-----+--------------------------------------+-------------------------------------------------+-------------------------------------------------------------------+ |label|sentence |words

浏览 0提问于2018-12-17得票数 0

1回答

PySpark 3- UDF从列表列中删除项

python、apache-spark、pyspark、user-defined-functions

我正在一个dataframe中创建一个列，它是一个由4个结构组成的数组。它们中的任何一个都可以是空的，但是由于我需要在这个数组中有固定数量的项，所以我需要在这个事实之后清除空项。但是，当试图使用UDF删除空项时，我会遇到一个错误。下面是一个例子：创建数据框架，注意其中一个"a“值为None。 spark = SparkSession.builder.getOrCreate() df = spark.createDataFrame([{"a": "x", "b": "y", "c": "3"

浏览 1提问于2021-05-28得票数 0

回答已采纳

2回答

如何在Spark2.3.0UDF中构造和持久化每个工作人员的引用对象？

scala、apache-spark、apache-spark-sql、databricks、spark-structured-streaming

在Spark2.3.0结构化流作业中，我需要将一列附加到从现有列的同一行的值派生的DataFrame中。我想在中定义这个转换，并使用构建新的DataFrame。进行这种转换需要咨询一个非常昂贵的构造引用对象--每个记录构建它一次，会产生不可接受的性能。在每个工作节点上构造和持久化该对象一次的最佳方法是什么，这样就可以对每个批处理中的每条记录重复引用该对象？注意，对象是不可序列化的。我目前的尝试是将子类化，将昂贵的对象添加为惰性成员，并为这个子类提供一个备用构造函数，该子类执行通常由执行的init，但到目前为止，我一直无法让它执行udf所做的类型强制--当转换lambda处理输入和输出字

浏览 1提问于2018-06-06得票数 2

回答已采纳

1回答

通过转换现有列之一来添加array<string>类型的新列时出现spark UDF问题

apache-spark、pyspark、apache-spark-sql、user-defined-functions

spark - 2.4.4 sparknlp 2.6.4 python = 3.7.0 transformed_df.show(10) +-----+--------------------+--------------------+ | id| text| finished_lemma| +-----+--------------------+--------------------+ |73471|Patriots Day Is B...|[Patriots, Day, B...| |73472|A Break in the Se...|[

浏览 21提问于2020-12-06得票数 0

回答已采纳

1回答

Spark不会显示()- Py4JJavaError:调用o426.showString时出错

apache-spark、pyspark、pyspark-dataframes

我有一个不能使用.show()的数据。每次它给出以下错误？是否有可能有一个损坏的列？错误： Py4JJavaError:调用o426.howString时出错。：org.apache.spark.SparkException:由于阶段失败而中止作业: 381.0阶段的任务0失败4次，最近的失败:阶段381.0中丢失的任务0.3 (TID 19204，ddlps28.rsc.dwo.com，执行器99)：org.apache.spark.api.python.PythonException:回溯(最近一次调用)：文件ddlps28.rsc.dwo.com行177，主要

浏览 0提问于2018-12-06得票数 2

回答已采纳

1回答

当我运行用Java编写的hive时出错，用pyscemEMR5.x编写

apache-spark、pyspark、amazon-emr、hive-udf

我有一个用java编写的Hive，我正在试图将它应用于pyspark 2.0.0中。下面是步骤1。将jar文件复制到EMR 2中。 pyspark --jars ip-udf-0.0.1-SNAPSHOT-jar-with-dependencies-latest.jar 使用下面的代码访问UDF from pyspark.sql import SparkSession from pyspark.sql import HiveContext sc = spark.sparkContext sqlContext = HiveContext(sc) sqlContext.sql("

浏览 4提问于2017-01-09得票数 0

1回答

关于在Spark中创建用户定义函数(UDF)的方法

scala、apache-spark

我是Scala的初学者，我想了解Spark中的UDF。我将使用下面的示例演示我的问题。我正在使用Scala使用数据块。假设我有下面的数据框架， val someDF = Seq( (1, "bat"), (4, "mouse"), (3, "horse") ).toDF("number", "word") someDF.show() +------+-----+ |number| word| +------+-----+ | 1| bat| | 4|mouse| | 3|

浏览 2提问于2020-03-06得票数 0

回答已采纳

1回答

Hashtable[String，String]的Scala错误

java、scala、apache-spark

我正在写一个小的UDF val transform = udf((x: Array[Byte]) => { val mapper = new ObjectMapper() with ScalaObjectMapper val stream: InputStream = new ByteArrayInputStream(x); val obs = new ObjectInputStream(stream) val stock = mapper.readValue(obs, classOf[util.Hashtable[String, String

浏览 17提问于2020-01-20得票数 0

回答已采纳

1回答

java.lang.RuntimeException: org.apache.spark.SparkException:任务在solr.DefaultSource.createRelation不可序列化

apache-spark

我见过很多这样的关于序列化错误的帖子。但我对此还不熟悉。这里有一个dataframe-modProductsData和一个地图L2L3Map地图。我想用map-L2L3Map的值替换column-PRIMARY_CATEGORY中的值。 val L2L3Map = L2.collect.map(row => (row.get(0).toString, row.get(1).toString)).toMap val L2L3MapUDF = udf { s: String => L2L3Map.get(s) } val productsData = spark.read.forma

浏览 2提问于2018-12-21得票数 0

1回答

如何拆分输入文件名并在星火数据帧列中添加特定值

scala、apache-spark、spark-dataframe、spark-csv

这就是我如何在星火数据帧中加载csv文件的方式。 val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext.implicits._ import org.apache.spark.{ SparkConf, SparkContext } import java.sql.{Date, Timestamp} import org.apache.spark.sql.Row import org.apache.spark.sql.types._ import org.apache.spark.sql.funct

浏览 4提问于2017-10-05得票数 2

回答已采纳

2回答

Pyspark udf (BeautifulSoup)及其在数据帧中的应用

dataframe、apache-spark、beautifulsoup、pyspark、user-defined-functions

我正在尝试定义我的udf来清除标签中的html文本。下面的代码运行良好： from bs4 import BeautifulSoup from pyspark.sql.functions import udf text = '<p>Tervetuloa leikkimään, laulamaan, loruilemaan, liikkumaan, taiteilemaan ja tutkimaan leikkipuiston<br>perheaamuun! Leikki- ja toimintaympäristö mahdollistavat vanhemma

浏览 0提问于2020-01-18得票数 0

2回答

如何将函数应用于Spark DataFrame的列？

scala、apache-spark、dataframe、apache-spark-sql

让我们假设我们有一个Spark DataFrame df.getClass Class[_ <: org.apache.spark.sql.DataFrame] = class org.apache.spark.sql.DataFrame 使用下面的模式 df.printSchema root |-- rawFV: string (nullable = true) |-- tk: array (nullable = true) | |-- element: string (containsNull = true) 假设Scala列的每一行都是一个字符串数组，那么如何编写一个tk函数

浏览 2提问于2016-01-05得票数 7

回答已采纳

1回答

在结构序列中使用Spark UDF

scala、apache-spark、apache-spark-sql

给定一个数据帧，其中一列是由以下序列生成的结构序列 val df = spark .range(10) .map((i) => (i % 2, util.Random.nextInt(10), util.Random.nextInt(10))) .toDF("a","b","c") .groupBy("a") .agg(collect_list(struct($"b",$"c")).as("my_list")) df.printSchema df.show(

浏览 0提问于2017-07-13得票数 12

回答已采纳

4回答

spark UDF结果可以做'show'，但不能做'filter‘

python、apache-spark、pyspark、apache-spark-sql

当我执行show()时，spark UDF可以工作，但当我对UDF结果执行filter时，它会给我错误。 udf函数 def chkInterPunctuation(sent) : for char in sent[1:-2] : if char in ["\"", "'", ".", "!", "?"] : return True return False cip = udf(chkInterPunctuation, BooleanTyp

浏览 0提问于2018-11-21得票数 1

2回答

由: java.time.format.DateTimeParseException:文本'2020-05-12 10:23:45‘无法解析，未解析文本位于索引10

scala、apache-spark、databricks

我正在创建一个UDF，它将为我找到每周的第一天。 UDF的输入将是来自在yyyy-MM-dd hh:MM:ss中存储日期时间的Dataframe的字符串列。我同意可以在没有UDF的情况下建立同样的机制，但我想探索一下，所有这样做的选择。到目前为止，我通过UDF被困在了实现中。重要备注--周开始日是星期一。密码- import org.apache.spark.sql.functions._ import java.time.format.DateTimeFormatter import java.time.LocalDate import org.joda.time.DateTimeCo

浏览 3提问于2020-07-02得票数 1

回答已采纳

1回答

Pyspark，先知，熊猫UDF - [8906行x3列]类型<class‘panadas.core.framework.’>.对于列文字，请使用“

python、pandas、dataframe、apache-spark、pyspark

如果这是个愚蠢的问题，我很抱歉，但是我被困住了，我已经尝试了每一个解决类似问题的建议。 --我正试图用火星雨和类似于的PandasUDF来扩展facebook的预言家模型。我得到的最终结果是熊猫数据有一些错误，我看不到结果。我试过熊猫和火花数据采集器，但都不起作用。我想这是一个简单的解决办法，但我已经在这件事上失去了几天。提前感谢！ import numpy as np import seaborn as sns import matplotlib.pyplot as plt %matplotlib inline df = pd.read_excel("All Mylan pro

浏览 4提问于2020-05-04得票数 1

1回答

将Spark RDD作为文本文件写入S3存储桶

scala、apache-spark、rdd、spark-dataframe、databricks

我正在尝试将Spark RDD保存为gzipped文本文件(或多个文本文件)到S3存储桶中。S3存储桶挂载到dbfs。我正在尝试使用以下命令保存该文件： rddDataset.saveAsTextFile("/mnt/mymount/myfolder/") 但是当我尝试这样做的时候，我一直收到错误： org.apache.spark.SparkException: Job aborted due to stage failure: Task 32 in stage 18.0 failed 4 times, most recent failure: Lost task 32.3

浏览 8提问于2016-09-05得票数 0

回答已采纳

1回答

在groupBy之后过滤数据并在Pyspark中使用用户定义聚合函数将导致java.lang.UnsupportedOperationException。

pandas、dataframe、apache-spark、pyspark、pyspark-sql

我在编写代码时发现了一些奇怪的错误。在调用groupBy函数和agg函数之后，我想从剩余的数据中过滤一些数据，但它似乎不起作用。我的示例代码如下。 >>> from pyspark.sql.functions import pandas_udf, PandasUDFType, col >>> df = spark.createDataFrame( ... [(1, 1.0), (1, 2.0), (2, 3.0), (2, 5.0), (2, 10.0)], ... ("id", "v")) >>&

浏览 0提问于2019-07-22得票数 0

1回答

无法调用pyspark udf函数

python、apache-spark、pyspark、user-defined-functions

尝试使用UDF函数，但遇到错误： import time import datetime from pyspark.sql.functions import lit,unix_timestamp, udf, col, lit from pyspark.sql.types import TimestampType, DecimalType dict = [{'name': 'Alice', 'age': 1},{'name': 'Again', 'age': 2}] df = spark.crea

浏览 36提问于2021-07-23得票数 2

回答已采纳

1回答

在Java中创建SparkSQL UDF

java、apache-spark、dataframe、apache-spark-sql、user-defined-functions

问题我想在Java中创建一个用户定义的函数，它可以作为Apache操作符链中的Java方法调用。我很难找到不需要UDF存在于SQL查询中的Java示例。版本 Java 8 Scala 2.10.6 ApacheSpark1.6.0为Hadoop2.6.0预置我试过的工作我可以在Java中成功地创建一个UDF。但是，除非它在SQL查询中，否则我不能使用它： import org.apache.spark.sql.DataFrame; import org.apache.spark.sql.SQLContext; import org.apache.spark.sql.

浏览 4提问于2016-03-27得票数 5

回答已采纳

1回答

Apache Spark UDF:访问冰山

apache-spark、user-defined-functions、iceberg

我试图从Spark Java UDF中访问Iceberg表，但在UDF中运行第一个SQL语句时出现错误。下面是我如何在UDF中创建Spark会话： SparkSession spark = SparkSession.builder() .master(...) .appName("app") .config(...) ... .enableHiveSupport() .getOrCreate(); 下面是引发异

浏览 56提问于2021-05-11得票数 0

1回答

将简单值从映射映射到spark DataFrame错误

scala、apache-spark、apache-spark-sql

我最近开始在Scala中使用Spark，我发现自己处于这样一种情况:我想要将一些值从hashmap/map映射到dataframe，而不必构造新的dataframe，然后执行某种连接。我有这个数据框架： +---+-------+---+----------+---------+ | id| name|age| date|genderKey| +---+-------+---+----------+---------+ | 1|Rodrigo| 30|2019-01-01| male| | 2|Roberto| 23|2019-01-01| male| |

浏览 2提问于2020-04-10得票数 0

3回答

文本列上的Pyspark DataFrame自定义项

python、apache-spark、pyspark、apache-spark-sql、pyspark-sql

我正在尝试对PySpark DataFrame中的一些Unicode列进行一些NLP文本清理。我已经尝试了Spark 1.3，1.5和1.6，但似乎无法让它在我的生命中正常工作。我也尝试过使用Python2.7和Python3.4。我已经创建了一个非常简单的udf，如下所示，它应该只为新列中的每条记录返回一个字符串。其他函数将操作文本，然后在新列中返回更改后的文本。 import pyspark from pyspark.sql import SQLContext from pyspark.sql.types import * from pyspark.sql import SQLConte

浏览 4提问于2016-01-15得票数 21

回答已采纳

1回答

AttributeError：'NoneType‘对象没有'_jvm - PySpark UDF’属性

python、apache-spark、pyspark、user-defined-functions、databricks

我有杂志订阅和创建时间的数据，以及一个包含与给定用户关联的所有订阅到期日期数组的列： user_id created_date expiration_dates_for_user 202394 '2018-05-04' ['2019-1-03', '2018-10-06', '2018-07-05'] 202394 '2017-01-04' ['2019-1-03', &

浏览 21提问于2018-12-13得票数 2

2回答

将Python UDF应用于Spark数据帧时的java.lang.IllegalArgumentException

python、pandas、apache-spark、pyspark

我在本地机器上使用Pyspark 2.3.1测试pandas_udf ()文档中提供的示例代码： from pyspark.sql import SparkSession from pyspark.sql.functions import pandas_udf, PandasUDFType df = spark.createDataFrame( [(1, 1.0), (1, 2.0), (2, 3.0), (2, 5.0), (2, 10.0)], ("id", "v")) @pandas_udf("id long, v double

浏览 0提问于2019-11-15得票数 3

1回答

PySpark -检查某些列中是否有NaN时出错

python-3.x、apache-spark、pyspark、apache-spark-sql

尝试使用以下命令检查某些列中是否有NaN值 ddf_temp = ddf.select('col1', 'col2' ...) # all int type ddf_temp.select([count(when(isnull(c), c)).alias(c) for c in ddf_temp.columns]).show() 我可以找出哪些列给了我这些错误，但我找不到为什么会出现这样的错误： --------------------------------------------------------------------------- Py4JJav

浏览 27提问于2019-08-23得票数 0

回答已采纳

2回答

如何将df列作为参数传递给函数？

scala、apache-spark

我写了下面的函数 object AgeClassification { def AgeCategory(age:Int) : String = { if(age<=30) return "Young" else if(age>=65) return "Older" else return "Mid-age" } } 我试图将dataframe列作为参数传递。 val df_new = df .withColumn("Age_Category",

浏览 0提问于2019-03-31得票数 1

1回答

带有NullPointerException UTF8String.getBaseObject()“输入”的火花模具为空

java、apache-spark

星星之火3.3.0在Windows 10上使用Java 17的一条简单管道正在崩溃。现在，它给了我以下内容： [ERROR] Job aborted due to stage failure: Task 0 in stage 8.0 failed 1 times, most recent failure: Lost task 0.0 in stage 8.0 (TID 5) (xps-13-9310 executor driver): java.lang.NullPointerException: Cannot invoke "org.apache.spark.unsafe.types

浏览 27提问于2022-09-22得票数 0

回答已采纳