Apache Spark:将列作为Transformer参数传递

文章/答案/技术大牛

发布

1回答

apache-spark、serialization、apache-spark-sql、apache-spark-ml

它会导致序列化问题： Serialization stack:- field (class: my.project.MyTransformer, name: condition, type: class org.apache.spark.sql.Column在我的理解中，Transformer被序列化以分派给executors，因此每个

浏览 17提问于2019-10-16得票数 1

1回答

火花放电管道中的用户定义变压器

python、apache-spark、machine-learning、pyspark、spark-dataframe

我的数据集有一个列，它是一个字符串。因此，在应用管道模型之前，我使用“StringIndexer”将其转换为数字。我的管道只包含两个阶段StringIndexer和ClassificationModel有其他方法可以删除StringIndexer中的实际列吗？谢谢

浏览 0提问于2017-07-19得票数 2

回答已采纳

1回答

参数为动态的火花滞后函数

apache-spark、apache-spark-sql

nullDataFrame df; org.apache.spark.sql.functions.lag但是，如果我将滞后值作为参数传递，它将不起作用： org.apache.spark<

浏览 3提问于2016-09-16得票数 3

2回答

如何用MLlib编写自定义转换器？

scala、apache-spark、apache-spark-sql、apache-spark-mllib

我想在scala中为Spark2.0中的管道编写一个自定义Transformer。到目前为止，我还不清楚copy或transformSchema方法应该返回什么。他们返回null？作为拷贝是正确的吗？当Transformer扩展PipelineStage时，我得出结论，fit调用transformSchema方法。由于我的Transformer应该使用(非常小的)第二个数据集加入数据集，所以我也希望将该数据集存储在序列化管道中。如何将其存储在转换器中，以便正确地使用管道序列化机制？一个简单的转换器是如何

浏览 5提问于2016-11-15得票数 3

回答已采纳

1回答

如何在Spark2.4中加载自定义变压器

java、scala、apache-spark

(ReadWrite.scala:496) at TestTransformerMCVE：import org.apache.spark.sql.types.{StructType} import org.apache.<e

浏览 0提问于2019-04-18得票数 2

回答已采纳

2回答

如何将变量参数传递给我的scala程序？

scala、apache-spark

我是scala spark的新手。这里我有一个单词计数程序，其中我将输入文件作为参数传递，而不是硬编码并读取它。我不知道如何将文件名(在代码中)作为参数传递到我的主类中import org.apache.spark.SparkConf importorg.apache.<

浏览 15提问于2019-07-28得票数 0

2回答

Apache Spark，使用List<?>作为第一个参数的createDataFrame示例

java、apache-spark、apache-spark-sql

有没有人能举例说明一下Spark JavaDoc中提到的public DataFrame createDataFrame(java.util.List<?我有一个JSON字符串列表作为第一个参数传递，因此我将String.class作为第二个参数传递，但它给出了一个错误 java.lang.ClassCastException: org.apache.spark.sql.types.StringType$ ca

浏览 0提问于2016-06-25得票数 4

1回答

不能通过封装火花加载avro -avro_2.11在jar中

apache-spark、avro

；<groupId>org.apache.spark</groupId><version>2.4.4但是，如果我在spark submit命令中添加了--包org.apache.sight:spark_2.11:2.4.4，它就可以工作。 <?--spark-

浏览 5提问于2020-05-08得票数 1

1回答

如何使用spark.catalog.createTable函数创建分区表？

apache-spark

https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.catalog.Catalog 有一个选项参数，但我没有找到任何使用它来传递已分区列的示例

浏览 19提问于2019-01-21得票数 4

2回答

如何将df列作为参数传递给函数？

scala、apache-spark

return "Young" return "Older" return "Mid-age"}但是得到了错误发现

浏览 0提问于2019-03-31得票数 1

1回答

在运行Spark作业时获取Spark提交的参数

apache-spark、log4j

我正在通过spark-submit运行一个spark作业，并使用它的--files参数加载一个log4j.properties文件。在我的Spark工作中，我需要获得这个参数//DriverHolder.log.info

浏览 1提问于2016-07-07得票数 2

1回答

如果Maven坐标必须是'groupId:artifactId:version‘PySpark和Kafka格式的

apache-spark、pyspark、apache-kafka

当将Kafka消息转换为dataframe时，在将包作为参数传递时会出现错误。SparkContextimport os os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages org.apache.spark:spark-sql-kafka-0-10_2.11:2.2.0.jar: org.apache</

浏览 1提问于2020-06-12得票数 2

回答已采纳

1回答

Spark提交中的Json参数

scala、apache-spark、apache-spark-sql、spark-submit

我的spark-submit命令： spark-submit --deploy-mode cluster --class spark_package.import_jar s3://test-system\"\", \"clusterid\": \"test\", \"clientCd\": \"1000\", \"processid\": \"1234\"} }" 在

浏览 18提问于2019-01-12得票数 0

回答已采纳

2回答

需要通过apache* livy提交hudi delta streamer作业的帮助*

apache-spark、amazon-emr、livy、apache-hudi

我对如何将参数作为REST API JSON传递感到有点困惑。考虑下面的spark提交命令。spark-submit --packages org.apache.hudi:hudi-utilities-bundle_2.11:0.5.3,org.apache.spark:spark-avro_=200m \ --conf spark.serializer=org.apache.

浏览 56提问于2021-06-17得票数 0

回答已采纳

1回答

在dataframel中调用具有多个参数的Udf失败

json、scala、dataframe、apache-spark、user-defined-functions

我在Scala和spark sql中工作，在那里我想调用UDF，它有多个参数。for(field <- fields){} 可能我不知道如何在udf或其他地方将字符串作为JSONOBJECT传递。java.lang.ClassCastException: ********$$parseJsonUdf$1 cannot be cast to scala.Fun

浏览 17提问于2020-06-19得票数 0

1回答

在Java中传递多个文件的XSLT

java、xml、xslt、transformation

我需要将两个XML文件传递给XSLT样式表进行转换。引用了一个文件，如下所示：在本例中，XSL生成所需的输出，但我希望从java动态传递此文档conformance);Source ss = new StreamSource(reader)

浏览 1提问于2014-01-24得票数 0

1回答

当将setParameter与节点集一起使用时，会引发异常“从java.lang.String到节点集的无效转换”。

java、xml、xslt

在将XML字符串作为参数传递给XSLT时，我面临一个问题。这会导致异常:从“java.lang.String”到“节点集”的转换无效。这是调用XSLT的方法：=TransformerFactory.newInstance().newTransformer(xslt_file_path然后我得到一个例外：从'com.sun.org.apache.xerces.internal.dom.DeferredDoc

浏览 3提问于2013-08-20得票数 5

1回答

在scala中调用UDF时为何更改数据类型

scala、apache-spark、apache-spark-sql

Math.atan2(Math.sqrt(a), Math.sqrt(1 - a)) distance我需要为df生成一个新列：^ 从模式中可以看到，所有涉及的字段都是double类型，这符合udf的参数类型定义

浏览 1提问于2019-03-13得票数 1

回答已采纳

1回答

管线拟合与数据处理

scala、apache-spark、pipeline

我有一个包含文本的文件。我想做的是使用管道来标记文本，删除停止词并产生2克。步骤1:读取文件步骤2:构建管道val pipe2 = new StopWordsRemover().setInputCol("words").setOut

浏览 1提问于2017-02-19得票数 2

回答已采纳

1回答

如何使用变量作为火花选定字段

scala、apache-spark

我刚接触过scala，有一个有很多列的dataframe，我想选择一些字段，但是每次都必须按照下面的方式列出它们，我如何定义一个变量代表它们并传入scala？

浏览 3提问于2022-03-11得票数 0

回答已采纳

点击加载更多