Scala Spark模型转换返回全零

文章/答案/技术大牛

发布

1回答

、、、

首先，我使用apache-spark ml(不是mllib)和scala执行简单的机器学习任务。我的build.sbt如下：version := "1.0"libraryDependencies += "org.apache.spark" %% "spark-core" % "2.1.1" libr

浏览 7提问于2017-07-18得票数 1

回答已采纳

1回答

使用已保存的模型对新数据进行预测时，spark数据帧格式错误

、、、、

我能够训练模型并保存模型(Train.scala)。现在我想使用这个经过训练的模型来预测新数据(Predict.scala)。我是否应该在Train.scala中对Predict.scala文件使用相同的VectorAssembler？因为我在转换后发现了特征数据类型的问题。例如:当我读入训练好的模型并尝试对新的特征化数据进行预测时，我得到了这个错误：[error] found : org.apa

浏览 2提问于2019-08-24得票数 1

1回答

火花强制使用java.lang.Long而不是scala.Long

、

使用匿名reduce加法函数对x进行的单个_+_操作应该会返回一个Long值。scala> sparkx: org.apache.spark.sql.Dataset[Long] = [

浏览 5提问于2021-08-23得票数 1

回答已采纳

2回答

IllegalArgumentException:列的类型必须为struct<type:tinyint，大小为:int、indices:array<int>、values:array<double>>，但实际为双精度。‘

、、

我有一个包含多个分类列的数据帧。我正在尝试使用两列之间的内置函数来查找菱形统计数据：但是，它给出了一个错误： IllegalArgumentException: 'requirement failed: Column feature1 must be of type struct<type:tinyint,size:int,indices:array<in

浏览 1提问于2020-04-06得票数 8

回答已采纳

1回答

将date转换为timestamp，Spark date从unix_timestamp转换为timestamp的问题返回null

、、、、

从unix_timestamp将日期转换为时间戳，将火花日期转换为时间戳的问题返回null。scala> import org.apache.spark.sql.functions.unix_timestamp scala> spark.sql("select from_unixtime(unix_timestamp

浏览 0提问于2018-10-01得票数 2

1回答

定义具有泛型类型和附加参数的UDF

、

我想在scala中定义一个UDF，类似于下面的伪代码： else如果input不是null，则将每个元素强制转换为如果input为null，则返回一个全零向量. 我希望T仅限于数字类型，就像Java中的java.

浏览 0提问于2017-06-30得票数 0

回答已采纳

1回答

json4s scala.MatchError (scala.Tuple2类)

、

我有一个自定义类，我想转换成JSON，但是在这里发现了一个奇怪的错误：Exception in thread "main" scala.MatchError: (0,com.xxx.dts.dq.common.utils.DQOpsStoreProfileStatus$.

浏览 1提问于2015-12-01得票数 2

回答已采纳

1回答

Spark 1.4.0 org.apache.spark.sql.AnalysisException:无法解决给定输入列的“概率”

、

使用'probability'方法对模型进行了适当的训练，但是当使用上面示例中的print语句测试模型时，我得到了以下错误:不存在fit列。 at org.apache.spark.sql.SQLContext$QueryExecution.assertAnalyzed(SQLContext.sca

浏览 4提问于2015-07-17得票数 1

1回答

将JavaObject `scala.collection.Map<Object，RDD<?>>`转换为python字典

、、、、

在pyspark中，调用getPersistentRDDs() Java sparkContext方法将返回scala.collection.Map<Object,RDD<?from pyspark.sql import SparkSessionsc = spark.sparkContext df = <e

浏览 37提问于2019-05-04得票数 1

回答已采纳

1回答

为spark中的pipelinemodel添加路径

、、

我想在spark中为Pipelinemodel添加路径，以便从我的本地文件系统加载模型，但它返回以下异常。import org.apache.spark.ml.PipelineModelat org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat

浏览 43提问于2021-11-14得票数 0

1回答

无法使用build in toLocalIterator()将Spark数据集转换为迭代器

、、

我正在尝试将spark数据集转换为迭代器，以便将数据集写入influxdb。在构造了我想要的数据集之后，我需要将该数据集转换为迭代器，以便传递给influxdb编写器。"download_date" - > downloadDate ) } 返回的数据集如下所示getMeasurementName, gatherTimeMetrics(df).toLocalIterator(), get

浏览 24提问于2019-05-30得票数 1

1回答

在scala映射/trie映射中存储类实例

、、、

我正在开发一个功能来将类(例如spark的训练线性回归模型)存储在一个类似map / trie map的实现中，这样我可以在以后需要的时候检索它。我想出了一种在scala中使用序列化/序列化的代码方法，我将类转换为Array[Bytes]，并将其存储到三元映射中，稍后再检索它。我想知道我是否可以跳过转换，直接将spark模型存储到单个triemap中。

浏览 1提问于2018-05-03得票数 0

2回答

sparkMLlib MinHashLSH必须至少有一个非零条目执行？

我想用Spark MLlib提供的MinHash模型找到重复的文章，然后我遇到了一个异常：“必须至少有1个非零条目。”:760)at org.apache.spark.rdd.RDD.iterator(RDD.scala(RDD.scala:323) at org.apache.spark.rdd.RDD.iterator

浏览 0提问于2018-09-14得票数 1

2回答

星星之火:如果DataFrame有一个模式，DataFrame如何成为Dataset[Row]？

、、、

声称Spark中的DataFrame等同于Dataset[Row]，但是显示DataFrame有一个模式。以博客文章中关于将RDD转换为DataFrame的例子:如果DataFrame与Dataset[Row]相同，那么将RDD转换为DataFrame应该是一样简单的。

浏览 0提问于2016-10-07得票数 6

回答已采纳

1回答

如何将dataframe转换为RDD而不更改分区？

、、

出于某种原因，我必须将RDD转换成dataframe，然后用dataframe做一些事情，但是我的接口是RDD，所以我必须将dataframe转换为RDD，当我使用df.rdd时，分区更改为1，所以我必须使用

浏览 1提问于2017-06-06得票数 0

回答已采纳

1回答

基于行值的Spark选择列

、、、

我有一个全字符串spark dataframe，我需要返回其中所有行都满足特定条件的列。scala> val df = spark.read.format("csv").option("delimiter",",").option("header", "true").option("inferSchemawolf|| chi-mp

浏览 22提问于2020-08-28得票数 0

1回答

当试图用MMLSpark的scala库解释模型时出现异常

、、、

我试图解释我的XGboost模型使用scala的MMLSparks Lime包所做的预测。这是我第一次使用莱姆库，我能够在dataset上执行一个fit操作，当我试图执行转换操作时，程序会以一个异常停止，即“java.lang.ClassCastException: org.apache.spark.ml.linalg.SparseVector无法转换为org.apache.spark.ml.linalg.DenseVector”。

浏览 0提问于2019-08-14得票数 1

回答已采纳

1回答

"main“java.lang.ClassCastException：[Lscala.Tuple2；在Spark* MLlib LDA中不能强制转换为scala.Tuple2*

、、、、

我正在使用Spark 1.3.0 (Scala2.10.X) MLlib LDA算法和Spark Java API。当我试图在运行时从LDA模型中读取文档主题分布时，我遇到了以下问题。"main“java.lang.ClassCastException：[Lscala.Tuple2；不能强制转换为scala.Tuple2DistributedLDAModel

浏览 0提问于2015-07-29得票数 1

1回答

星星之火Python: sortBy导致ValueError: Unicode浮点数()文字太长，无法转换

、、、、

sorted = rdd.sortBy(lambda x: x[1]) at org.apache.spark.rdd.RDD.iterator(RDD.scala:277) at org.apache.s

浏览 3提问于2017-05-22得票数 1

回答已采纳

1回答

为什么Spark结构化流作业在引发异常后仍未终止

、、、

我看到查询被终止，但无法理解为什么驱动程序脚本没有失败并返回非零退出代码 .trigger(Trigger.ProcessingTime((ForeachBatchSink.scala:35) at org.apache.spark.sql.execution.SQLExec

浏览 27提问于2020-05-29得票数 0

点击加载更多