如何在Scala中将Spark密集向量转换为带有索引的独立列？

在Scala中，可以使用Spark的VectorIndexer类将密集向量转换为带有索引的独立列。VectorIndexer是一个特征转换器，它可以自动识别输入向量中的分类特征，并将其编码为具有索引的独立列。

下面是一个完整的示例代码，展示了如何使用VectorIndexer将密集向量转换为带有索引的独立列：

import org.apache.spark.ml.feature.VectorIndexer
import org.apache.spark.ml.linalg.Vectors
import org.apache.spark.sql.SparkSession

// 创建SparkSession
val spark = SparkSession.builder()
  .appName("VectorIndexerExample")
  .getOrCreate()

// 创建示例数据集
val data = Seq(
  (0, Vectors.dense(1.0, 0.0, 3.0)),
  (1, Vectors.dense(2.0, 1.0, 0.0)),
  (2, Vectors.dense(3.0, 2.0, 1.0))
)

val df = spark.createDataFrame(data).toDF("id", "features")

// 创建VectorIndexer实例
val indexer = new VectorIndexer()
  .setInputCol("features")
  .setOutputCol("indexedFeatures")
  .setMaxCategories(2) // 设置最大类别数，超过该数目的特征将被视为连续特征

// 拟合数据集并进行转换
val indexedData = indexer.fit(df).transform(df)

// 打印转换结果
indexedData.show()

在上述代码中，首先创建了一个SparkSession对象，然后定义了一个包含特征向量的示例数据集。接下来，创建了一个VectorIndexer实例，并设置了输入列名、输出列名以及最大类别数。最后，通过调用fit方法拟合数据集并进行转换，将结果存储在indexedData中，并使用show方法打印转换结果。

需要注意的是，VectorIndexer适用于处理密集向量，如果要处理稀疏向量，可以使用VectorIndexer的setHandleInvalid("keep")方法来处理缺失值。

推荐的腾讯云相关产品和产品介绍链接地址如下：

腾讯云Spark服务：https://cloud.tencent.com/product/spark
腾讯云机器学习平台：https://cloud.tencent.com/product/tiia
腾讯云数据仓库ClickHouse：https://cloud.tencent.com/product/ch
腾讯云人工智能开发平台：https://cloud.tencent.com/product/ai
腾讯云物联网平台：https://cloud.tencent.com/product/iotexplorer
腾讯云移动开发平台：https://cloud.tencent.com/product/mobdev
腾讯云对象存储COS：https://cloud.tencent.com/product/cos
腾讯云区块链服务：https://cloud.tencent.com/product/tbaas
腾讯云元宇宙服务：https://cloud.tencent.com/product/tmu

页面内容是否对你有帮助？

有帮助

没帮助

使用ML管道进行字符串匹配时抛出错误，无法执行用户定义的函数($anonfun$1：(vector) => array<vector>)

、、

我正在尝试对两个数据帧进行字符串匹配。假设dataframe1包含X个句子和dataframe2 Y个句子。我需要检查一下，Dataframe1中的任何句子都与Dataframe2匹配。我正在尝试使用ML管道，如下所示： def match_names(df_1, df_2): pipeline = Pipeline(stages=[ RegexTokenizer( pattern="", inputCol="name", outputCol="tokens", minTokenLength=1

浏览 2提问于2019-04-11得票数 1

1回答

将函数应用于rowMatrix的所有元素

、、

我有rowMatrix xw scala> xw res109: org.apache.spark.mllib.linalg.distributed.RowMatrix = org.apache.spark.mllib.linalg.distributed.RowMatrix@8e74950 我想对它的每一个元素应用一个函数： f(x)=exp(-x*x) 矩阵元素的类型可以可视化为： scala> xw.rows.first res110: org.apache.spark.mllib.linalg.Vector = [0.008930720313311474,0.017169

浏览 8提问于2015-02-10得票数 2

回答已采纳

1回答

Apache火花MLLib -运行带IDF向量的KMeans . Java堆空间

、、、、

我正在尝试从(大型)文本文档集合()上运行一个KMeans在MLLib上。文档通过Lucene分析器发送，稀疏向量由HashingTF.transform()函数创建。无论我使用的并行化程度如何(通过合并函数)，KMeans.train总是在下面返回一个OutOfMemory异常。对如何解决这个问题有什么想法吗？ Exception in thread "main" java.lang.OutOfMemoryError: Java heap space at scala.reflect.ManifestFactory$$anon$12.newArray(Manifest.sca

浏览 0提问于2014-10-19得票数 4

1回答

基于K均值算法的RDD [向量]综合控制数据集的转换

、、

我试图转换“合成控制图时间序列数据集”在Uci机器学习。下一个是数据集的外观。 28.7812 34.4632 31.3381 31.2834 28.9207 33.7596 25.3969 27.7849 35.2479 27.1159 32.8717 29.2171 36.0253 32.337 34.5249 32.8717 34.1173 26.5235 27.6623 26.3693 25.7744 29.27 30.7326 29.5054 33.0292 25.04 28.9167 24.3437 26.1203 34.9424 25.0293 26.6311 35.

浏览 1提问于2016-06-07得票数 2

回答已采纳

1回答

Spark和MongoDB在Scala2.10Maven构建错误中的应用

、、、、

我想为Spark和MongoDB构建一个带有maven依赖项的Scala应用程序。我使用的Scala版本是2.10。我的pom看起来是这样的(遗漏了无关的部分)： <properties> <maven.compiler.source>1.6</maven.compiler.source> <maven.compiler.target>1.6</maven.compiler.target> <encoding>UTF-8</encoding> <scala.tools.ve

浏览 4提问于2016-11-01得票数 0

回答已采纳

1回答

Apache Spark在多节点hadoop集群中的应用

、、、

嗨，我正在使用从hive中获取数据。此代码在hadoop单节点集群中工作。但是，当我试图在hadoop多节点集群中使用它时，它会将错误抛出 org.apache.spark.SparkException: Detected yarn-cluster mode, but isn't running on a cluster. Deployment to YARN is not supported directly by SparkContext. Please use spark-submit. 注:我已使用主机作为本地单节点，纱线集群用于多节点. 这是我的java代码 SparkCo

浏览 0提问于2015-08-04得票数 1

回答已采纳

1回答

将[(Int，Seq[Double])] RDD转换为LabeledPoint

、、

我有以下格式的RDD，并希望将其转换为LabeledPoint RDD，以便在mllib中处理它： Test: RDD[(Int, Seq[Double])] = Array((1,List(1.0,3.0,8.0),(2,List(3.0, 3.0,8.0),(1,List(2.0,3.0,7.0),(1,List(5.0,5.0,9.0)) 我试过用地图 import org.apache.spark.mllib.linalg.{Vector, Vectors} import org.apache.spark.mllib.regression.LabeledPoint Test.map(x

浏览 3提问于2016-03-14得票数 1

回答已采纳

1回答

OneHotEncoder在流水线数据仓库中的应用

、、、、

我一直在尝试用在Scala中运行一个示例。使用Scala2.11.8和Spark1.6.1。问题(就目前而言)在于数据集中的分类特征的数量，所有这些特征都需要编码成数字，才能完成Spark算法的工作。到目前为止我有这样的想法： import org.apache.spark.ml.Pipeline import org.apache.spark.ml.classification.LogisticRegression import org.apache.spark.ml.feature.OneHotEncoder import org.apache.spark.sql.SQLContex

浏览 1提问于2016-06-02得票数 6

回答已采纳

2回答

训练时触发随机森林索引界异常

、、、

我试图运行MLLIB的随机森林模型，并获得一些超出界限的异常： 15/09/15 01:53:56 INFO scheduler.DAGScheduler: ResultStage 5 (collect at DecisionTree.scala:977) finished in 0.147 s 15/09/15 01:53:56 INFO scheduler.DAGScheduler: Job 5 finished: collect at DecisionTree.scala:977, took 0.161129 s 15/09/15 01:53:57 INFO rdd.MapPartiti

浏览 4提问于2015-09-15得票数 0

回答已采纳

1回答

带有时间戳字段的Elasticsearch & Spark写入错误

、、

我需要一种方法来将下面的时间戳写入Elasticsearch，而不会在错误消息上出现错误。下面的代码读取JSON文件，然后写入Elasticsearch。我的代码： import org.apache.spark.sql.types._ val schemaDF = spark.read.json("/tmp/LTPD/schema.json") schemaDF.printSchema() val schema = schemaDF.schema //read from JSON file val streamingDF = spark .rea

浏览 59提问于2020-03-25得票数 1

1回答

spark executor丢失故障

、、、

我正在使用databricks spark集群(AWS)，并在我的scala实验上进行测试。在使用LogisticRegressionWithLBFGS算法训练10 GB数据时，我遇到了一些问题。我遇到这个问题的代码块如下： import org.apache.spark.mllib.classification.LogisticRegressionWithLBFGS val algorithm = new LogisticRegressionWithLBFGS() algorithm.run(training_set) 首先，我遇到了很多executor lost failure和java

浏览 1提问于2015-04-11得票数 13

1回答

提取要素列将生成(numberOfFeatures，Array[nonZeroFeatIndexes]，Array[nonZeroFeatures])，而不是这些列的数组

、、

我使用Spark MLLib和Scala来加载csv文件，并转换特征向量中的特征，以使用它来训练一些模型；为此，我使用以下代码： // Loading the data val rawData = spark.read.option("header", "true").csv(data) // id, feat0, feat1, feat2,... val rawLabels = spark.read.option("header", "true").csv(labels) // id, label val rawD

浏览 12提问于2020-07-06得票数 0

回答已采纳

2回答

将稀疏特征向量分解为单独的列

、、、、

在我的spark DataFrame中，有一列包含了CountVectoriser转换的输出-它是稀疏向量格式的。我想要做的是将这列再次“分解”成一个密集的向量，然后是它的组成部分行(这样它就可以用于外部模型的评分)。我知道本专栏中有40个特性，因此在下面的示例中，我尝试了： import org.apache.spark.sql.functions.udf import org.apache.spark.mllib.linalg.Vector // convert sparse vector to a dense vector, and then to array<double&g

浏览 12提问于2018-01-30得票数 2

回答已采纳

2回答

如何使用Spark写入PostgreSQL hstore

、、、、

我正在尝试将星火数据集写入现有的postgresql表中(不能像列类型一样更改表元数据)。这个表中的一个列是类型的，它造成了麻烦。在启动写入时，我看到了以下异常(此处原始映射为空，转义时为空字符串)： Caused by: java.sql.BatchUpdateException: Batch entry 0 INSERT INTO part_d3da09549b713bbdcd95eb6095f929c8 (.., "my_hstore_column", ..) VALUES (..,'',..) was aborted. Call getNextExc

浏览 4提问于2016-12-05得票数 7

回答已采纳

1回答

Spark RowMatrix columnSimilarities保留原始索引

、、、、

我有以下Scala星火DataFrame df of (String, Array[Double])：注意，id是String类型( base64哈希) id, values "a", [0.5, 0.6] "b", [0.1, 0.2] ... 数据集相当大(45k)，为了提高性能，我希望使用org.apache.spark.mllib.linalg.distributed.RowMatrix执行一对余弦相似性。这是可行的，但由于索引已经变成整数(输出列i和j)，所以我无法识别成成对的相似之处。如何使用IndexedRowMatrix保存原始索引？ val r

浏览 0提问于2019-02-12得票数 1

3回答

KMeans.train中的Spark - IllegalArgumentException

、

我在KMeans.train()内部遇到一个异常，如下所示： java.lang.IllegalArgumentException: requirement failed at scala.Predef$.require(Predef.scala:212) at org.apache.spark.mllib.util.MLUtils$.fastSquaredDistance(MLUtils.scala:487) at org.apache.spark.mllib.clustering.KMeans$.fastSquaredDistance(KMeans.scala:589) a

浏览 0提问于2017-10-27得票数 4

1回答

为什么在Python中更改列名时，结果结构会发生变化？

、、

我的数据dff是这样的 10311 105903003 373873005 385055001 392521001 ... 26 27 28 29 30 0 21.0 5.0 5.0 21.0 8.0 ... 0 0 0 0 1 1 0.0 3.0 3.0 0.0 6.0 ... 0 0 0 0 1 2 32.0 8.0 8.0 3

浏览 2提问于2020-06-03得票数 2

回答已采纳

1回答

无法连接到远程Apache-火花

、、

我是新手，在尝试从本地机器连接到远程服务器时遇到了一些问题，远程服务器包含一个Spark工作实例。我成功地使用将vis隧道连接到该服务器，但我得到了以下错误：线程"main“java.lang.NoSuchMethodError中的异常: scala.Predef$.$scope()Lscala/xml/TopScope$；在org.apache.spark.ui.jobs.AllJobsPage.(AllJobsPage.scala:39) at org.apache.spark.ui.jobs.JobsTab.(JobsTab.scala:38) at org.apache.

浏览 8提问于2017-06-29得票数 0

回答已采纳

1回答

获取java.lang.IllegalArgumentException:从java应用程序调用Sparks StreamingKMeans时要求失败

、、、、

我是Spark和MLlib的新手，我试图从我的java应用程序中调用StreamingKMeans，但我得到了一个我似乎不理解的异常。下面是我用来转换训练数据的代码： JavaDStream<Vector> trainingData = sjsc.textFileStream("/training") .map(new Function<String, Vector>() { public DenseVector call(String line) throws Exception {

浏览 1提问于2015-06-10得票数 6

3回答

Spark action坚持使用EOFException

我正在尝试执行一个带有卡住的Spark的动作。相应的执行器抛出以下异常： 2019-03-06 11:18:16 ERROR Inbox:91 - Ignoring error java.io.EOFException at java.io.DataInputStream.readFully(DataInputStream.java:197) at java.io.DataInputStream.readUTF(DataInputStream.java:609) at java.io.DataInputStream.readUTF(DataInputStream.java:564) at

浏览 33提问于2019-03-06得票数 2

回答已采纳

1回答

火花数据挖掘中处理Spacy文档向量的错误

、、、

我在AWS上使用Spacy预训练的大型模型生成的文档向量时遇到了非常糟糕的时间。当我将文档向量放入一个dataframe中时，问题就开始了。例如，这段代码对我来说很好： # Load infrastructure libraries import pandas as pd import numpy as np # Load NLP libraries and tools import spacy # Prepare the Spacy NLP parsers nlp = spacy.load('en_core_web_lg') # Load Spark from pys

浏览 9提问于2022-09-19得票数 2

1回答

广播变量不可序列化的SparkException任务(版本1.5.2)

我有过 scala> sks res32: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[10] at filter at <console>:45 scala> sks2 res33: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[15] at map at <console>:45 `scala> sks.collect res22: Array[String] = Array(javascript, java, pyth

浏览 0提问于2016-01-13得票数 0

回答已采纳

1回答

当我在结构化流中使用流静态连接之前使用聚合时，引发: java.util.NoSuchElementException: None.get错误

、、、、

import org.apache.spark._ import org.apache.spark.rdd._ import org.apache.spark.storage.StorageLevel._ import org.apache.spark.sql._ import org.apache.spark.sql.types._ import org.apache.spark.sql.functions._ import org.apache.spark.sql.functions.{ broadcast => infabroadcast } import java.io._ im

浏览 0提问于2018-08-24得票数 1

回答已采纳

2回答

Apache spark在使用master运行时不断抛出错误

、、

我在集群模式下使用Apache Spark，有一个主节点和3个从节点(这4台机器都是同一Lan中的不同虚拟机)。配置成功后，我可以在spark web ui中看到我的工作节点和主节点我使用的是Python 2.7和spark 1.4.1 但真正的问题是，当我试图用master运行spark时(在本例中我使用的是PySpark)，它不断地在python控制台中记录错误。我能够捕获日志，但没有从这些日志中找到任何线索。我将我的日志粘贴在这里以供参考 ubuntu@MyCareerVM1:/usr/local/spark$ MASTER=spark://192.168.1.81:707

浏览 6提问于2016-03-29得票数 0

2回答

如何在Scala Spark中将稠密矩阵转换为rdd？

、

我有密集矩阵： -0.1503191229976037 -0.17794560268465542 0.3372516173766848 -0.6265768782935162 -0.6986084179343495 -1.6553741696973772 如何将其转换为RDD格式： 0, 0, -0.1503191229976037 0, 1, -0.17794560268465542 0, 2, 0.3372516173766848 1, 0, -0.6265768782935162 1, 1, -0.6986084179343495 1, 2, -1.6553741696973772 前两

浏览 0提问于2018-04-11得票数 0

1回答

在没有UDF的星火中，DataFrame的两个向量列之间的点积

、

让我们考虑一个带有2列的星火DataFrame，每个列都是向量类型的。有没有一种不涉及UDF的方法来计算它们之间的点积？我正在使用Spark2.4(在DataBricks上，如果有涉及到它们的高阶函数的解决方案)

浏览 1提问于2018-12-21得票数 1

回答已采纳

1回答

添加稀疏向量3.0.0

、、、

我试图创建一个函数，如下所示，以添加two org.apache.spark.ml.linalg.Vector。即两个稀疏向量该向量可以如下所示 (28,[1,2,3,4,7,11,12,13,14,15,17,20,22,23,24,25],[0.13028398104008743,0.23648605632753023,0.7094581689825907,0.13028398104008743,0.23648605632753023,0.0,0.14218861229025295,0.3580566057240087,0.14218861229025295,0.130283981040

浏览 2提问于2020-08-07得票数 0

回答已采纳

1回答

如何编写(保存)包含向量列的PySpark数据？

、、、

在使用ML管道对PySpark数据进行转换之后，我试图保存它。但是当我保存它时，奇怪的错误每次都会被触发。下面是这个dataframe的列：下面的错误发生在我试图将dataframe写成parquet文件格式时：我尝试使用与不同的可用winutils来实现Hadoop，但运气不太好。请在这方面帮助我。如何保存此数据，以便在任何其他jupyter笔记本文件中读取？随时可以问任何问题。注意:我还试图保存简单的CSV，该文件不包含向量数据，但仍然存在相同的错误。编辑：，我也尝试保存数组数据，但是再次遇到相同的错误。它可以在以下图像中看到：谢谢完整的错误消息可以在这里看到

浏览 16提问于2022-08-05得票数 1

回答已采纳

1回答

将DataFrame保存到蜂巢时触发Scala错误

、、、、

我通过组合多个数组来构造一个DataFrame。我试图将它保存到一个蜂巢表中，我得到了ArrayIndexOutofBound异常。下面是我得到的代码和错误。我尝试在主def外部和内部添加case类，但仍然得到了相同的错误。 import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.{Row, SQLContext, DataFrame} import org.apache.spark.ml.feature.RFormula import java.text._ import java.util.

浏览 6提问于2016-05-12得票数 1

回答已采纳

1回答

带有火花的Deeplearning4j :用JavaRDD<DataSet>进行SparkDl4jMultiLayer评估

、、

我是星火公司的新手，目前我正在尝试使用deeplearning4j api构建一个神经网络。培训效果很好，但我在评估方面遇到了问题。我收到以下错误消息 18:16:16,206 ERROR ~ Exception in task 0.0 in stage 14.0 (TID 19) java.lang.IllegalStateException: Network did not have same number of parameters as the broadcasted set parameters at org.deeplearning4j.spark.impl.multilayer.

浏览 4提问于2016-08-05得票数 0

2回答

将Dockerfile中的Entrypoint的项目目录设置为Workdir

、、、、

我已经定义了一个带有Spark安装的Dockerfile。我希望从作为入口点定义的bash脚本加载我的应用程序。但是，这个脚本应该用参数来实现。此脚本位于项目文件夹中。问题是如何将此脚本设置为入口点，并将项目目录定义为workdir？我的Dockerfile现在看起来是这样的： FROM java:8 ENV SCALA_VERSION 2.11.8 ENV SBT_VERSION 1.1.1 ENV SPARK_VERSION 2.2.0 ENV SPARK_DIST spark-$SPARK_VERSION-bin-hadoop2.6 E

浏览 1提问于2018-06-01得票数 0

回答已采纳

1回答

Pyspark & conda：“DGEMV”参数编号6有一个非法值

、、、

电火花3.2：(通过conda安装) 刚刚升级，现在我得到：java.lang.IllegalArgumentException: ** On entry to 'DGEMV' parameter number 6 had an illegal value Driver stacktrace: at org.apache.spark.scheduler.DAGScheduler.failJobAndIndependentStages(DAGScheduler.scala:2403) at org.apache.spark.scheduler.DA

浏览 16提问于2022-07-03得票数 0

1回答

如何利用PySpark对图像进行预处理？

、、、、

我有一个项目，我需要建立一个大数据体系结构(AWS S3 + SageMaker)概念的证明: 1)使用PySpark对图像进行预处理；2) 执行PCA；3) 训练一些机器或深度学习模型。我的问题是了解如何使用PySpark处理图像数据，无法提供满意的在线答案。因此，我认为任何答案/暗示都能吸引像我这样的初学者的广泛兴趣。类似的线程仍未回答. 如下所示，您可以找到我到目前为止尝试过的内容(在木星笔记本上使用Python3.8)： Creating火花会话与我的AWS S3的凭据 from pyspark.sql import SparkSession import sagemaker_pys

浏览 3提问于2021-09-16得票数 3

1回答

Spark无法读取由AvroParquetWriter写入的拼图文件中的十进制列

、、、

我有一些拼图文件写使用AvroParquetWriter (从卡夫卡连接S3连接器)。文件aseg_lat中的一列具有模式DECIMAL(9, 7)。我可以使用PyArrow和PrestoSQL很好地阅读这篇专栏文章。尝试通过在AWS EMR上运行的Spark 3.0.0读取它时，我收到以下错误： scala> var df2 = df.select("aseg_lat") df2: org.apache.spark.sql.DataFrame = [aseg_lat: decimal(9,7)] scala> df2.show() 20/08/25 12

浏览 106提问于2020-08-25得票数 2

回答已采纳

2回答

在Spark 2.4中做基础线性代数

、、

Spark 2.4是否有支持基本线性代数运算的Vector和Matrix类，如点积、范数、矩阵和向量乘法？我在向量、DenseVector或RowMatrix这样的类中找不到任何线性代数支持。老版本的Spark有org.jblas.DoubleMatrix，但在Spark 2.4中不存在，我也找不到他们用什么取代了它。我在哪里可以找到spark 2.4中线性代数的例子？我不需要RDDs来满足我当前的需要(余弦相似性)。

浏览 57提问于2019-02-04得票数 3

4回答

在IntelliJ Idea中运行Apache示例应用程序

、、

我试图在Netbeans中运行SparkPi.scala示例程序。不幸的是，我对星火还很陌生，没有能够成功地执行它。我倾向于只在Netbeans中工作，然后在那里执行。我知道火花也允许从火花控制台执行-但我不喜欢采取这种方法。这是我的build.sbt文件内容： name := "SBTScalaSparkPi" version := "1.0" scalaVersion := "2.10.6" libraryDependencies += "org.apache.spark" %% "spark-core

浏览 4提问于2016-03-25得票数 3

回答已采纳

1回答

带有timestampFormat选项的pyspark导入csv

、、

我正在尝试导入CSV文件，其时间戳字段显示为："12/08/16 13:02:22“ 代码： df = sqlContext.read.format('com.databricks.spark.csv').options(header="false", timestampFormat='MM/dd/yy hh:mm:ss').schema(schema).load('/home/spark/Data/mdi_*.csv')\ 然而，我得到了一个奇怪的java.lang.NullPointException，如下所示。任何帮

浏览 0提问于2016-12-15得票数 1

1回答

流K-意为Scala:获取输入字符串的java.lang.NumberFormatException

、、、

当我从一个包含双值的目录读取CSV数据并在其上应用流式K-均值模型时，如下所示， //CSV文件 40.729，-73.9422 40.7476，-73.9871 40.7424，-74.0044 40.751，-73.9869 40.7406，-73.9902 . //SBT依赖关系：名称:=“应用程序名称” 版本:= "0.1“ scalaVersion := "2.11.12“ val sparkVersion ="2.3.1“ libraryDependencies ++= Seq( "org.apache.spark“%%”火花核心“% s

浏览 0提问于2018-07-24得票数 0

回答已采纳

1回答

火花流作业不可恢复

、

我使用的是火花流作业，它使用带有初始RDD的mapWithState。当重新启动应用程序并从检查点恢复时，它将失败，错误如下：这个RDD缺少一个SparkContext。这种情况可能发生在以下情况： RDD转换和操作不是由驱动程序调用的，而是在其他转换中调用的；例如，rdd1.map(x => rdd2.values.count() * x)无效，因为值转换和计数操作不能在rdd1.map转换中执行。有关更多信息，请参见火花-5063。当火花流作业从检查点恢复时，如果在DStream操作中使用对流作业未定义的RDD的引用，则会触发此异常。有关更多信息，请参见火花-13758。

浏览 12提问于2017-06-23得票数 12

2回答

sparkMLlib MinHashLSH必须至少有一个非零条目执行？

我想用Spark MLlib提供的MinHash模型找到重复的文章，然后我遇到了一个异常：“必须至少有1个非零条目。” 我相信它是由val featurizedData = mh.transform(tmp).cache()触发的。但我真的不明白哪里出了问题。代码： val data = spark.read.format("jdbc"). option("url", "jdbc:mysql://localhost/test"). option("dbtable", "article"). opt

浏览 0提问于2018-09-14得票数 1

2回答

星星之火:如何将List<RDD>与RDD结合

、、

我对spark和scala语言非常陌生，我希望将列表中的所有RDDs合并如下(List<RDD> to RDD)： val data = for (item <- paths) yield { val ad_data_path = item._1 val ad_data = SparkCommon.sc.textFile(ad_data_path).map { line => { val ad_data = new AdData(line) (ad_

浏览 6提问于2015-05-25得票数 8

回答已采纳

1回答

火花/ Wiremock:番石榴版本冲突

、、、

在Spark应用程序(v2.3.3)中，我想使用scala测试中的Wiremock。我使用以下依赖项： "org.apache.spark" %% "spark-sql" % "2.3.3" % "provided" "org.apache.spark" %% "spark-mllib" % "2.3.3" % "provided" "com.github.tomakehurst" % "wiremock" % "2.25.1&

浏览 3提问于2019-11-14得票数 2

1回答

如何在PySpark中配置PyCharm？我有个问题

、、

我在PyCharm中配置PyCharm有问题。我使用的是: Java 1.0_311，Python3.10.1，Spark-3.2.0bin-hadoop3.2。我遵循了本教程：我的代码是： from pyspark.sql import SparkSession spark=SparkSession.builder.master("local[*]").appName("SparkExamples.com").getOrCreate() rdd=spark.sparkContext.parallelize([1,2,3,4,5,6]) print(rd

浏览 16提问于2022-01-07得票数 -1

1回答

如何使用PySpark执行一次热编码

、

我在将多个列从分类转换为数值时遇到了问题。我使用的是PySpark，但我确信问题不在于我使用的spark版本。当使用一个列时，没有问题，但我在转换多个列时遇到了问题。下面是代码，没有遗漏的值： from pyspark.ml import Pipeline from pyspark.ml.feature import StringIndexer, OneHotEncoder, VectorAssembler categorical_columns= ['age','job', 'marital','education',

浏览 42提问于2019-04-30得票数 0

1回答

Pyspark: k表示模型拟合时的聚类误差

、、、、

虽然运行K意味着使用pyspark进行集群，但我使用以下代码行来查找最佳K值。但是在模型拟合线上经常会出现一些错误。预处理阶段包括去除NAs和标记编码， from pyspark.sql.functions import when,col #Encode column "Potential" from dataframe df high = list(range(86,101)) middle = list(range (71, 86)) low = list(range(56, 71)) very_low = list(range(45,56)) #checking

浏览 47提问于2020-06-01得票数 1

回答已采纳

1回答

spark_apply错误: org.apache.spark.sql.AnalysisException:引用'id‘是模棱两可的

、、、

我试图在星火集群上使用spark_apply来计算按两列分组的数据的kmeans。数据是从蜂巢中查询的，如下所示 > samplog1 # Source: lazy query [?? x 6] # Database: spark_connection id time1 latitude longitude timestamp hr <chr> <dbl> &l

浏览 1提问于2017-11-08得票数 0

回答已采纳

2回答

火花急流不加载( CSV不支持文件格式错误，拼板没有错误)

、、

我正在使用一个带有2xNVidia A100 GPU的Ubuntu20.04.4服务器。Spark (3.3.0)正常工作，但是当我试图通过RAPIDS使用GPU时，它只是一直在等待，而没有加载数据。我试着以CSV和parquet文件的形式加载数据，但是失败了。我正在调用GPU的当前方式如下所示，尽管我尝试了许多在互联网上可以找到的组合。我还使用spark-submit提交作业，这导致了如下所示的问题。如能帮助纠正这些错误，我将不胜感激。 $ nvidia-smi Mon Aug 8 17:00:05 2022 +---------------------------------------

浏览 7提问于2022-08-08得票数 0

回答已采纳

1回答

spark中按键分组的数组求和(Scala)

、

我有以下DataFrame： [info] root [info] |-- id: integer (nullable = true) [info] |-- vec: array (nullable = true) [info] | |-- element: double (containsNull = false) [info] +----+--------------------+ [info] | id| vec| [info] +----+--------------------+ [info] | 59|[-0.17827, 0.417

浏览 0提问于2018-11-29得票数 1

回答已采纳

4回答

UnsatisfiedLinkError:在Intellij中运行火花MLLib单元测试时，java.library.path中没有snappyjava

、、、

当运行需要快速压缩的火花单元测试时，会出现以下异常： java.lang.reflect.InvocationTargetException at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccess

浏览 6提问于2015-05-04得票数 12

回答已采纳

1回答

无法通过星火+ Scala连接远程Cassandra

、、、、

在使用Apache-和Scala连接到远程的Cassandra时，我遇到了一些麻烦。过去，我以同样的方式成功地与MongoDb进行了连接。这一次，我真的不明白为什么会出现以下错误：在{127.0.0.1}:9042处打开到Cassandra的本机连接失败我想这是一个依赖和版本问题，但是我无法找到任何与这个问题相关的东西，无论是在文档上还是在其他问题上。实际上，我使用通过ssh隧道连接到我的服务器，一切都很好。然后，我就可以使用SparkConnectionFactory.scala成功地连接到本地apache火花。 package connection import org.

浏览 0提问于2017-07-18得票数 2

回答已采纳