Spark StringIndexer返回空数据集

、

Apache Spark StringIndexerModel在对特定列进行转换后返回一个空数据集。我正在使用成人数据集：http://mlr.cs.umass.edu/ml/datasets/Adult 步骤1:创建StringIndexerModel并将其保存到本地 StringIndexerModelmodel = new StringIndexer().setInputCol(column).setOutputCol("

浏览 30提问于2019-12-29得票数 0

回答已采纳

1回答

火花:关于句子的StringIndexer

、、、、

我试图在一列句子中做一些StringIndexer的事情，即将单词列表转换为整数列表。例如： (1, ["I", "like", "Spark"])我预期在StringIndexer之后的输出如下： (1,

浏览 3提问于2017-12-06得票数 1

回答已采纳

5回答

火花，ML，StringIndexer:处理看不见的标签

、

我已经构建了一个用于特征提取的管道，它包括一个StringIndexer转换器作为第一步，将每个类名映射到一个标签，这个标签将用于分类器的培训步骤。知道我的测试集文件具有相同的训练集结构。这里可能的场景是在测试集中面对一个看不见的类名，在这种情况下，StringIndexer将找不到标签，并且会引发异常。这个案子有解决办法吗？或者我们怎样才能避免这种情况的发生？

浏览 5提问于2016-01-08得票数 22

回答已采纳

2回答

数据库中的花卉拼花数据集在哪里？

、、、

我试着运行第一行 .select(col("content"),limit(1000) Path does not exist: dbfs:/databricks-datasets/flowers/parquet; 我想知道在哪里可以找到在数据库上的花卉数据集的拼花版

浏览 2提问于2020-12-10得票数 1

回答已采纳

1回答

如何使用StringIndexer生成数值变量？

、、

我希望使用StringIndexer作为对我的数据集中的1000+类别进行排名的一种方法，生成一个表示相对频率的指数。然后，我可以使用这个索引作为我的模型的一个数字特征。不幸的是，默认情况下，StringIndex会存储一些元数据，将索引标记为分类索引，这迫使我的模型将索引用作。有什么方法可以禁用它，这样index变量就可以用作数值变量了吗？编辑:我使用字符串索引器作为ML管道中的一个阶段，因此解决方案需要避免直接操作数据帧。另外，我将保存并加载此管道，因此自定义数据转换器可能不切实际。我怀疑这是不可能

浏览 4提问于2017-04-10得票数 1

1回答

Java :在分类数据情况下为aprroxNearestNeighbor创建关键向量

、、、

我正试图为一个分类数据集寻找近邻。为此，我使用了MinHashLSH模型。我的数据集有分类数据。因此，我使用StringIndexer，然后是OneHotEncoderEstimator，然后是VectorAssembler，将分类值转换为连续值。现在，我希望从我的数据集中为给定的密钥找到最近的邻居，这个键应该是向量形式的。我无法找到将分类键转换为连续向量的方法。new StructField("fruits", DataTypes.StringT

浏览 1提问于2018-05-22得票数 1

回答已采纳

2回答

星星之火ML -从新的数据元素中创建一个特征向量来预测

、、、

tl;dr"elapsed_time", "api_name", "method", and "status_code"

浏览 2提问于2017-04-12得票数 1

回答已采纳

1回答

分类字段的一致索引和分类

、、

假设我有以下Scala代码： (2, "c"), (4, "a"),)).toDF("id", "category") val indexer = new <em

浏览 4提问于2017-05-08得票数 0

回答已采纳

1回答

请参阅StringIndexer

、、

stringIndexer = StringIndexer(inputCol="SPECIES", outputCol="IND_SPECIES") si_model = stringIndexer.fit/spark-1.6.1-bin-hadoop2.6/python/pyspark/ml/pipeline.py"，第69行，fit返回self._fit(数据集)文件"

浏览 2提问于2017-04-21得票数 0

4回答

如果用户if是字符串而不是连续整数，如何使用mllib.recommendation？

、、

但是，我所拥有的用户数据的格式是以下格式：CD234WZ12345GH456XY98765 ....看起来，必须在实际用户ids和Spark使用的数字ids之间进行某种类型的转换。但我该怎么做呢？

浏览 12提问于2015-01-05得票数 13

回答已采纳

1回答

Spark/Scala错误-打印出Logistic回归的混淆矩阵

、、

我在一个数据集上运行逻辑回归，看起来一切正常，但当我要打印出混淆矩阵时，我得到了一个错误，我不确定如何处理。: org.apache.spark.ml.feature.StringIndexer = strIdx_4bd47e3e31c5 VelocityIndexer: org.apache.spark.ml.feature.StringIndexer: org.apache.spark.ml.feature.StringIndexer = strI

浏览 0提问于2016-12-28得票数 2

0回答

在spark 2.0.2中用Java构建kyro编码数据集的决策树管道

、、

我正在尝试从Spark2.0.2 org.apache.spark.examples.ml.JavaDecisionTreeClassificationExample.构建决策树分类示例的一个版本我不能直接使用它，因为它使用libsvm编码的数据。我需要避免libsvm (未记录的AFAIK)，以便更容易地对普通数据集进行分类。我正在尝试调整该示例以使用kyro编码的数据集。示例中的StringIndexer和VectorIndexer，它们无法处理得

浏览 6提问于2016-12-22得票数 1

回答已采纳

1回答

如何从“名字”中获取虚拟变量

、、、、

由于数据集太大(数以百万行)，所以当我在pyspark中使用StringIndexer从名字中获取假人时，我得到了以下错误： org.apache.spark.SparkException: Job abortedtimes, most recent failure: Lost task 0.3 in stage 25.0 (TID 399, 10.139.64.28, executor 2): org.apache.spark.SparkException

浏览 0提问于2021-11-04得票数 1

2回答

PySpark上分类输入的随机森林回归

、、、

pyspark.mllib.linalg import Vectorsfrom pyspark.ml.feature import StringIndexerimport Rowtrain = sqlContext.read.format('com.databricks.spark.csv这是我在这方面的尝试：` from pyspark.ml im

浏览 4提问于2017-09-23得票数 5

1回答

减少Apache spark作业/应用程序的运行时间

、、

我们试图实现一个简单的spark作业，它读取CSV文件(1行数据)，并使用预先构建的随机森林模型对象进行预测。此工作不包括任何数据预处理或数据操作。目前，火花提交的实现大约需要13秒。这是应用程序代码 import org.apache.spark</

浏览 5提问于2016-02-26得票数 3

1回答

org.apache.spark.SparkException:带有TrainValidationSplit的未见标签

、、、

因此，我想要进行参数调优，并且使用TrainValidationSplit进行参数调整会产生以下错误：org.apache.spark.SparkException: Unseen label。就这一点而言，这是守则的一部分：for categoricalCol in categoricalCols: s

浏览 0提问于2017-04-27得票数 0

1回答

Apache应用不存在的标签(看不见的标签例外)

、、、、

我的dataset包含三列字符串，因此我使用StringIndexer将它们转换为数字。不幸的是，在评估过程中，索引器突然发现了数据集中不存在的标签。下面是我的数据集的摘录(最后一列是标签0/1)： Year,Month,DayofMonth,DayOfWeek,DepTime,UniqueCarrier,Origin,Dest,Distance,DepDelay15Minat org.apache.spark.ml.feature.StringIndexerModel$$anonfun$9.a

浏览 0提问于2019-02-20得票数 1

1回答

如何将pyspark-mllib-kmeans应用于分类变量

、、、

有一个巨大的数据文件，由所有分类列组成。在mllib中应用kmeans之前，我需要对数据进行虚拟编码。在pySpark中如何做到这一点呢？谢谢

浏览 0提问于2016-01-10得票数 1

1回答

使用RandomForest的Spark管道在20 ML数据集上花费的时间太长

、、、

我正在使用Spark运行一些ML实验，在一个20 ML的小数据集()和一个带有参数网格的随机森林上，完成它需要1小时30分钟。与此类似，与scikit类似，学习它所需的时间也要少得多。我想这不应该花那么长时间，我想知道这个问题是否存在于我的代码中，因为我对Spark相当陌生。= 'label': stringIndexe

浏览 2提问于2017-07-02得票数 9

回答已采纳

1回答

IllegalArgumentException:在Google DataProc上，您的要求失败:初始容量无效

、、

目前，我正试图在Google DataProc上的Spark2.0.0中运行一个大型数据集(30 mio观测，13个变量)上的ml决策树。当我执行：我收到以下错误： IllegalArgumentException

浏览 0提问于2016-08-25得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

火花:关于句子的StringIndexer

火花，ML，StringIndexer:处理看不见的标签

数据库中的花卉拼花数据集在哪里？

如何使用StringIndexer生成数值变量？

Java :在分类数据情况下为aprroxNearestNeighbor创建关键向量

星星之火ML -从新的数据元素中创建一个特征向量来预测

分类字段的一致索引和分类

请参阅StringIndexer

如果用户if是字符串而不是连续整数，如何使用mllib.recommendation？

Spark/Scala错误-打印出Logistic回归的混淆矩阵

在spark 2.0.2中用Java构建kyro编码数据集的决策树管道

如何从“名字”中获取虚拟变量

PySpark上分类输入的随机森林回归

减少Apache spark作业/应用程序的运行时间

org.apache.spark.SparkException:带有TrainValidationSplit的未见标签

Apache应用不存在的标签(看不见的标签例外)

如何将pyspark-mllib-kmeans应用于分类变量

使用RandomForest的Spark管道在20 ML数据集上花费的时间太长

IllegalArgumentException:在Google DataProc上，您的要求失败:初始容量无效

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐