PySpark:如何使用`StringIndexer`对字符串数组列进行标签编码_使用RStudio和Knitr，如何对特定列进行可变颜色编码？_如何使用零宽度隐写术对字符串进行编码 - 腾讯云开发者社区

python、pandas、numpy、apache-spark、pyspark

StringIndexer将标签的字符串列编码为标签索引的列。b | 2.0 3 | a | 0.0 5 | c | 1.0 如何在不使用pyspark.ml.feature StringIndexer的情况下在python中实现这一点？

浏览 0提问于2018-05-03得票数 0

1回答

PySpark:如何使用`StringIndexer`对字符串数组列进行标签编码

dataframe、apache-spark、pyspark、apache-spark-sql

我们知道，我们可以在字符串列中通过StringIndexer来做LabelEncoder()，但是如果想在字符串数组列上做LabelEncoder()，实现起来并不容易。

浏览 42提问于2020-07-16得票数 0

回答已采纳

1回答

Scala - MaxBins错误-决策树-范畴变量

scala、apache-spark、machine-learning、decision-tree

使用的地图功能： val monthday = flight.dofM.toInt - 1 // category

浏览 1提问于2017-11-20得票数 0

3回答

列变换后的Pyspark随机森林特征重要性映射

apache-spark、pyspark、apache-spark-sql、apache-spark-mllib

因为我也有文本分类变量和数字变量，所以我不得不使用管道方法，这种方法类似于- 使用向量汇编程序创建包含特征向量的特征列。#编码器=“索引”，outputCol=categoricalCol + "classVec")编码器= OneHotEncoderE

浏览 1提问于2018-06-19得票数 4

1回答

如何解释星火OneHotEncoder的结果

python、apache-spark、pyspark、one-hot-encoding

我从星火博士那里读了OHE的条目， from pyspark.ml.feature import OneHotEncoder, StringIndexer df = sqlContext.createDataFrameS

浏览 2提问于2017-02-17得票数 15

回答已采纳

1回答

在Spark中从管道内的StringIndexer阶段获取标签(pyspark)

python、apache-spark、pyspark

我使用Spark和pyspark，并使用一组StringIndexer对象设置了一个pipeline，我使用这些对象将字符串列编码为索引列： indexers = [StringIndexer(inputCol对象安装好之后获得它的标签列表。对于没有管道的单个列和单个StringIndexer，这是一项简单的任务。，这似乎是不可能的，或者至少我不知道如何做到这一点

浏览 4提问于2017-08-25得票数 9

回答已采纳

1回答

如何使用OneHotEncoder设置Spark ML逻辑回归中的参考水平

apache-spark、pyspark、one-hot-encoding

我正在使用Spark2.1在PySpark中工作，以准备我的数据来构建逻辑回归。我的数据中有几个字符串变量，我想将最频繁的类别设置为参考级别。我首先使用StringIndexer将字符串列编码为标签索引，我知道这些索引是按照标签频率排序的，其中接收索引0的频率最高。stringIndexer = StringIndexer(inputCol='income_grp', outpu

浏览 0提问于2018-05-11得票数 3

2回答

嵌套数组中的PySpark反转StringIndexer

python、apache-spark、pyspark、apache-spark-sql、apache-spark-ml

我使用PySpark来使用ALS进行协作过滤。我的原始用户和条目id是字符串，所以我使用StringIndexer将它们转换为数字索引(PySpark的ALS模型要求我们这样做)。在我对模型进行了拟合之后，我可以为每个用户获得以下3条建议： model)+--{ "produ

浏览 4提问于2017-08-20得票数 6

回答已采纳

1回答

与流水线PySpark匹配时，输出列已经存在错误

apache-spark、machine-learning、pyspark、one-hot-encoding

我试图在PySpark中创建一个管道，以便为随机森林准备我的数据。我使用的是Spark2.2 (2.2.0.2.6.4.0-91)。我的数据不包含空值。我识别了分类栏和数字栏。我正在对分类列进行编码，并定义我的标签(选项‘’vae‘)。然后，我使用VectorAssembler为我的特性获取一个向量列。在流水线中，经过拟合和转换，我应该得到一个带有标签列和特征(向量)列的火花数据。不幸的是，在安装

浏览 4提问于2020-06-24得票数 3

1回答

使用索引器和编码器时出现PySpark管道错误

python、apache-spark、pyspark、pipeline、apache-spark-ml

我正在使用bank data from UCI来创建一个项目的模板。我在他们的文档网站上关注了PySpark教程(对不起，我再也找不到链接了)。在流水线中运行时，我一直收到错误。numeric_cols = ["age", "balance", "day", "duration", "campaign", "pdays","previous"] stringIndexer=

浏览 11提问于2019-06-14得票数 3

回答已采纳

1回答

如何在PySpark* MLlib中将分类特征传递给线性回归建模？*

python、pyspark、linear-regression、apache-spark-mllib、categorical-data

我当时正在用PySpark做Linear Regression建模，我对此表示怀疑。我有categorical features的数据。我浏览了关于PySpark的文档，Linear Regression的示例显示了以下内容：它没有显示如何将我以前在Random Forest in PySpark上工作过，在那里我首先使用encoded categorical features，然后将这些特性传递给模型，

浏览 0提问于2016-01-20得票数 4

2回答

基于火花的超参数整定

apache-spark、pyspark、apache-spark-mllib

我正在处理一个数据集，我使用线性回归来拟合一个模型。在注销之前，我想尝试使用超参数调优来获得最佳可用模型。我一直在通过管道运行数据，首先将字符串转换为数字，然后对其进行编码，然后向量化所有列，然后在应用线性回归之前对其进行缩放。我很想知道如何设置网格来启动超参数滚球(可以这么说)。import pyspark.ml.feature as ft WD_indexer = ft.StringIn

浏览 1提问于2018-02-16得票数 4

1回答

在Apache中给RandomForestClassifier输入无效的标签列错误

scala、apache-spark、machine-learning、random-forest、apache-spark-mllib

我试图通过在SCALA中使用随机森林分类器模型进行5倍交叉验证来寻找准确性。但是，在运行时，我得到了以下错误：我使用随机森林交叉验证数据集的代码如下： import org.

浏览 2提问于2016-04-09得票数 5

1回答

在PySpark中对多个要素进行编码和组合

python、apache-spark、apache-spark-sql、apache-spark-mllib、apache-spark-ml

在我需要做的各种事情中，我正在生成一个从Spark dataframe中的不同列派生的虚拟变量列表。我的问题是，我不确定如何正确地定义一个用户定义的函数来完成我所需要的。else 0 for cat in cats] return _build_feature_arr [1, 0, 1, 1, 0, 0], [1, 0, 0, 0, 0, 1]] 就生成我想要的虚拟变量列表而言，

浏览 72提问于2015-10-07得票数 26

回答已采纳

5回答

如何处理分类特征与火花-毫升？

apache-spark、categorical-data、apache-spark-ml、apache-spark-mllib

如何使用spark-ml而不是spark-mllib处理分类数据？虽然文档不是很清楚，但似乎分类器(例如RandomForestClassifier、LogisticRegression )有一个featuresCol参数，它指定了DataFrame中的特性列的名称，还有一个labelCol参数，它指定了DataFrame中标记类的列的名称。显然，我希望在我的预测中使用多个特性，所以我尝试使用VectorAssembler将所有特性放在featuresCol下的一个向量中。但是，Vect

浏览 10提问于2015-08-28得票数 49

1回答

Scala.数据库.线性回归

scala、linear-regression、databricks、categorical-data

有谁能解释一下下面代码行的含义(在中) .map(i => new StringIndexer().setHandleInvalid

浏览 5提问于2021-07-10得票数 0

4回答

将StringIndexer应用于PySpark数据中的多个列

python、apache-spark、pyspark

我可以使用StringIndexer将name列转换为数字类别：|2111115| 20123192| Yen| 1.0|gre |如何使用StringIndexer</

浏览 7提问于2016-04-29得票数 55

回答已采纳

1回答

Pyspark ML -随机森林分类器-一种不适用于标签的热编码

pyspark、random-forest、apache-spark-ml、one-hot-encoding

我尝试使用pyspark ml (spark 2.4.0)运行一个随机森林分类器，并使用OHE对目标标签进行编码。当我将标签作为整数(字符串索引器)输入时，该模型训练得很好，但当我使用OneHotCodeEstimator输入一个热编码的标签时，该模型就失败了。这是火花限制吗？#%%import pyspark.sql.func

浏览 74提问于2020-06-30得票数 0

回答已采纳

1回答

PySpark- OneHotEncoding

python-2.7、apache-spark、pyspark、one-hot-encoding

这可能有点天真，但我只是从PySpark和Spark开始。请帮助我理解Pyspark中的一个热门技术。我正在尝试对其中一列执行OneHotEncoding。在一次热编码之后，dataframe模式添加了avector。但是要应用机器学习算法，应该是将单个列添加到现有的数据框中，其中每一列代表一个类别，而不是向量类型的列。如何验证OneHotEncoding。我的代码： stringIndexer =

浏览 0提问于2016-09-29得票数 0

3回答

Spark管道为随机森林分类抛出异常:列标签必须是DoubleType类型，但实际上是IntegerType

scala、apache-spark、apache-spark-ml

我试图用随机森林分类器创建一个Spark管道来执行分类(而不是回归)，但是我收到一个错误，它说我的训练集中的预测标签应该是双倍而不是整数。(nullable = true) |-- label: integer (nullable = true) 我使用功能列duration60、duration30和duration1来预测分类列标签。--------+---------+-----+----------------+

浏览 4提问于2016-04-13得票数 4

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在python中，有没有替代pyspark.ml.feature StringIndexer的方法呢？

PySpark:如何使用`StringIndexer`对字符串数组列进行标签编码

Scala - MaxBins错误-决策树-范畴变量

列变换后的Pyspark随机森林特征重要性映射

如何解释星火OneHotEncoder的结果

在Spark中从管道内的StringIndexer阶段获取标签(pyspark)

如何使用OneHotEncoder设置Spark ML逻辑回归中的参考水平

嵌套数组中的PySpark反转StringIndexer

与流水线PySpark匹配时，输出列已经存在错误

使用索引器和编码器时出现PySpark管道错误

如何在PySpark* MLlib中将分类特征传递给线性回归建模？*

基于火花的超参数整定

在Apache中给RandomForestClassifier输入无效的标签列错误

在PySpark中对多个要素进行编码和组合

如何处理分类特征与火花-毫升？

Scala.数据库.线性回归

将StringIndexer应用于PySpark数据中的多个列

Pyspark ML -随机森林分类器-一种不适用于标签的热编码

PySpark- OneHotEncoding

Spark管道为随机森林分类抛出异常:列标签必须是DoubleType类型，但实际上是IntegerType

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐