腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(6290)
视频
沙龙
1
回答
Spark
StringIndexer
返
回空
数据
集
、
Apache
Spark
StringIndexerModel在对特定列进行转换后返回一个空
数据
集
。我正在使用成人
数据
集
:http://mlr.cs.umass.edu/ml/datasets/Adult 步骤1:创建StringIndexerModel并将其保存到本地 StringIndexerModelmodel = new
StringIndexer
().setInputCol(column).setOutputCol("
浏览 30
提问于2019-12-29
得票数 0
回答已采纳
1
回答
火花:关于句子的
StringIndexer
、
、
、
、
我试图在一列句子中做一些
StringIndexer
的事情,即将单词列表转换为整数列表。例如: (1, ["I", "like", "
Spark
"])我预期在
StringIndexer
之后的输出如下: (1,
浏览 3
提问于2017-12-06
得票数 1
回答已采纳
5
回答
火花,ML,
StringIndexer
:处理看不见的标签
、
我已经构建了一个用于特征提取的管道,它包括一个
StringIndexer
转换器作为第一步,将每个类名映射到一个标签,这个标签将用于分类器的培训步骤。知道我的测试
集
文件具有相同的训练集结构。这里可能的场景是在测试集中面对一个看不见的类名,在这种情况下,
StringIndexer
将找不到标签,并且会引发异常。 这个案子有解决办法吗?或者我们怎样才能避免这种情况的发生?
浏览 5
提问于2016-01-08
得票数 22
回答已采纳
2
回答
数据
库中的花卉拼花
数据
集
在哪里?
、
、
、
我试着运行第一行 .select(col("content"),limit(1000) Path does not exist: dbfs:/databricks-datasets/flowers/parquet; 我想知道在哪里可以找到在
数据
库上的花卉
数据
集
的拼花版
浏览 2
提问于2020-12-10
得票数 1
回答已采纳
1
回答
如何使用
StringIndexer
生成数值变量?
、
、
我希望使用
StringIndexer
作为对我的
数据
集中的1000+类别进行排名的一种方法,生成一个表示相对频率的指数。然后,我可以使用这个索引作为我的模型的一个数字特征。不幸的是,默认情况下,StringIndex会存储一些元
数据
,将索引标记为分类索引,这迫使我的模型将索引用作。 有什么方法可以禁用它,这样index变量就可以用作数值变量了吗?编辑:我使用字符串索引器作为ML管道中的一个阶段,因此解决方案需要避免直接操作
数据
帧。另外,我将保存并加载此管道,因此自定义
数据
转换器可能不切实际。我怀疑这是不可能
浏览 4
提问于2017-04-10
得票数 1
1
回答
Java :在分类
数据
情况下为aprroxNearestNeighbor创建关键向量
、
、
、
我正试图为一个分类
数据
集
寻找近邻。为此,我使用了MinHashLSH模型。 我的
数据
集
有分类
数据
。因此,我使用
StringIndexer
,然后是OneHotEncoderEstimator,然后是VectorAssembler,将分类值转换为连续值。现在,我希望从我的
数据
集中为给定的密钥找到最近的邻居,这个键应该是向量形式的。我无法找到将分类键转换为连续向量的方法。new StructField("fruits", DataTypes.StringT
浏览 1
提问于2018-05-22
得票数 1
回答已采纳
2
回答
星星之火ML -从新的
数据
元素中创建一个特征向量来预测
、
、
、
tl;dr"elapsed_time", "api_name", "method", and "status_code"
浏览 2
提问于2017-04-12
得票数 1
回答已采纳
1
回答
分类字段的一致索引和分类
、
、
假设我有以下Scala代码: (2, "c"), (4, "a"),)).toDF("id", "category") val indexer = new <em
浏览 4
提问于2017-05-08
得票数 0
回答已采纳
1
回答
请参阅
StringIndexer
、
、
stringIndexer
=
StringIndexer
(inputCol="SPECIES", outputCol="IND_SPECIES") si_model =
stringIndexer
.fit/
spark
-1.6.1-bin-hadoop2.6/python/pyspark/ml/pipeline.py",第69行,fit返回self._fit(
数据
集
)文件"
浏览 2
提问于2017-04-21
得票数 0
4
回答
如果用户if是字符串而不是连续整数,如何使用mllib.recommendation?
、
、
但是,我所拥有的用户
数据
的格式是以下格式:CD234WZ12345GH456XY98765 ....看起来,必须在实际用户ids和
Spark
使用的数字ids之间进行某种类型的转换。但我该怎么做呢?
浏览 12
提问于2015-01-05
得票数 13
回答已采纳
1
回答
Spark
/Scala错误-打印出Logistic回归的混淆矩阵
、
、
我在一个
数据
集
上运行逻辑回归,看起来一切正常,但当我要打印出混淆矩阵时,我得到了一个错误,我不确定如何处理。: org.apache.
spark
.ml.feature.
StringIndexer
= strIdx_4bd47e3e31c5 VelocityIndexer: org.apache.
spark
.ml.feature.
StringIndexer
: org.apache.
spark
.ml.feature.
StringIndexer
= strI
浏览 0
提问于2016-12-28
得票数 2
0
回答
在
spark
2.0.2中用Java构建kyro编码
数据
集
的决策树管道
、
、
我正在尝试从
Spark
2.0.2 org.apache.
spark
.examples.ml.JavaDecisionTreeClassificationExample.构建决策树分类示例的一个版本我不能直接使用它,因为它使用libsvm编码的
数据
。我需要避免libsvm (未记录的AFAIK),以便更容易地对普通
数据
集
进行分类。我正在尝试调整该示例以使用kyro编码的
数据
集
。示例中的
StringIndexer
和VectorIndexer,它们无法处理得
浏览 6
提问于2016-12-22
得票数 1
回答已采纳
1
回答
如何从“名字”中获取虚拟变量
、
、
、
、
由于
数据
集
太大(数以百万行),所以当我在pyspark中使用
StringIndexer
从名字中获取假人时,我得到了以下错误: org.apache.
spark
.SparkException: Job abortedtimes, most recent failure: Lost task 0.3 in stage 25.0 (TID 399, 10.139.64.28, executor 2): org.apache.
spark
.SparkException
浏览 0
提问于2021-11-04
得票数 1
2
回答
PySpark上分类输入的随机森林回归
、
、
、
pyspark.mllib.linalg import Vectorsfrom pyspark.ml.feature import
StringIndexer
import Rowtrain = sqlContext.read.format('com.databricks.
spark
.csv这是我在这方面的尝试:` from pyspark.ml im
浏览 4
提问于2017-09-23
得票数 5
1
回答
减少Apache
spark
作业/应用程序的运行时间
、
、
我们试图实现一个简单的
spark
作业,它读取CSV文件(1行
数据
),并使用预先构建的随机森林模型对象进行预测。此工作不包括任何
数据
预处理或
数据
操作。目前,火花提交的实现大约需要13秒。这是应用程序代码 import org.apache.
spark</
浏览 5
提问于2016-02-26
得票数 3
1
回答
org.apache.
spark
.SparkException:带有TrainValidationSplit的未见标签
、
、
、
因此,我想要进行参数调优,并且使用TrainValidationSplit进行参数调整会产生以下错误:org.apache.
spark
.SparkException: Unseen label。就这一点而言,这是守则的一部分:for categoricalCol in categoricalCols: s
浏览 0
提问于2017-04-27
得票数 0
1
回答
Apache应用不存在的标签(看不见的标签例外)
、
、
、
、
我的dataset包含三列字符串,因此我使用
StringIndexer
将它们转换为数字。不幸的是,在评估过程中,索引器突然发现了
数据
集中不存在的标签。下面是我的
数据
集
的摘录(最后一列是标签0/1): Year,Month,DayofMonth,DayOfWeek,DepTime,UniqueCarrier,Origin,Dest,Distance,DepDelay15Minat org.apache.
spark
.ml.feature.StringIndexerModel$$anonfun$9.a
浏览 0
提问于2019-02-20
得票数 1
1
回答
如何将pyspark-mllib-kmeans应用于分类变量
、
、
、
有一个巨大的
数据
文件,由所有分类列组成。在mllib中应用kmeans之前,我需要对
数据
进行虚拟编码。在pySpark中如何做到这一点呢? 谢谢
浏览 0
提问于2016-01-10
得票数 1
1
回答
使用RandomForest的
Spark
管道在20 ML
数据
集
上花费的时间太长
、
、
、
我正在使用
Spark
运行一些ML实验,在一个20 ML的小
数据
集
()和一个带有参数网格的随机森林上,完成它需要1小时30分钟。与此类似,与scikit类似,学习它所需的时间也要少得多。我想这不应该花那么长时间,我想知道这个问题是否存在于我的代码中,因为我对
Spark
相当陌生。= 'label':
stringIndexe
浏览 2
提问于2017-07-02
得票数 9
回答已采纳
1
回答
IllegalArgumentException:在Google DataProc上,您的要求失败:初始容量无效
、
、
目前,我正试图在Google DataProc上的
Spark
2.0.0中运行一个大型
数据
集
(30 mio观测,13个变量)上的ml决策树。当我执行:我收到以下错误: IllegalArgumentException
浏览 0
提问于2016-08-25
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark机器学习入门实例:大数据集二分类
Spark如何读取一些大数据集到本地机器上
心血来潮系列之一——利用spark将数据集转化为Tensorflow的tfrecords格式
Python大数据处理库PySpark实战——使用PySpark处理文本多分类问题
Uber机器学习平台Michelangelo是如何使用Spark模型的?
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券