针对训练集中没有出现的字符串值,spark提供了几种处理的方法:
error,直接抛出异常
skip,跳过该样本数据
keep,使用一个新的最大索引,来表示所有未出现的值
下面是基于Spark MLlib...")
val df = spark.createDataFrame(
Seq((0, "a"), (1, "b"), (2, "c"), (3, "a"), (4, "a"), (...5, "c"))
).toDF("id", "category")
val df1 = spark.createDataFrame(
Seq((0, "a"), (1, "...假如处理的过程很复杂,重新生成了一个DataFrame,此时想要把这个DataFrame基于IndexToString转回原来的字符串怎么办呢?...源码剖析
首先我们创建一个DataFrame,获得原始数据:
val df = spark.createDataFrame(Seq(
(0, "a"),
(1, "b"),