java.lang.NullPointerException at java.lang.ProcessBuilder.start(ProcessBuilder.java:1012) at org.apache.hadoop.util.Shell.runCommand(Shell.java:445) at org.apache.hadoop.util.Shell.run(Shell.java:418) at org.apache.hadoop.util.Shell$ShellCommandExecutor.ex
我正在尝试使用Spark Scala Maven项目实现隔离森林算法。它在这个链接上进行了解释:。我的问题是:当我尝试实现建议的代码时,我收集了这个错误:object iforest is not a member of package org.apache.spark.ml,我尝试import org.apache.spark.ml,并将Spark-core依赖项也更改为Vesrion2.2.0。<dependency>
我正在做一个简单的项目,在apachespark中使用K-Means聚类,我做了一些预处理步骤,如标记化,停止单词删除,和hashingTF。这些是由spark own Tokenization()、StopWordRemover()和HasingTF()执行的。但我想在应用k均值聚类之前执行词干分析。我尝试过openNLP中的一些NLP库。但我不知道如何在spark DataFrame中实现它。有人能教我怎么做吗?
我目前正在寻找ApacheSpark (Scala/Java)中的一种算法,该算法能够对具有数字和分类特征的数据进行聚类。据我所知,有一个k-medoids和k-prototypes for pyspark ()的实现,但我无法确定与我目前正在使用的Scala/Java版本类似的实现。对于运行Scala的Spark,有没有其他推荐的算法来实现类似的事情?或者我忽略了什么,实际上可以在我的Scal