有时(例如,为了测试和标记),我想强制执行在DataFrame上定义的转换。那么触发DataFrame求值的最佳方式是什么呢 编辑: 请注意,在spark开发人员列表上还有一个最近的讨论:http://apache-spark-developers-list.1001551.n3DataFrame.scala:2087)
at org.apache.spark.sql.DataFrame.org$apach
我正在做一个简单的项目,在apache spark中使用K-Means聚类,我做了一些预处理步骤,如标记化,停止单词删除,和hashingTF。这些是由spark own Tokenization()、StopWordRemover()和HasingTF()执行的。但我想在应用k均值聚类之前执行词干分析。我尝试过openNLP中的一些NLP库。但我不知道如何在sparkDataFrame中实现它。有人能教我怎么做吗?
我已经成功地将csv文件推送到我的elasticsearch中。val spark=SparkSession.builder() .config("spark.master","local") val path=scala.io.StdIn.readLine()
val dataframe=spark
如下面的代码所示,我正在将一个JSON文件读取到一个dataframe中,然后从这个dataframe中选择一些字段到另一个字段中。df_record = spark.read.json("path/to/file.JSON",multiLine=True)
org.apache.spark.sql.AnalysisException: No