我是Apache Spark (和Scala)的新手,我想在读取csv文件后立即应用一个简单的sql请求,并将其加载到DF上,而不需要创建额外的数据帧或临时视图或表。这是初始请求: SELECT DISTINCT city from citiesAND year IN ("2017", "2018") 这是我在Scala上
代码逻辑非常简单,从csv加载数据并写入hive,以前在default模式中创建了default表。中运行良好。Spark version 2.3.0在通过spark-submit部署Scala应用程序时,情况并不是这样 <spark.version: Table or view not found: default.datatable_0
我尝试了两种方法来找出不同的行与地板,但它似乎不工作。").distinct();Cannot have map type columns in DataFrame which calls set operations Dataset<Row> landingDF = sqlContext.sql("SELECT distinct on timest
因此,我正在为在java虚拟机上执行的apache spark编写代码。它有Spark SQL,允许用户在对象集合上编写SQL表达式。我试图查询的SQL命令对于spark的引擎来说太复杂了,所以我试图使用代码而不是SQL来寻找替代方法。: class StreamerEvent { Date streamedAt;
} 我需要搜索整个集合,对于每个流和流,这将持续几分