星火是返回垃圾/十进制字段的值时,查询一个外部蜂巢表在星火代码中使用星火SQL。
在我的应用程序流中,火花进程最初将数据直接写入存在外部Hive表的HDFS中。当第二个Spark进程试图使用Spark从Hive表中消费时,会获取不正确的数据。scala> val =spark.sql(“选择'dummy‘作为名称,10.
在Spark1.6.0中,我有一个包含职务描述的列的数据框架,如:bartenderemployee...我使用以下方法从该列检索唯一值列表:
val jobs = people.select("Description").distinct().rdd.map(r => r(0).asInstanceOf[peoplewithjob = people.f
我有一个scala List List[Any] = List("a", "b",...),我需要获取一个Sparkdataframe,它只包含列表中所有列的一行。我正在尝试用返回org.apache.spark.rdd.RDD[Any] = ParallelCollectionRDD[5834] at parallelize at <console>:81的sc.parallelize(myLis