嗨,我有一个RDD,基本上是在读取一个CSV文件后生成的。我定义了一种方法,它根据输入参数将rdd的行映射到不同的case类。 case class Australiafile1(sectionName: String, profitCentre: String, valueAgainst: String<
我创建了这个RDD: scala> val data=sc.textFile("sparkdata.txt") 然后,我尝试返回文件的内容: scala> data.collect 我使用以下命令将现有数据划分为单独的单词count().show(10) 我得到以下错误: <console>:38: error: value groupByKey is not a member of org.apache.spark.rdd.RDD[S
希望使用Avro作业(以及具有许多定义模式的SchemaRegistry )将来自Kafka主题的Spark消息放入Elasticsearch中。我成功地将记录读取并反序列化为String (json)格式(使用这两个方法): def avroToJsonString(record这就是我从Kafka读取avro记录的方式
val kafkaStream : In