我有一个复杂/嵌套的Hive-External表,它是在HDFS上创建的(文件采用avro格式)。当我运行配置单元查询时,它会显示所有记录和分区。但是,当我在Spark中使用相同的表时: val df = spark.format("avro").option("avroSchema",但是,当我使用spark.sql("select * from hive_Exter
例如,我在Scala中使用Apache spark对数据帧中的多个列运行聚合selectcolumn2, sum(1) as count from df group by column2
实际的聚合比sum(1)复杂得多,但它超出了要点。上面的例子这样的查询字符串是为我想要聚合的每个变量编译的,我通过Spark sql上下文执行每个字符串,以创建代表相关聚合的相应数据<em
我正在从具有嵌套列(struct)的拼图文件中读取数据帧。如何检查是否存在嵌套列?---------++---------------------+ 我知道如何检查顶级列是否存在,答案如下:How do I detect if a SparkDataFrame has a column: df.schema.fieldNames.contains("column_name") 但是如何检查嵌套列呢?