在下面显示的3个配置单元执行引擎中,在Hadoop集群中工作时更推荐使用哪一个。当我们必须使用(理想选择)的时候,用例是什么?我尝试了一个样本大小为400M的查询,引擎Tez给出的输出比其他2个要快,查询的摘要包括分组和过滤。set hive.execution.engine=spark;
set hive.execution.engine=<e
我试图通过对一个Hive表运行一个简单的查询来比较Spark和hive的性能,例如: spark.sql("select * from schema.table where col = 0") 问题是我想过使用.count()来强制代码运行,但我担心它会改变应用程序运行的方式,并与Hive进行错误的比较,因为每个任务不仅会<e