我已经在我的spark streaming应用程序中启用了以下列出的配置,但我无法推断设置这些参数后的性能优势,如果你们中的任何一个知道任何方法来验证矢量化是否按预期/正确启用!
注意:我正在使用Spark 2.3,并将我的应用程序中的所有数据转换为原生orc格式1.4版本。
sparkSqlCtx.setConf("spark.sql.orc.filterPushdown", "true")
sparkSqlCtx.setConf("spark.sql.orc.enabled", "true")
sparkSqlCtx.setConf("spark.sql.hive.convertMetastoreOrc", "true")
sparkSqlCtx.setConf("spark.sql.orc.char.enabled", "true")
sparkSqlCtx.setConf("spark.sql.orc.impl","native")
sparkSqlCtx.setConf("spark.sql.orc.enableVectorizedReader","true")
发布于 2018-08-18 02:47:38
您需要进行如下设置
spark.sql("set spark.sql.orc.impl=native")
您可以使用以下命令进行确认
spark.sql("set spark.sql.orc.impl").show
https://stackoverflow.com/questions/50480236
复制相似问题