文章/答案/技术大牛

发布

社区首页 >问答首页 >Spark - Get计数，同时保存到配置单元表(ORC)

问Spark - Get计数，同时保存到配置单元表(ORC)
EN

Stack Overflow用户

提问于 2020-08-05 03:55:08

回答 1查看 188关注 0票数 0

我想问您是否有可能在不降低性能的情况下使用saveAsTable()获得我插入到配置单元表中的DataFrame计数？

老实说，我想报告日志计数，或者最好是在插入之前和插入之后获得计数，因为这将是Splunk Dashboard中真正有用的信息，但我不想添加配置单元查询，这可能会对性能造成很大影响，因为我有100多个转换。

提前感谢您的帮助！

apache-spark

hive

回答 1

Stack Overflow用户

发布于 2020-08-05 05:23:11

set hive.stats.autogather=false;-对于新创建的表和/或分区(通过INSERT OVERWRITE命令填充)，默认情况下会自动计算统计信息。用户必须显式地将布尔变量hive.stats.autogather设置为false，以便不会自动计算统计数据并将其存储到配置单元MetaStore中。

表级统计，

spark.sql("ANALYZE TABLE tableName COMPUTE STATISTICS").show()

这导致了

parameters:{totalSize=0, numRows=0, rawDataSize=0...```

表分区级别统计：

spark.sql("ANALYZE TABLE Table1 PARTITION(ds, hr) COMPUTE STATISTICS").show()

注意:当用户发出该命令时，他可以指定分区规格，也可以不指定。如果用户没有指定任何分区规格，则会收集表以及所有分区(如果有的话)的统计信息。

表列级别统计：

spark.sql("ANALYZE TABLE Table1 PARTITION(ds, hr) COMPUTE STATISTICS FOR COLUMNS").show()

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/63254206

复制

相似问题

问Spark - Get计数，同时保存到配置单元表(ORC)
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Spark - Get计数，同时保存到配置单元表(ORC)EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Spark - Get计数，同时保存到配置单元表(ORC)
EN