蜂巢版本: 3.1.0.3.1.4.0-315火花版本: 2.3.2.3.1.4.0-315
基本上,我试图从spark读取事务性表数据。根据这个页面,https://stackoverflow.com/questions/50254590/how-to-read-orc-transaction-hive-table-in-spark,发现事务性表必须压缩。因此,我想尝试这个方法。
我对此很陌生,并且尝试对增量文件进行压缩,但它总是显示“已启动”,而且从未完成。这是正在发生的主要和次要的压缩。任何帮助都将不胜感激。
我想知道这是否是一个好的approach.
蒂娅。
编辑过的
显示契约;
+---------------+-----------+----------------+----------------+--------+------------+-----------+-------------+---------------+--------------+
| compactionid | dbname | tabname | partname | type | state | workerid | starttime | duration | hadoopjobid |
+---------------+-----------+----------------+----------------+--------+------------+-----------+-------------+---------------+--------------+
| CompactionId | Database | Table | Partition | Type | State | Worker | Start Time | Duration(ms) | HadoopJobId |
| 1 | tmp | shop_na2 | dt=2014-00-00 | MAJOR | initiated | --- | --- | --- | --- |
| 2 | tmp | na2_check | dt=2014-00-00 | MINOR | initiated | --- | --- | --- | --- |
+---------------+-----------+----------------+----------------+--------+------------+-----------+-------------+---------------+--------------+
3 rows selected (0.408 seconds)同样的压缩结果已经显示了过去的36个小时,虽然保留期已经设置为86400秒。
发布于 2022-03-02 11:32:55
建议在集群上的负载较少时执行此操作,当运行的作业较少时,可以在周末启动,这是一项资源密集型操作,时间长短取决于数据,但一定数量的三角洲将跨越多个小时。您可以使用查询显示压缩;以获得有关压缩状态的更新,包括以下详细信息
数据库名
表名
分区名称
大或小压实
压实状态:
启动-等待队列
工作-目前正在压实
准备清洗-已完成压缩和原计划删除旧文件
线程ID
开始压实时间
https://stackoverflow.com/questions/71321642
复制相似问题