Vertica HDFS作为外部表

内容来源于 Stack Overflow,并遵循CC BY-SA 3.0许可协议进行翻译与使用

  • 回答 (1)
  • 关注 (0)
  • 查看 (35)

使用Vertica和Parquet的最佳实践是什么?

我的应用程序架构是:Kafka主题(Avro Data)。Vertica DB.Vertica的调度器消耗了Kafka的数据,并将其摄取到Vertica中的托管表中。

假设我只有一个月的数据才有Vertica的存储空间。据我所知,我可以使用Parquet在HDFS上创建一个外部表,Vertica API也使我能够查询这些表。这个场景的最佳实践是什么?我是否可以添加一些Vertica调度程序来处理从托管表到外部表的日期(作为parquet)。如何配置Vertica中的滚动数据(30天前每天下降),谢谢。

提问于
用户回答回答于

您可以将外部表与Parquet数据一起使用,无论该数据是在Vertica中还是来自其他来源。对于Parquet和ORC格式,还有一些额外的功能,如谓词下推和利用分区列。

您可以将Vertica中的数据导出为Parquet格式。您可以导出查询结果,因此您只能选择30天的数据。尽管该部分位于Vertica文档的Hadoop部分,但您实际上可以在任何地方编写Parquet文件; 你根本不需要运行HDFS。它只需要数据库中的所有节点都可以到达,因为外部表在查询时读取数据。

我不知道使用in-Vertica方式进行预定导出,但您可以编写脚本并在每晚运行它。您可以使用命令行运行.sql脚本vsql -f filename.sql

扫码关注云+社区

领取腾讯云代金券