使用Vertica和Parquet的最佳实践是什么
我的应用架构是: Kafka Topic (Avro Data)。Vertica DB。Vertica的调度程序使用来自Kafka的数据,并将其摄取到Vertica的托管表中。
假设我的Vertica的存储只有一个月的数据。据我所知,我可以使用parquet在HDFS上创建一个外部表,Vertica API也使我能够查询这些表。此场景的最佳实践是什么?我可以添加一些Vertica调度器来将数据从托管表复制到外部表(如parquet)。如何在Vertica中配置滚动数据( 30天前每天下架),谢谢。
发布于 2019-06-05 03:35:27
您可以将外部表与拼图数据一起使用,无论这些数据曾经在Vertica中还是来自其他来源。特别是对于拼图和ORC格式,有一些extra features,比如谓词下推和利用分区列。
你可以使用export data in Vertica to Parquet format。您可以导出查询结果,因此只能选择30天前的数据。尽管在Vertica文档的Hadoop部分中有这一节,但实际上您可以在任何地方编写您的Parquet文件;您根本不需要运行HDFS。它必须位于数据库中所有节点都可以到达的位置,因为外部表会在查询时读取数据。
我不知道有没有一种在Vertica中实现定时导出的方法,但是你可以写一个脚本,然后每晚运行一次。您可以使用vsql -f filename.sql
从命令行运行.sql脚本。
https://stackoverflow.com/questions/56446115
复制相似问题