我在greenplum中有外部和内部表。外部表在hdfs中指向csv文件。Hdfs中的csv文件每小时加载一张表的完整数据。在greenplum的内部表中以增量方式加载数据的最佳方式是什么。
发布于 2017-10-20 20:22:36
在greenplum中创建维度表,它在这里存储之前加载的最后一个收银台,比如时间戳或任何数据点。
使用上面的维度表,你可以以这样的方式返回UDF,每隔一小时当一个新文件到达时,它会加载到stage/extrenal表中,然后用维度表中最后加载的参数,它将只挑选相关/新的记录进行进一步处理。
谢谢你,shobha
https://stackoverflow.com/questions/45335378
复制相似问题