我第一次设置greenplum。我在跟着documentation走。我要设置从sql到greenplum数据库的连接。目前正在找出实现这一目标的最佳方法。我遇到了gpfdist和gpload。
这两个有什么不同?因为两者都使用外部表,所以都在从节点上工作,并且都用于并行加载。那么使用一种方法比使用另一种方法有什么优势吗?
发布于 2017-08-26 02:24:26
正在回答您提出的“我要设置从sql到greenplum数据库的连接”的问题...对于您所引用的SQL数据库,它并不明确。
此外,没有直接连接驱动程序可用于将非greenplum数据库连接到greenplum数据库。
但是,如果要将数据从Oracle迁移到Greenplum,则可以使用Informatica的快速克隆工具。
回答你关于gpfdist和gpload的问题的第二部分。GPFDIST是一个运行在主机系统上的文件分布式进程,它并行地为多个段提供文件服务。在初始化外部表以从文件读取/写入时,您需要指定哪个进程将为文件提供服务,在您的情况下,它将是GPFDIST。还有其他进程,如FTP、GPHDFS、HTTP。
GPLOAD是一个包装器实用程序,它通过自动创建gpfdist进程和外部表来简化您的工作。
还要注意的是,GPLOAD只能创建可读的外部表。
发布于 2018-06-28 14:15:50
gpfdist n gpload或相同。在gpfdist中,您可以手动完成此操作,而在gpload中,您可以通过在配置(yaml文件)文件中创建条目来自动执行这些活动。GPLOAD是GPFDIST的包装器。因此,当您通过gpload加载数据时,它将仅在内部使用gpfdist。
如果您想从任何其他RDBMS加载/迁移数据到Greenplum,并且您正在使用任何ETL或迁移工具,它将使用普通复制命令,并且在加载/迁移时,如果您启用gpload (当您将数据迁移/加载到Greenplum时,现在大多数ETL工具和迁移工具的最新版本都支持gpload功能),它将通过在内部使用gpfdist以并行方式加载数据。
https://stackoverflow.com/questions/45584677
复制相似问题