如何将流数据插入hawq并对在线数据执行查询。
那么,有了这些约束,用hawq在线查询流式数据的好解决方案是什么?
发布于 2016-08-17 14:06:28
如果您的源数据不在hdfs上,则可以使用其他linux脚本尝试使用gpdfist/命名管道作为带有gpfdist外部表或web外部表的缓冲区。另一个解决方案是spring gpfdist模块。http://docs.spring.io/spring-xd/docs/1.3.1.RELEASE/reference/html/#gpfdist
发布于 2016-08-17 16:14:43
外部表的另一个选项是使用TRANSFORM选项。这是外部表引用gpfdist的地方,gpfdist为您执行一个程序来获取数据。这是一种拉力技术,而不是那种推。
以下是详细信息:外部表“转换”选项
由于您提到了JDBC,我编写了一个利用gpfdist的程序,它执行Java程序通过JDBC获取数据。它既适用于Greenplum和HAWQ,也适用于任何JDBC源。
亮光
发布于 2016-08-17 20:40:56
由于您提到了Flume,我将使用类似的工具springxd提供一些替代方法。
您可以有一个Kafka主题,您可以删除流消息和跳槽作业,这可以写到HAWQ。例如;
例如,如果有一些流将文件从FTP加载到KAFKA和spring java作业,则将消息从kafka接收到hawq。
这是一种获得并行性的方法,不限于hdfs文件开放问题。您可以通过多种方式扩展此模式,因为大多数流数据都是小集。希望能帮上忙。
https://stackoverflow.com/questions/38989473
复制相似问题