我使用Kafka作为消息队列/处理。我的问题是关于性能/最佳实践。我会做我自己的性能测试,但可能有人已经有结果/经验了。
数据在Kafka (0.10)主题中是原始的,我希望将其结构化为ES和HDFS。
现在我看到了两种可能性:
如果没有任何测试,我会说第二个选择是更好/更清洁和更可靠?
发布于 2018-12-11 04:24:45
将数据输入Elasticsearch的Logstash“最佳实践”。然而,WebHDFS将不具备作为Kafka插件一部分的Java的原始性能。
Grok可以在Kafka流进程中完成,因此您的解析可以在任何位置完成。
如果你是一个弹性订阅,那么他们想出售Logstash。汇合想出售卡夫卡流+卡夫卡连接。
Avro似乎是数据传输的最佳媒介,模式注册表是一种很流行的方法。IIUC,Logstash在或Avro中不能很好地工作,而更喜欢JSON。
在Hadoop方面,我将提供Apache或Streamset的中间选项。
最后,它确实取决于您的优先级,以及您(和您的团队)如何能够支持这些工具。
https://stackoverflow.com/questions/40379831
复制相似问题