文章/答案/技术大牛

发布

社区首页 >问答首页 >卡夫卡-> S3 -> oozie -> hadoop，Kafka写到一个S3位置，oozie每15分钟读一次这个文件夹，并将新文件推送到hadoop。

问卡夫卡-> S3 -> oozie -> hadoop，Kafka写到一个S3位置，oozie每15分钟读一次这个文件夹，并将新文件推送到hadoop。
EN

Stack Overflow用户

提问于 2017-11-08 07:54:25

回答 2查看 322关注 0票数 0

上面的标题描述了工作流，我想在这里验证设计，并讨论如何管理共享S3文件夹的更新。

既然oozie是数据的消费者，kafka是这里数据的生产者，那么我如何维护哪些文件已经被消耗，哪些文件尚未被使用，因为数据的生产者一直在写到这个位置。

有没有任何由Amazon-s3提供的原子性特性来维护这一点？

更新说明：由于网络连接的限制，卡夫卡不能直接写入HDFS。

hadoop

amazon-s3

apache-kafka

oozie

回答 2

Stack Overflow用户

发布于 2017-11-08 08:28:04

我觉得你让自己的生活变得很艰难。你只需使用卡夫卡连接(这是卡夫卡的一部分)和HDFS连接器或S3连接器。

票数 0

Stack Overflow用户

发布于 2017-11-14 07:11:11

你可以在这里使用Oozie协调员。oozie cordinator可以连续轮询新文件，一旦文件到达，它就可以触发oozie工作流来复制数据。可以根据${baseFsURI}/${YEAR}/${MONTH}/${DAY}/${HOUR}/${MINUTE}.格式创建的文件名/文件夹它将帮助oozie cordinator识别已经到达的新文件。

要设置oozie cordinator来轮询s3文件，请使用：https://community.cloudera.com/t5/Batch-Processing-and-Workflow/Getting-Oozie-Coordinator-datasets-working-with-S3-after-a-lost/td-p/27233

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/47174329

复制

相似问题

问卡夫卡-> S3 -> oozie -> hadoop，Kafka写到一个S3位置，oozie每15分钟读一次这个文件夹，并将新文件推送到hadoop。
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问卡夫卡-> S3 -> oozie -> hadoop，Kafka写到一个S3位置，oozie每15分钟读一次这个文件夹，并将新文件推送到hadoop。EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问卡夫卡-> S3 -> oozie -> hadoop，Kafka写到一个S3位置，oozie每15分钟读一次这个文件夹，并将新文件推送到hadoop。
EN