首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >卡夫卡-> S3 -> oozie -> hadoop,Kafka写到一个S3位置,oozie每15分钟读一次这个文件夹,并将新文件推送到hadoop。

卡夫卡-> S3 -> oozie -> hadoop,Kafka写到一个S3位置,oozie每15分钟读一次这个文件夹,并将新文件推送到hadoop。
EN

Stack Overflow用户
提问于 2017-11-08 07:54:25
回答 2查看 322关注 0票数 0

上面的标题描述了工作流,我想在这里验证设计,并讨论如何管理共享S3文件夹的更新。

既然oozie是数据的消费者,kafka是这里数据的生产者,那么我如何维护哪些文件已经被消耗,哪些文件尚未被使用,因为数据的生产者一直在写到这个位置。

有没有任何由Amazon-s3提供的原子性特性来维护这一点?

更新说明:由于网络连接的限制,卡夫卡不能直接写入HDFS。

EN

回答 2

Stack Overflow用户

发布于 2017-11-08 08:28:04

我觉得你让自己的生活变得很艰难。你只需使用卡夫卡连接(这是卡夫卡的一部分)和HDFS连接器S3连接器

票数 0
EN

Stack Overflow用户

发布于 2017-11-14 07:11:11

你可以在这里使用Oozie协调员。oozie cordinator可以连续轮询新文件,一旦文件到达,它就可以触发oozie工作流来复制数据。可以根据${baseFsURI}/${YEAR}/${MONTH}/${DAY}/${HOUR}/${MINUTE}.格式创建的文件名/文件夹它将帮助oozie cordinator识别已经到达的新文件。

更多信息在这里:https://oozie.apache.org/docs/3.1.3-incubating/CoordinatorFunctionalSpec.html

要设置oozie cordinator来轮询s3文件,请使用:https://community.cloudera.com/t5/Batch-Processing-and-Workflow/Getting-Oozie-Coordinator-datasets-working-with-S3-after-a-lost/td-p/27233

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/47174329

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档