首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >从管道AWS中删除s3文件

从管道AWS中删除s3文件
EN

Stack Overflow用户
提问于 2014-10-22 18:20:38
回答 3查看 3.5K关注 0票数 2

我想问一下,我正在使用AWS中的数据管道来完成一项处理任务,但是我一直无法让它开始工作。

基本上,我有两个代表两个MySQL数据库的数据节点,这些数据应该定期从其中提取,并放置在一个S3桶中。这个复制活动很好地选择了每天添加的每一行,比如今天-1天。

但是,包含作为CSV收集的数据的桶应该成为EMR活动的输入,EMR活动将处理这些文件并聚合信息。问题是,我不知道如何删除或移动已处理的文件到不同的桶,所以我不必每天处理所有文件。

为了澄清,我正在寻找一种从管道中移动或删除S3桶中已经处理的文件的方法。我能这么做吗?还有其他方法,我只能根据命名约定或其他方式处理EMR活动中的一些文件吗?

EN

Stack Overflow用户

发布于 2014-10-29 23:23:03

另一种不使用EMR的方法是在一个小的s3cmd实例中通过ShellCommandActivity安装EC2工具,然后您可以使用管道中的s3cmd以任何您想要的方式操作S3回购。

这种方法的一个棘手部分是通过配置文件安全地配置s3cmd (基本上是传递访问密钥和秘密),因为您不能仅仅将ssh放到EC2实例中并在管道中交互地使用's3cmd -配置‘。

为此,您可以使用'cat‘在ShellCommandActivity中创建一个配置文件。例如:

代码语言:javascript
运行
复制
cat <<EOT >> s3.cfg
blah
blah
blah
EOT

然后在每次调用s3cmd时使用'-c‘选项附加配置文件,如下所示:

代码语言:javascript
运行
复制
s3cmd -c s3.cfg ls

听起来很复杂,但很管用。

票数 0
EN
查看全部 3 条回答
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/26514404

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档