使用Lambda将文件从S3复制到EMR本地_无法将文件从Lambda上传到S3_无法将文件从本地推送到s3 - 腾讯云开发者社区

amazon-s3、aws-lambda、copy、amazon-emr

我需要使用Lambda以编程方式将文件从S3移动到EMR的本地目录/home/hadoop。 S3DistCp复制到HDFS。然后我登录到EMR，在命令行上运行CopyToLocal hdfs命令，将文件放到/home/hadoop。有没有一种在Lambda中使用boto3从S3

浏览 10提问于2019-06-17得票数 1

回答已采纳

1回答

使用Lambda在EMR上运行aws cli命令

amazon-s3、aws-lambda、copy、amazon-emr

我有一个Lambda函数，它使用boto3连接到电子病历。我想使用我的s3函数在电子病历上运行"aws lambda cp“命令，将文件从S3复制到电子病历的本地目录。有没有办法使用Lambda在EMR上运行aws cli命令？

浏览 12提问于2019-06-17得票数 0

1回答

如何使用java jar访问EMR上的本地文件？

amazon-web-services、amazon-s3、emr、amazon-emr

是否可以将文件从s3复制到EMR本地存储并通过java jar进行访问？如果是，我们如何知道是哪个EMR节点复制了这些文件？(这是必需的，因为java jar需要和文件在同一个盒子上？)

浏览 7提问于2018-01-21得票数 0

回答已采纳

1回答

电子病历如何处理输入和输出的s3桶？

python、apache-spark、amazon-emr

我正在旋转一个EMR集群，我已经创建了指定的存储桶，但是我应该如何上传数据并从中读取呢？在我的火花提交步骤中，我说使用s3://myclusterbucket/scripts/script.py的脚本名不是自动上传到s3的吗？依赖关系是如何处理的？我尝试使用指向s3桶中的依赖项压缩的pyfile，但是继续返回“未找到的文件”

浏览 0提问于2017-11-09得票数 3

回答已采纳

1回答

基于S3的块文件系统

amazon-s3

我们创建一些ORC-文件，当它们存储在S3上时，我们想要查询它们。我们注意到，S3本机文件系统S3n实际上并不适合这种方式。因此，我们尝试将这些文件存储在S3 (uri s3://)上，这是一个块文件系统，就像s3支持的HDFS一样，它工作得很好。但是在阅读了这篇关于亚马逊电子病历的文章后，我有点担心 S3块文件系统 (URI路径: s3bfs:&

浏览 4提问于2015-08-17得票数 0

3回答

如何将文件从S3复制到Amazon EMR* HDFS？*

amazon-s3、hadoop、hive、hdfs、emr

我在EMR上运行hive，需要将一些文件复制到所有EMR实例。据我所知，一种方法是将文件复制到每个节点上的本地文件系统，另一种方法是将文件复制到HDFS，但是我还没有找到直接从S3复制到HDFS的简单方法。做这件事最好的方法是什么？

浏览 1提问于2011-09-20得票数 27

回答已采纳

1回答

从S3事件触发AWS EMR火花作业

java、amazon-web-services、apache-spark、amazon-s3、amazon-emr

我正在考虑使用AWS来针对存储在S3上的非常大的Parquet文件运行一个Spark应用程序。这里的总体流程是一个Java进程将这些大型文件上传到S3，我想自动触发在这些文件上运行一个Spark作业(注入了上传的文件的S3密钥名)。理想情况下，会有某种基于S3的EMR触发器可供连接；也就是说，我将EMR/Spark配置为“侦听”一个S3

浏览 7提问于2020-03-14得票数 1

回答已采纳

1回答

我想在设置AWS EMR时安装额外的python库(版本6.0.0) 我知道我可以通过创建一个名为boostrap.sh的文件并将这个文件上传到s3，并在设置集群时设置一个引导操作来调用这个文件。但是，我有一个单独的requirements.txt文件，其中包含了我需要的所有python库的列表。如果我将'pip3 install -r requirements.txt‘放入bootstrap.sh中，那么bootstrap.sh将无法找到r

浏览 3提问于2020-05-04得票数 0

回答已采纳

2回答

EMRFS是否使外部客户端的S3保持一致？

hadoop、amazon-s3、amazon-emr

如果我在HFDS中有一个文件，或者在本地文件系统上，是否可以在启用EMRFS的情况下将该文件复制到S3中，立即关闭集群，并保证该文件在此复制操作完成后立即用于清单和外部阅读器的读取？还是EMRFS仅在其启用的特定EMR集群中保持一致？从HDFS中通过EMRFS将文件复制到S3是什么样子？从本地文件系统？

浏览 4提问于2017-06-05得票数 1

回答已采纳

1回答

用弹性映射约简将SFTP到S3分布式文件复制

amazon-web-services、amazon-s3、sftp

我需要定期使用SFTP将文件从服务器复制到AWS S3桶中。目前，我正在使用Python的Paramiko模块和AWS Boto完成cron任务。我想知道是否有办法通过AWS弹性地图还原(EMR)更有效地做到这一点。S3DistCp工具非常适合使用EMR将数据从S3复制到S3存储桶，但是我还没有找到从SFTP到

浏览 3提问于2014-11-27得票数 1

1回答

有没有一种方法可以让别人在没有任何下载权限的情况下访问AWS EMR/Ec2机器？

amazon-web-services

我们没有通过S3授予任何人任何下载权限，但是仍然可以使用scp通过电子病历集群下载数据。是否可以给某人集群dns，但确保他们可以使用集群中的数据，而不是下载它？

浏览 2提问于2017-04-04得票数 0

回答已采纳

2回答

将文件上传到S3，然后在EMR中进行处理，最后传输到Redshift

amazon-web-services、amazon-s3、aws-lambda、amazon-redshift、amazon-emr

将数据从NAS复制到S3。谢谢你，帕迪普

浏览 3提问于2017-05-09得票数 1

1回答

如何执行AWS emr和红移脚本？

amazon-web-services、amazon-ec2、amazon-s3、emr

我在S3 folder中有文件，在那里我必须使用来自EMR的PiG scripts进行转换，然后加载回s3。我想知道如何从unix调用猪脚本？除了sqlworkbench之外，我如何执行红移脚本？我怎样才能按顺序运行它们？

浏览 0提问于2015-04-01得票数 0

回答已采纳

1回答

从亚马逊网络服务s3获取文件样本并放到s3中的另一个位置

hadoop、amazon-web-services、awk、amazon-emr、elastic-map-reduce

始终可以使用s3distcp将一个文件(或一组文件)复制到s3的另一个位置，但是否可以使用映射或Hadoop/EMR的任何其他功能将文件的随机样本(或每第n行)复制到s3中的新位置。关键之处在于节省将数据复制到本地计算机的时间，然后再次将其上载到s3。下面是我想用这个过程优化的耗时的代码。aws s3</em

浏览 0提问于2015-11-30得票数 0

1回答

在重新创建EMR群集后保持HDFS状态

amazon-web-services、hadoop、hdfs、amazon-emr

在重新创建emr群集后，是否可以将HDFS存储的状态保留在emr群集上？根据我的经验，所有存储在本地的文件都会丢失。是否可以选择使用已挂载的卷，例如EFS，并将EMR集群挂载到该文件挂载上？

浏览 12提问于2020-03-21得票数 0

1回答

Flink on EMR不能从"flink run“命令访问S3桶

amazon-s3、apache-flink、emr

我正在为我们计划部署的基于Flink的系统建立AWS EMR的原型。：两者都提到直接使用S3资源作为一个与s3://<bucket>/<file>模式相结合的集成文件系统。我已经验证了是否设置了所有正确的权限，我可以使用AWS将S3资源复制到主节点，没有问题，但是尝试使用S3的Jar启动Flink作业不起作用。支持部门进

浏览 5提问于2017-12-15得票数 3

1回答

在引导时从S3复制/使用Python文件到亚马逊弹性MapReduce

amazon-web-services、amazon-s3、amazon-ec2、boto、elastic-map-reduce

我已经知道了如何使用boto在引导步骤中安装python包(numpy等)，以及如何将文件从S3复制到我的EC2实例(仍然使用boto )。我还没有弄清楚如何使用boto将python (或任何文件)从S3桶分发到每个EMR实例。有什么指示吗？

浏览 2提问于2013-08-18得票数 1

回答已采纳

1回答

Amazon框架是否在使用S3作业之前从MapReduce复制数据？

hadoop、amazon-s3、hdfs、amazon-emr

我已经注意到，当输入位置是S3中的文件时，从调用EMR作业到实际开始mapreduce处理数据之间还有很长的时间。我的问题是，EMR是直接运行于驻留在本机S3文件系统中的数据，还是将数据复制到配置好的EC2机器的HDFS集群(在EMR集群中)，在这种情况下，复制数据需要花费大量时间？

浏览 3提问于2013-10-15得票数 1

回答已采纳

2回答

程序支持将文件从S3复制到电子病历主节点

amazon-web-services、emr

除了执行scp之外，还有其他方法可以将文件从s3复制到EMR主节点吗？

浏览 3提问于2014-11-24得票数 0

1回答

将文件从s3移动到电子病历并解压(Scala)

scala、amazon-web-services、apache-spark、amazon-s3

我在S3上有一个很大的.tar.gz文件，我想把它移动到EMR HDFS (或临时S3存储桶)并解压缩，这样我就可以读取里面的一些小文件了。我现在正在做的是有一个外壳脚本将文件从S3下载到本地(使用AWS CLI)，并让scala/spark作业在未压缩的下载文件上运行以生成一些结果。我想要做的是在一个Scala/Spark作业中做所有的工作，它应该将<

浏览 1提问于2018-02-21得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云