寻找下列方案的建议:
在一个ubuntu18.04服务器中,每1分钟检查一次AWS S3桶中的新文件,在一天结束时只将最新文件提取到临时文件夹中。
它应该是自动化的bash。
我建议使用aws s3事件通知、队列、lambda,但是定义它时最好保持简单。
我希望就以下步骤提出建议:
对于第一步,我正在做aws s3 ls | awk (FUNCTION to filter files updated within the last minute),然后我意识到最好用grep来完成它
0-Cron作业应该在每分钟7:00到23:00运行--列出过去1分钟内更新到S3桶的文件--列出临时文件夹中
我正在尝试将matplotlib保存到我在AWS上的S3存储桶中。我像这样使用savefig()函数: import matplotlib.pyplot as plt
f = plt.figure()
plt.plot(some figure)
f.savefig("s3://bucketpath/foo.pdf", bbox_inches='tight') 但我得到了path not found error。如果我不指定路径,它似乎工作得很好,但我不知道它保存在哪里。 我使用sagemaker jupyterlab运行我的代码(在pyspark中),因此在
我正尝试将使用saveAsNewAPIHadoopFile编码的RDD保存到AWS存储桶中,但是当它保存到S3存储桶中时,它将字符编码改为S3 -8。
代码片段
val cell = “ MYCOST £25” //This is in UTF-8 character encoding .
val charset: Charset = Charset.forName(“ISO-8859-1”)
val cellData = cell.padTo(50, “ “).mkString
val iso-data = new String(cellData.getBytes(ch