从S3解压文件，写入CSV文件并推送回S3_如何从作业内部将csv文件写入S3？_pyspark将csv文件写入S3时出错 - 腾讯云开发者社区

amazon-web-services、amazon-s3

问题:我需要的数据在一个网站的压缩文件中，但是，压缩文件太大，无法下载到我的笔记本电脑上。我认为如何解决这个问题:将压缩文件上传到s3桶中，而不下载笔记本中的zip文件。目标:将zip文件放到s3桶上，解压缩s3桶上的文件，使用s3中的命令行查看解压缩文件的内容，从中提取CSV (或其他类型的可转换为CSV的数据)。我认为可以解决这个问题的方法是:使用AWS从网站获取zip文件，从而在AWS上创建一个临时存储空间；将来自AWS的文件放入s3桶中；在s3上解压缩文件；探索s3桶上解压缩文件的内容；将需要的内容提取到另一个s3桶中，然后使用从SageMaker上解压缩的文件中选择的内容。

浏览 2提问于2019-08-29得票数 1

1回答

使用查询S3桶并修改值

sql、amazon-web-services、csv、amazon-s3、amazon-athena

我有一个包含500个csv文件的S3桶，除了每个文件中的数字值外，它们是相同的。如何编写获取dividendsPaid并使其对每个文件都为正的查询并将其发送回s3？

浏览 7提问于2022-10-18得票数 0

1回答

Apache Flink依次写入多个接收器

apache-flink

我有一个CsvTableSource来读取CSV文件并将数据写入S3，然后我想将文件从S3加载到JDBC接收器。如何使JDBC接收器仅在S3接收器成功完成后执行。原因是，S3将用于其他一些处理，如果没有S3跳，则无法将数据直接移动到JDBC。

浏览 10提问于2019-09-28得票数 0

1回答

解压缩S3文件并通过AWS CLI将解压缩后的文件推回到S3中

amazon-web-services

使用AWS CLI后，您能否从S3解压文件，并将解压缩后的版本推送回S3？尝试下面的方法，还没有成功。 unzip aws s3 cp https://aws-lake/test/test.zip

浏览 38提问于2021-02-24得票数 0

回答已采纳

2回答

PySpark解压缩文件:这是一种很好的方法来解压缩文件并将文件存储到Delta中？

python、amazon-s3、zip、azure-databricks、delta-lake

我有存储在s3中的压缩文件，然后我有一个["s3://mybucket/file1.zip", ..., "s3://mybucket/fileN.zip"]列表，我需要使用Spark集群解压缩所有这些文件，并将所有的CSV文件存储到一个增量格式表中。我想知道一种比我目前的方法更快的处理方法： 1)我有一个用于的桶，用于迭代我的Python。 2)我正在使用PythonBoto3 s3.bucket.Object(file)从Boto3获得压缩文件 3)我正在使用下一段代码解压缩文件 import io import boto3 import shutil im

浏览 0提问于2019-10-30得票数 6

2回答

如何使用python上传流到AWS s3

python、amazon-s3、lambda、boto3、unzip

我想创建一个从S3获取压缩文件(可能包含csv文件列表)、解压缩并上传回s3的lambda。由于lambda受到内存/磁盘大小的限制，我必须将其从s3流式传输并返回到它中。我使用python (boto3)，请看下面的代码 count = 0 obj = s3.Object( bucket_name, key ) buffer = io.BytesIO(obj.get()["Body"].read()) print (buffer) z = zipfile.ZipFile(buffer) for x in z.filelist: with z.open(x) as fo

浏览 1提问于2018-01-30得票数 4

2回答

将mysql查询导出到s3桶

mysql、amazon-web-services、amazon-s3

基于接受的答案，我可以使用以下方法将mysql查询的结果导出到我的csv EC2实例上的一个csv文件中： mysql -user -pass -e "SELECT * FROM table" > /data.csv 但是，由于导出的文件很大，我想导出一个AmazonS3-bucket (s3:\\mybucket)，它可以从我的EC2实例中访问。我试过： mysql -user -pass -e "SELECT * FROM table" > s3:\\mybucket\data.csv 但它不导出文件。

浏览 4提问于2017-12-04得票数 2

回答已采纳

1回答

在没有内存问题的情况下从s3处理大文件

java、apache-spark、amazon-s3、gzipinputstream

我正在尝试从S3读取一个大的CSV文件。我的文件大小是100 My的GZip格式，我需要解压缩，然后读取csv数据。因此，我在下面发现了相同的代码片段和下面的代码片段。 S3Object fileObj = client.getObject(bucketName, repoPath); BufferedReader reader = new BufferedReader(new InputStreamReader(new GZIPInputStream(fileObj.getObjectContent()))); BufferedWriter

浏览 5提问于2018-05-01得票数 0

2回答

从S3打开大文件

dask

当我试图从S3打开一个大文件时，我得到了内存错误。 import dask.dataframe as dd df = dd.read_csv('s3://xxxx/test_0001_part_03.gz', storage_options={'anon': True}, compression='gzip', error_bad_lines=False) df.head() exception: MemoryError 如何直接从S3打开大型压缩文件？

浏览 6提问于2017-04-11得票数 2

1回答

将docker每天的统计信息附加到单个文件

shell、docker

我尝试每分钟将docker的统计信息记录到S3存储桶中的csv文件中。下面的命令在putty上运行。 while true; do docker stats --no-stream | aws s3 cp - s3://username/dockerstats/`date -u +"%Y%m%dT%H%M%S.csv"`; sleep 60; done 从上面可以看出，它每分钟都在创建一个新文件。我想将docker的统计数据附加到相同的csv文件中。谁能让我知道将数据附加到同一文件csv文件的命令是什么？它将是每天一个csv文件。

浏览 0提问于2020-05-06得票数 2

1回答

通过CloudFront下载压缩的CSV文件

amazon-s3、aws-lambda、amazon-cloudfront

我有一个lambda函数，当被调用时，它将使用以下命令从一个红移数据库卸载()到一个s3存储桶中： unload ('<SQL QUERY TO UNLOAD') to 's3://<BUCKET iam_role 'arn:aws:iam::<ROLEID> delimiter ',' PARALLEL OFF ESCAPE ALLOWOVERWRITE GZIP 然后，在该操作完成后，我运行以下nodejs代码，尝试添加ContentType和ContentEncoding头文件： s3.copyObject({

浏览 19提问于2019-06-15得票数 0

回答已采纳

1回答

从S3存储桶下载了csv.gzip，它是象形文字的(编码错误)

amazon-web-services、csv、amazon-s3、encoding

aws s3 cp s3://bucketname/path/to/file/filename.csv.gz . --content-encoding gzip 我只是想从一个我们无法控制但有权限访问的存储桶中下载一个压缩的csv文件。我运行了上面的程序并下载了文件，但并不可行。结果如下图所示。如何下载可行的文件？ ?

浏览 15提问于2020-06-24得票数 1

3回答

如何使用boto3动态提取S3中的文件？

amazon-web-services、amazon-s3、aws-lambda

我正在尝试找到一种在S3中动态解压.gz文件的方法，那就是不需要把它下载到本地，解压然后再推送回S3。使用boto3 + lambda，我如何实现我的目标？我在boto3文档中没有看到任何提取部分。

浏览 0提问于2018-07-11得票数 21

回答已采纳

2回答

在AWS Glue中解压缩zip文件

amazon-web-services、aws-glue

我在S3存储桶中有一个压缩的gzip文件。客户端每天会将文件上传到S3存储桶中。解压缩后的gzip将包含10个CSV格式的文件，但只有相同的模式。我需要解压缩gzip文件，并使用Glue->Data crawler创建模式，然后使用dev运行ETL脚本。端点。 glue能够解压缩zip文件并创建数据目录。或者任何可用的粘合库，我们可以直接在python ETL脚本中使用？或者我应该选择Lambda/任何其他实用程序，以便zip文件一上传，我就运行一个实用程序来解压缩并将其作为输入提供给Glue？感谢您的回复。

浏览 21提问于2018-02-24得票数 2

回答已采纳

1回答

用Ruby解压缩S3中的CSV.Zip文件

ruby-on-rails、ruby、amazon-s3、stream、unzip

我有一个从S3获取csv.zip文件的rails应用程序。有没有一种方法可以使用RubyZip或其他gem对s3文件进行流式传输并解压缩？我不想把整个文件下载到内存中。我使用一个块来下载S3对象。当您将一个块传递给#get_object时，会在从套接字读取数据块时产生这些数据块。 s3.get_object(bucket: 'bucket-name', key:'object-key') do |chunk|puts(chunk) end 当我尝试使用RubyZip解压数据块时，抛出了一个错误： Zip::File.open(chunk) do |zip_

浏览 6提问于2020-05-04得票数 0

1回答

如何从文件对象中读取带有py箭头的csv.gz文件？

python、pandas、csv、pyarrow

我正在尝试使用pyarrow从S3中读取一堆gzip压缩的csv文件。的文档页面说如果字符串或路径以可识别的压缩文件扩展名结束，则为 (例如“.gz”或“.bz2”)。不幸的是，我不能提供一个字符串值作为输入路径，因此CSV读取器不需要压缩。 import s3fs import pyarrow.csv as pv s3 = s3fs.core.S3FileSystem(anon=False) csv_path = 's3://bucket_name/path/to/file.csv.gz' with s3.open(csv_path) as s3fp: t

浏览 3提问于2020-10-29得票数 0

回答已采纳

1回答

读取pyspark数据帧中tar.gz文件中的特定csv文件

python、csv、apache-spark、pyspark、tar

我有这三个文件file_1.csv，file_2.csv，file_3.json里面的tar.gz文件。我想在spark数据帧中读取file_1.csv 如下所示： df = spark.read.csv("s3://my_bucket/key/my_file_.tar.gz/file_1.csv")

浏览 0提问于2019-06-07得票数 0

1回答

Apache Storm，Twitter

twitter、apache-storm

我正在通过storm-bolts使用twiiter4j.properties来处理推特推文。我的拓扑结构如下： TopologyBuilder builder = new TopologyBuilder(); builder.setSpout("KafkaSpout", new KafkaSpout(kafkaConfig), 2).setNumTasks(4); builder.setBolt("Preprocesing", new preprocessBolt2(), 2) .setNumTasks(4).s

浏览 1提问于2015-07-27得票数 0

1回答

未能膨胀无效或不完整的数据。zlib错误代码-3

amazon-s3、amazon-redshift

我试图上传数据红移使用s3。要从其中复制数据的文件采用csv格式(例如，名为users.csv)。我按照命令运行 copy user.dimension_users from 's3://<bucket-name>/users.csv' credentials 'aws_access_key_id=<access_key>;aws_secret_access_key=<secret_key>'gzip compupdate off region '<region>'; 我从Work

浏览 2提问于2018-09-26得票数 3

回答已采纳

2回答

使用Lambda (NodeJS)在S3上读取gzip存档中以制表符分隔的文件

node.js、amazon-s3、aws-lambda

我有以下用例要解决。我需要使用Lambda函数(NodeJS 12)从S3存储桶中摄取数据。Lambda函数将在创建新文件时触发。该文件是gz归档文件，可以包含多个TSV (制表符分隔)文件。对于每一行，将从Lambda函数触发一个API调用。问题： 1-是否必须分两步进行:解压缩/tmp文件夹中的归档文件，然后读取TSV文件。或者您可以直接流式传输归档文件的内容？ 2-你有没有可以分享的代码片段，展示如何从S3桶中流式传输GZ文件及其内容(TSV)？我找到的例子很少，但只适用于纯NodeJS。不是来自Lambda/S3。非常感谢你的帮助。为我的第一个测试添加了一段代码，但它不起作用。控制

浏览 1提问于2019-11-21得票数 0

2回答

Cron作业完整路径:仍收到断开的管道错误

php、bash、unix、ssh、cron

我知道我做错了什么，没有包括正确的，完整的文件路径信息，但经过几个小时的推文后，我仍然收到一个sh: 2012-06-08-01-25.sql.gz: Permission denied mysqldump: Got errno 32 on write错误。下面是我的脚本： $dbhost = "DATABASE HOST"; $dbuser = "DATABSE USER"; $dbpass = 'PASSWORD'; $dbname = "DATABASE NAME"; $backupfile = '/home/12

浏览 3提问于2012-06-08得票数 0

回答已采纳

1回答

无法在/tmp/ in lambda中看到从S3桶下载的文件

amazon-web-services、amazon-s3、aws-lambda

我无法在Lambda的/tmp/ s3文件夹中看到从S3桶下载的文件，我在IAM中提供了对S3和Lambda的完全访问。当我测试这段代码时，我的tmp文件夹总是空的(参见屏幕截图)。有人能帮我吗？？我的代码: import csv import boto3 s3_client = boto3.client('s3') s3_resource = boto3.resource('s3') def lambda_handler(event, context): bucket = 'test-bucket' key =

浏览 6提问于2021-11-08得票数 0

回答已采纳

2回答

使用Lambda函数将DynamoDB导出到S3上的CSV (python)

python、amazon-web-services、amazon-s3、aws-lambda、amazon-dynamodb

您好，我正在尝试使用lambda函数生成从dynamoDB到S3的CSV。问题是我只得到了一个关于s3的空文件。请多多指教！ import csv import boto3 import json dynamodb = boto3.resource('dynamodb') db = dynamodb.Table('ReporteTelefonica') def lambda_handler(event, context): AWS_BUCKET_NAME = 'reportetelefonica' s3 = boto3.reso

浏览 30提问于2021-03-17得票数 1

2回答

从字符串解压缩Zip文件

c#、asp.net-mvc、zip、gzip、couchbase

我从couchbase获取一个对象，其中一个字段有一个文件。文件被压缩，然后用base64编码。我如何才能接受这个字符串并将其解压回原始文件？然后，如果我使用ASP.MVC 4-如何将它作为可下载文件发送回浏览器？原始文件是在Linux系统上创建并在Windows (C#)上解码的。

浏览 7提问于2013-09-24得票数 1

回答已采纳

1回答

从S3解压文件，写入CSV文件并推送回S3

python、amazon-web-services、csv、amazon-s3、aws-lambda

我构建了一个从EC2实例收集日志并每天将它们上传到S3存储桶的lambda。日志被存储为.gz文件，现在我想构建另一个lambda，它收集最近上传的日志文件，对其进行解压缩，将其写入CSV文件，然后将其推送回s3。我已经设法收集了一个日志文件，解压缩并推送它，但我需要一些指导，如何在s3存储桶中定位最新的文件，以及如何在推送它之前将其写入CSV。我使用Python来实现我的lambda，下面是我的代码现在的样子： def lambda_handler(event, context): s3 = boto3.client('s3', use_ssl = False) s3

浏览 15提问于2019-03-06得票数 1

1回答

在S3中合并大量小csv文件(不同列大小)的最佳方法

python、csv、apache-spark、amazon-s3

我有一大堆小的csv文件(每个大约15kb )。这些csv文件具有不同的标头。我想将它们合并到一个包含所有列的csv文件中。最终，合并后的csv文件可能会超过100 be。合并文件时，如果列不存在，则添加此列并填充null。我从s3下载这些csv文件到EMR集群，然后使用Spark代码合并这些csv文件，并尝试使用python代码合并它们。从我所做的实验来看，Python代码比Spark运行得更好，但不是idea。有没有更好的主意？谢谢。

浏览 3提问于2018-06-07得票数 1

1回答

从互联网上传输s3数据的价格是否包括读取文件内容的价格？

amazon-web-services、amazon-s3、data-transfer

我有一个带有下载按钮的web应用程序，可以从s3桶下载对象。我也有绘图按钮来读取s3桶中csv文件的内容，使用read_csv读取列并进行可视化。我想了解的是，从互联网上传输s3数据的代价是只用于文件的实际下载，还是也包括读取内容，因为在这种情况下，字节也是通过互联网传输的。

浏览 0提问于2018-07-04得票数 0

回答已采纳

1回答

星火本地模式-所有作业只使用一个CPU核心

java、amazon-web-services、apache-spark、amazon-ec2

我们在单个AWS EC2实例上以本地模式运行Spark，使用 "local[*]" 然而，使用New工具和一个简单的“top”进行分析表明，我们16台核心机器中只有一个CPU核心用于我们编写的三个不同的Java火花作业(我们也尝试过不同的AWS实例，但只有一个内核曾经被使用过)。 Runtime.getRuntime().availableProcessors()报告16个处理器，sparkContext.defaultParallelism()报告16个。我看过各种Stackoverflow本地模式问题，但似乎没有一个解决了这个问题。任何建议都很感激。谢谢编辑:过程

浏览 2提问于2016-10-31得票数 6

回答已采纳

1回答

在AWS中，如何使用to_csv将我的Parquet文件转换为CSV，我希望使用PYTHON将csv文件插入到postgresql中

pandas、postgresql、amazon-web-services、csv、aws-lambda

现在，我可以从AWS s3中获取拼花文件，并在lambda中对该拼花文件做了一些修改。在将此数据插入到来自同一个lambda的postgreql数据库时，我面临问题。我找到了将这个数据转换为csv文件并插入到我的本地系统中的解决方案，但是我无法在lambda中实现代码。我的lambda代码如下所示，其中data是从S3收到的data集合。 def lambda_handler(event, context): **data** = read_data_from_s3(event) print('lambda') print(data) **dat

浏览 5提问于2022-05-29得票数 0

1回答

将大型dask数据文件写入单个S3 CSV文件

dask、dask-distributed

我正在使用一个dask.distributed集群，我希望将一个大的数据文件保存到一个CSV文件到S3，如果可能的话，保持分区的顺序(默认情况下，to_csv()将数据写入多个文件，每个分区一个)。此外，这个文件存储操作也应该作为一个延迟/延迟的任务来执行(它应该在集群工作人员上执行)。我可以想到的第一个解决方案是将分区存储在一个临时的S3位置，然后在延迟函数中使用S3多部分上传将这些文件合并/上传到一起。临时存储是这里的一个缺点。可以使用dataframe.to_delayed()完成吗？上传需要由单个延迟函数执行(S3没有附加操作)，同时数据帧可能大于工作人员的内存，因此函数不能简单地

浏览 0提问于2017-09-20得票数 1

回答已采纳

3回答

从Amazon DMS到S3再到Redshift的ETL数据

python、amazon-web-services、amazon-s3、amazon-redshift、etl

我目前正在S3中构建一个数据湖，并且已经成功地使用DMS将数据从mysql迁移到S3。在DMS中，我选择了“迁移现有数据并复制正在进行的更改”选项。我将数据转换为csv，但将来可能会选择拼花。此方法创建一个初始csv文件，其中包含来自数据库表的所有原始数据。然后，它创建具有插入、删除和更新功能的后续csv文件。现在我正在寻找一种将数据从S3复制到Redshift的策略。我正在寻找一种复制批量数据的策略，并将S3中的连续更改复制到Redshift中。我可能需要对这些数据进行汇总和总结。我最好使用AWS Glue，它使用Python。这个ETL进程必须从S3中的csv文件中读取，并知道要忽略已经

浏览 1提问于2017-11-12得票数 0

3回答

将压缩文件插入到RedShift中

amazon-redshift

我在s3中有一个压缩过的文件。我想把它插入到RedShift数据库中。我的研究发现，唯一能做到这一点的方法是启动一个ec2实例。将文件移动到那里，将其解压缩，然后将其发送回S3。然后将其插入我的RedShift表中。但是我尝试从外部机器的JavaSDK中完成这一切，并且不想使用Ec2实例。有没有一种方法可以让EMR作业解压文件？或者直接将压缩文件插入到RedShift中？文件是.zip而不是.gzip

浏览 1提问于2013-07-19得票数 6

回答已采纳

2回答

将数据帧从SageMaker上传到亚马逊网络服务S3存储桶

python、pandas、amazon-web-services、amazon-s3、amazon-sagemaker

我是AWS环境的新手，正在尝试解决数据流的工作方式。在成功地将CSV文件从S3上传到SageMaker notebook实例后，我坚持执行相反的操作。我有一个数据帧，并想上传到S3存储桶作为CSV或JSON。我拥有的代码如下： bucket='bucketname' data_key = 'test.csv' data_location = 's3://{}/{}'.format(bucket, data_key) df.to_csv(data_location) 我想既然我在加载的时候成功地使用了pd.read_csv()，那么使用df.t

浏览 24提问于2019-06-28得票数 7

回答已采纳

1回答

使用API将大型文件上载/下载到/从Lambda函数，而不使用任何S3桶

amazon-web-services、api、amazon-s3、lambda、multipart

我正在实现一个无服务器API，使用： API GatewayLambdaS3铲子“如果needed"” 我的想法是：用二进制文件"zip“调用POST或PUT方法，将其上传到Lambda中的：解压缩文件。在Lambda中的：对提取的文件运行一个确定的脚本。在Lambda:生成一个新的压缩。<代码>H 123</代码>返回到我的桌面。<code>H 224</code><code>G 225</code> 这个流程已经实现，它可以很好地处理小文件，10 6MB用于上传，6 6MB用于下载。但是在处理大型文件

浏览 2提问于2019-09-27得票数 1

2回答

Heroku -如何更新大小为38MB的价目表？

ruby-on-rails、ruby、csv、heroku、sql-update

我的客户有一个带有产品的电子商务系统(大约有60k个产品项目)。价目表以ZIP格式放置在URL地址上。我需要首先下载价目表，解压缩，然后打开CSV文件，并开始逐行阅读。在他的数据库中是从CSV更新的价格(如果CSV中的产品价格与他的数据库中的产品价格不同，则使用CSV中的价格并更新数据库)。但是，在Heroku上可以做到这一点吗？下载大约40MB文件需要一些时间，从CSV导入数据到数据库(在本地主机上导入大约需要17分钟-但这是整个CSV到数据库的导入)。你将如何解决这种情况？我有什么选择？不幸的是，没有办法更改CSV文件，所以我必须使用该文件... 谢谢

浏览 2提问于2012-08-06得票数 0

回答已采纳

2回答

如何从电子病历中加密S3中的数据，而不需要在请求头中提到sse和key-id？

amazon-web-services、amazon-s3、amazon-emr、aws-kms

我已经创建了一个启用了Amazon S3的电子病历集群。我还配置了 fs.s3.enableServerSideEncryption = true fs.s3.serverSideEncryption.kms.keyId = key-id 在emrfs-site.xml中我将我的数据写入s3，如下所示 aws s3 cp /home/hadoop/test.csv s3://my-bucket/enc/ --sse aws:kms /key-id- here-/ 这将保存使用kms加密的数据，但我不想发送任何用于加密的参数，并且从当前电子病历集群发送的任何数据都应由encrypte

浏览 0提问于2017-01-20得票数 0

2回答

如何解压文件时，从HDFS加载到S3？

hadoop、snowflake-cloud-data-platform、distcp、s3distcp

我有lzo格式的csv文件在HDFS我想加载这些文件到s3，然后雪花，由于雪花不提供lzo压缩的csv文件格式，我被要求在运行时转换它，同时加载这些文件到s3。

浏览 19提问于2020-05-21得票数 0

2回答

如何返回Spark/HDFS中读取文件的文件名/文件路径？

apache-spark、hadoop、apache-spark-sql、hdfs

我想要自动处理每日上传的文件使用临时电子病历集群。我在S3上的文件是使用这样的日期键进行分区的： 2022-07-27-stats.csv 2022-07-28-stats.csv ... 每天，我从S3上传一个文件到‘hdfs://raw/’，并且在文件‘hdfs://raw/**..csv’中使用*作为Spark脚本中读取的文件，这样我就不必每天手动更新脚本中的读取路径来计算更改的日期键。这很好，但我希望能够在‘hdfs://raw’中获取文件的日期键部分，以便我可以使用字符串内插将其添加到脚本的写文件部分；这样，写入S3输出桶的文件可以类似地进行分区。是否有返回文件名的方法？

浏览 15提问于2022-07-27得票数 -2

1回答

Amazon S3下载文件方法返回空文件

python、amazon-web-services、amazon-s3、boto3

我正在尝试从亚马逊S3存储桶下载文件。下载成功，但每次都得到一个空文件。我尝试下载其他文件，看看是不是文件问题，但同样的事情发生了。不确定问题是什么，但这就是我要做的： import boto3 s3 = boto3.client('s3') with open('AWS Account Roles.csv', 'wb') as f: s3.download_fileobj('BUCKET_NAME', 'OBJECT_NAME', f) 我知道这不会改变任何事情，但我也尝试过这样做： import b

浏览 70提问于2021-09-13得票数 0

2回答

NotImplementedError:不支持文本模式，使用模式=‘wb’并在s3fs中管理字节

python、pandas、jupyter-notebook、amazon-sagemaker、python-s3fs

我知道有一个类似的问题，但这个问题比较笼统，而不是具体的。我正在将一只熊猫的数据存储在S3的一台Sagmake木星笔记本中，如下所示： df.to_csv('s3://bucket/key/file.csv', index=False) 但是，我得到了以下错误： NotImplementedError: Text mode not supported, use mode='wb' and manage bytes 代码或多或少是我从S3读取了一个csv，对其进行了一些预处理，然后将其保存到S3。我可以通过以下方法成功地从S3读取csv： df.read_csv(

浏览 4提问于2020-01-31得票数 2

回答已采纳

1回答

如何在S3上将多个大文件备份到单个压缩文件中

linux、tar、storage、gzip、amazon-s3

我有一个应用程序，它有数千个文件，总计超过10 an。我需要在某个地方备份这些数据(可能是AWS S3)。我想：压缩正在备份的数据将备份保存为单个文件例如，作为一个gzipped tarfile。由于其大小，我无法在本地创建gzipped tarfile，因为它太大了。我如何才能：将所有这些文件夹和文件作为一个压缩文件流到AWS S3上？将压缩文件从S3流回我的磁盘到原始的文件系统布局？

浏览 0提问于2022-11-30得票数 0

回答已采纳

1回答

在S3中将sparkdataframe写入.csv文件，并在pyspark中选择一个名称

apache-spark、amazon-s3、apache-spark-sql、spark-dataframe、pyspark-sql

我有一个数据帧，我打算用S3把它写成一个.csv文件，我用下面的代码： df.coalesce(1).write.csv("dbfs:/mnt/mount1/2016//product_profit_weekly",mode='overwrite',header=True) 它将一个.csv文件放在product_profit_weekly文件夹中，目前.csv文件在S3中有一个奇怪的名字，我写的时候可以选择一个文件名吗？

浏览 0提问于2016-10-28得票数 9

回答已采纳

3回答

从一个s3桶获得压缩文件，将它们解压缩到另一个s3桶

amazon-s3、aws-lambda、zip、unzip

我在一个s3桶中有压缩文件，我需要解压缩它们，并将解压缩的文件夹复制到另一个s3桶，并保持源路径。例如，如果在源桶中，压缩文件在下面 "s3://bucketname/foo/bar/file.zip" 那么在目标桶中，它应该是"s3://destbucketname/foo/bar/zipname/files.." 怎么做呢？我知道用lambda是有可能的，所以我不需要在本地下载，但是我不知道如何下载。谢谢！

浏览 0提问于2019-02-27得票数 1

1回答

Apache :在工作节点而不是主节点上创建的文件

apache-spark、hadoop-yarn、mesos

我在本地pc上配置了一个主计算机，在virtualbox中配置了一个工作节点，结果文件已经在worker节点上创建，我想知道为什么发送回主节点。因为我的工作节点不能将结果发送回主节点？怎么证明呢？我用火花2.2。我对主节点和工作节点使用相同的用户名。我还配置了没有密码的ssh。我尝试了--部署模式客户端和--部署模式集群。我试过一次，然后切换了主/工作者节点，得到了相同的结果。 val result = joined.distinct() result.write.mode("overwrite").format("csv") .option

浏览 0提问于2018-02-28得票数 0

回答已采纳

1回答

复制到运行正常但不加载数据的gzip文件

talend、snowflake-cloud-data-platform

我正在使用talend bulk execution将数据从s3加载到snowflake。Talend tFileArchive将文件转换为gzip格式，file.csv.gz并上传到s3存储桶。通过talend批量组件执行的副本如下所示。它不会抛出错误或其他东西，但也不会加载数据。如果我尝试在没有zip的情况下加载csv文件，它可以正常工作。 File: file.csv.gz Copy into table from 's3://bucket/' credentials=(aws_key_id='' aws_secret_key='

浏览 3提问于2020-07-31得票数 0

4回答

一步将数据从Postgres DB复制到AWS S3

java、postgresql、amazon-s3

我有一个用例可以将选定的数据从Postgres移动到Amazon。这种情况只需一步就能实现。我正在编写一个java程序来完成这个任务。我已经想出了一种在两个步骤中复制数据的方法。我使用CopyManager库和copyOut方法将数据输入本地。在此之后，我将使用Java将同一个文件移动到S3中。将数据输入本地的postgres代码 CopyManager copyManager = new CopyManager((BaseConnection) con); FileWriter fileWriter = new FileWriter("file.csv"); copyMa

浏览 0提问于2018-12-21得票数 4

回答已采纳

3回答

如何从S3存储桶中读取CSV文件，对其应用特定的if语句，并写入新的更新CSV文件并将其放入S3存储桶中？

python、amazon-web-services、csv、amazon-s3、aws-lambda

我在将新的CSV文件写入S3存储桶时遇到了问题。我希望能够读取S3存储桶中的CSV文件，如果CSV中的某个值符合特定要求，我希望将其更改为不同的值。我读到过不可能编辑S3对象，所以每次都需要创建一个新对象。简而言之，我想从S3存储桶中的另一个CSV文件创建一个新的、更新的CSV文件，并应用更改。我正在尝试使用DictWriter和DictReader，但我总是在使用DictWriter时遇到问题。我可以正确地读取CSV文件，但是当我尝试更新它时，有无数与DictWriter明显不同的问题。现在，我得到的问题是 # Function to be pasted into AWS Lambda.

浏览 0提问于2019-08-01得票数 2

3回答

红移复制命令写入正文失败(0 != 575)原因:未能膨胀无效或不完整的数据

csv、amazon-s3、amazon-redshift

我在S3上有一个名为data.csv.gz的文件，它是一个压缩的CSV。我已经用ungzip命令成功地将它解压缩，所以据我所知，它的压缩是正确的。运行以下命令会出现错误 COPY to_table ("id", "something", "something_else") FROM 's3://my.domain.com/somewhere/data.csv.gz' CREDENTIALS 'aws_access_key_id=********;aws_secret_access_key=********' IG

浏览 3提问于2015-08-17得票数 5

回答已采纳

3回答

没有前缀s3的复制

amazon-web-services、amazon-s3

我在s3中有类似的目录结构 bucket/folder1/*/*.csv 其中，该文件夹通配符引用了许多包含csv文件的不同文件夹。我想在没有前缀的情况下把它们复制到 bucket/folder2/*.csv 例:桶/折叠1/ s3distcp --src=s3://bucket/folder1/ --dests3://bucket/folder2/ --srcPattern=.*/csv 造成下列不理想结构的结果： bucket/folder2/*/*.csv 我需要一个大容量复制的解决方案，它是可伸缩的。我能用s3distcp做这个吗？我可以用aws s3 cp来完成这个任务(而不必在每个

浏览 1提问于2018-12-19得票数 0

回答已采纳

2回答

从S3存储桶中获取文件(.csv)并复制到RDS

python-2.7、amazon-s3、arcpy

我将连接到S3存储桶，获取csv文件并将行复制到RDS DB。在这个脚本中我们使用arcpy，我对这个包不是很熟悉，我只是尝试直接从S3存储桶中获取csv文件作为源代码，而不是将其下载到服务器上。代码如下： import arcpy from boto.s3.key import Key import StringIO import pandas as pd import boto import boto.s3.connection access_key = '' secret_key = '' conn = boto.connect_s3(aws_acces

浏览 2提问于2018-01-22得票数 0