将csv文件从pypark数据帧保存到s3存储桶中_将pandas数据帧作为csv保存到gcloud存储桶中_将JSON文件保存到S3存储桶中 - 腾讯云开发者社区

dataframe、amazon-s3、pyspark

我想将spark数据帧的内容保存到s3存储桶中的csv文件中： df_country.repartition(1).write.csv('s3n://bucket/test/csv/a',sep=",",header=True,mode='overwrite') 问题是它创

浏览 12提问于2019-06-25得票数 0

回答已采纳

1回答

Sage maker notebook中的雅典娜查询。如何获取输出文件的位置以实现可重用性？

python、amazon-web-services、amazon-athena、amazon-sagemaker

我的查询成功了： from pyathena import connectconn = connect(s3_staging_dir='s3://alphabucket我正在寻找API，将返回给我的结果文件。conn)print(file) # --> s3://alpha

浏览 35提问于2021-07-24得票数 0

1回答

获取spark数据帧写入的文件名

python、dataframe、amazon-s3、pyspark、filenames

我使用下面的代码将spark数据帧写入s3存储桶中。. \在这里，我想要获取正在写入s3 bukcet的文件的名称，并希望将该文件用作后面代码部分的一部分。我已经解决了上面的问题，因为我们不能在将数据</

浏览 0提问于2018-06-18得票数 1

1回答

pyspark数据帧与垃圾数据一起保存在s3存储桶中

python、amazon-s3、pyspark

当尝试将s3存储桶保存到csv并尝试直接保存存储桶时，文件正在保存，但它包含垃圾数据。所有文件大小都是1B。我哪里做错了，请帮帮我。python代码也试一下

浏览 1提问于2021-09-03得票数 0

1回答

如何从S3存储桶中读取上次修改的csv文件？

csv、amazon-s3、pyspark、pyspark-sql、aws-glue

我来找你，看看你是否有一个专业的技巧，将胶水作业生成的最新csv文件加载到S3存储桶中，以便加载到jupyter笔记本中。 's3:&#

浏览 10提问于2019-11-05得票数 0

回答已采纳

1回答

使用Glue从S3桶中转换CSV文件，并将转换后的数据保存回另一个S3桶

amazon-web-services、amazon-s3、aws-glue

目的是使用Glue将数据(csv文件)从一个S3桶转换为另一个S3桶。I创建了CSV分类器，i创建了一个爬虫来扫描S3桶中的数据。。我被困的地方：因为G

浏览 1提问于2020-09-09得票数 0

回答已采纳

1回答

如何合并S3存储桶中的CSV文件并使用AWS Glue将其保存回S3

amazon-web-services、amazon-s3、aws-glue、aws-glue-data-catalog、aws-glue-spark

目标是使用胶水将数据(csv文件)从一个S3存储桶转换到另一个S3存储桶。我创建了一个CSV分类器。我创建了一个爬虫来扫描S3存储桶中的数据。我被卡住的地方：如果不将输出保存到任何关系数据库服务或其他数据库服务中，则无

浏览 1提问于2020-09-10得票数 0

1回答

AWS Lambda、S3和pandas -将CSV加载到S3中，触发Lambda，加载到熊猫中，放回桶中？

python、pandas、amazon-web-services、amazon-s3、aws-lambda

我希望能够做的是将电子表格加载到s3存储桶中，基于上传触发lambda，让lambda将csv加载到s3中并使用它进行操作，然后将数据帧写回csv到第二个csv存储桶中。我还了解了如何在将文件上传到S3存储桶</e

浏览 2提问于2018-01-17得票数 5

4回答

在亚马逊网络服务中将pickle文件写入s3存储桶

python、pandas、amazon-web-services、amazon-s3

我正在尝试将一个熊猫数据帧作为一个pickle文件写入到亚马逊网络服务的s3存储桶中。我知道我可以将dataframe new_df作为csv写入到s3存储桶中，如下所示： bucket='mybucket's3_r

浏览 39提问于2018-03-06得票数 24

回答已采纳

4回答

如何在Python中使用Pandas从s3存储桶中读取csv文件

python、amazon-web-services、pandas、amazon-s3

我正在尝试使用以下代码将位于亚马逊网络服务S3存储桶中的CSV文件作为pandas数据帧读取到内存中：import boto data = pd.read_csv('s3:/example_bucket.s3-website-ap-southeast-2.amazonaws.com/data_1.cs

浏览 1提问于2015-06-13得票数 18

2回答

如何将文件名自动提取到数据框中，而不是手动指定

apache-spark、pyspark

我正在尝试用Scala或python自动化我的spark代码，这就是我想要做的从s3存储桶中，spark代码应该能够选择文件名并创建数据帧example Dataframe=sqlContext.read.format("com.databricks.spa

浏览 0提问于2016-02-04得票数 1

3回答

使用pyarrow从s3读取csv文件

pandas、aws-lambda、pyarrow

我想要读取位于s3存储桶中的csv文件，使用pyarrow将其转换为镶木到另一个存储桶。我在从s3读取csv文件时遇到问题。我尝试读取以下代码，但failed.Does pyarrow支持从s3读取csv？) 抛出错误"errorMessage"：“无法打开本地文件's3:

浏览 19提问于2019-12-24得票数 2

1回答

Spark数据帧滤波器优化

scala、apache-spark、apache-spark-sql

我正在从s3存储桶中读取大量文件。在读取这些文件之后，我想对数据帧执行过滤操作。但在执行过滤操作时，会再次从s3存储桶下载数据。如何避免数据帧重新加载？在过滤操作之前，我已经尝试过缓存和/或持久化数据帧。但是，数据还是从s3<

浏览 6提问于2019-09-05得票数 0

1回答

将文件从S3存储桶读取到PySpark数据帧Boto3

apache-spark、amazon-s3、pyspark、boto3

如何将S3存储桶中的大量文件加载到单个PySpark数据帧中？我在一个EMR实例上运行。如果文件是本地的，我可以使用SparkContext textFile方法。但是当文件在S3上时，我如何使用boto3加载多个不同类型的文件(CSV，JSON，...)转换成一个单独的数据帧进行处理？

浏览 0提问于2018-05-29得票数 3

回答已采纳

1回答

我如何使用Pyspark将doc/docx/docm文件保存到目录或S3桶中？

csv、apache-spark、pyspark、docx

我试图将数据帧保存到文档中，但它返回时表示以下错误 f_data.write.format("docx").save("dbfs:/FileStore/test/test.csv") displ

浏览 8提问于2022-12-02得票数 0

2回答

将数据帧从SageMaker上传到亚马逊网络服务S3存储桶

python、pandas、amazon-web-services、amazon-s3、amazon-sagemaker

我是AWS环境的新手，正在尝试解决数据流的工作方式。在成功地将CSV文件从S3上传到SageMaker notebook实例后，我坚持执行相反的操作。我有一个数据帧，并想上传到S3存储桶作为CSV或JSON。我拥有的代码如下： bucket='bucketname'data_lo

浏览 24提问于2019-06-28得票数 7

回答已采纳

1回答

Pyspark over zeppilin:无法导出为csv格式？

pyspark、export-to-csv、apache-zeppelin

我正在尝试将数据帧导出到S3存储桶的.csv文件中。不幸的是，它保存在拼图文件中。谁能让我知道，如何得到出口火花源数据帧到.csv文件。我尝试了下面的代码: predictions.select("probability").write.format('csv').<

浏览 15提问于2019-02-11得票数 2

回答已采纳

1回答

如何从S3存储桶下载文件？

amazon-web-services、flutter、amazon-s3、agora.io

我的要求是从s3存储桶中下载文件，我尝试将存储桶公开，然后使用该s3 URL成功下载文件，我正在使用Agora Cloud Recording对每个屏幕进行录制Agora成功地将视频保存到s3存储桶中，然后我需要从s3下载文件。Agora建议公开存储<em

浏览 25提问于2020-07-28得票数 0

1回答

AWS Sagemaker - df.to_csv error write()参数%1必须是unicode，而不是字符串

python、pandas、amazon-web-services、amazon-s3、amazon-sagemaker

我正在尝试从sagemaker实例将文件保存到S3存储桶中。下面这行抛出了一个错误！df.to_csv("s3://informatri/Drug_Data_Cleaned.csv"), index = False) error - <ipython-inpu

浏览 15提问于2020-11-05得票数 1

回答已采纳

1回答

使用Informatica powercenter在亚马逊S3存储桶中创建文件夹模式

amazon-s3、informatica、informatica-powercenter

我们需要使用Informatica powercenter 10.2 Hotfix 1将数据从teradata实现到亚马逊S3存储桶层中，所以我们的想法是将目标文件放在S3存储桶中的动态文件夹中，如s3://amazon.s3.bucket/YYYYMM/Schema&#

浏览 0提问于2021-06-17得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云