将pandas数据帧转换为parquet格式并上传到s3存储桶

的步骤如下：

导入必要的库：

import pandas as pd
import pyarrow as pa
import s3fs

创建一个pandas数据帧：

data = {'col1': [1, 2, 3, 4, 5],
        'col2': ['a', 'b', 'c', 'd', 'e']}
df = pd.DataFrame(data)

将数据帧转换为parquet格式：

table = pa.Table.from_pandas(df)

创建一个S3文件系统对象：

s3 = s3fs.S3FileSystem(anon=False)  # 需要提供AWS的访问密钥和密钥ID

定义要上传的文件路径和文件名：

bucket_name = 'your_bucket_name'
file_path = 'path/to/your/file.parquet'

将parquet文件上传到S3存储桶：

with s3.open(f'{bucket_name}/{file_path}', 'wb') as f:
    pa.parquet.write_table(table, f)

完成以上步骤后，pandas数据帧将被转换为parquet格式并上传到指定的S3存储桶中。

parquet格式是一种列式存储格式，具有高效的压缩和查询性能，适用于大规模数据分析和处理。它可以减少存储空间占用和数据读取时间，特别适用于处理大型数据集。

推荐的腾讯云相关产品是腾讯云对象存储（COS），它是一种高可靠、低成本的云存储服务，适用于存储和处理各种类型的数据。您可以使用腾讯云COS SDK来上传parquet文件到COS存储桶中。有关腾讯云COS的更多信息和产品介绍，请访问腾讯云COS官方网站：腾讯云对象存储（COS）。

雅典娜如何从S3存储桶中读取拼图文件

、、、、

我正在移植一个python项目(s3 +雅典娜)从使用csv拼花。我可以制作拼花面板文件，可以通过拼花面板视图查看。我可以将文件上传到s3存储桶。我可以创建指向s3存储桶的雅典娜表。但是，当我在Athena Web GUI中查询该表时，它运行了10分钟(似乎永远不会停止)，并且没有显示任何结果。整个项目很复杂。我试着简化这个案例。 1.假设我们有以下csv文件(test.csv) "col1","col2" "A","B" 2.然后，我使用以下python (2.7)代码将其转换为拼图文件(test.pa

浏览 18提问于2018-09-06得票数 0

1回答

用雅典娜在s3中读取Parquet文件

、、

目标是将多个拼花文件合并到一个雅典娜表中，以便我可以查询它们。我从csv转换了两个拼花文件： pandas.read_csv('a.csv').to_parquet('a.parquet', index=False) pandas.read_csv('b.csv').to_parquet('b.parquet', index=False) CSV具有id,name,age格式，例如： 1,john,20 2,mark,25 我将这些内容上传到S3桶：s3://my-test-bucket中，它被安排为： my-test-buck

浏览 12提问于2022-03-24得票数 0

回答已采纳

1回答

AWS Lambda、S3和pandas -将CSV加载到S3中，触发Lambda，加载到熊猫中，放回桶中？

、、、、

我是AWS和lambda的新手，所以如果这是一个愚蠢的问题，我道歉。我希望能够做的是将电子表格加载到s3存储桶中，基于上传触发lambda，让lambda将csv加载到s3中并使用它进行操作，然后将数据帧写回csv到第二个csv存储桶中。我读了很多关于压缩python脚本以及所有的库和依赖项并上传的内容，这是一个单独的问题。我还了解了如何在将文件上传到S3存储桶并自动将该文件复制到第二个s3存储桶时触发lambda。我找不到任何信息的部分是中间部分，将文件加载到pandas中并在pandas中操作文件都是在lambda函数中完成的。第一个问题:这样的事情有可能发生吗？第二个问题:如何从s

浏览 2提问于2018-01-17得票数 5

1回答

AWS雅典娜使用填充错误数据的create表将Epoch转换为时间戳

、、、、

为了测试雅典娜的查询，我已经加载了一个S3文件。将文件上传到S3后，我使用S3选择查询来检查数据。示例： Status Successfully returned 5 records in 460 ms Bytes returned: 3278 B { "test_date":1467936000 } 我使用这一个拼花文件使用以下查询创建表 CREATE EXTERNAL TABLE `test_table`( `test_date` timestamp) ROW FORMAT SERDE 'org.apache.hadoop.hive.ql.io.pa

浏览 1提问于2021-06-30得票数 1

回答已采纳

1回答

使用pyspark将拼图文件(在亚马逊s3中)存储到spark数据框架中

、、、、

我正在尝试从我的s3存储桶中的特定文件夹读取数据。这些数据是拼图格式的。为此，我使用了 import awswrangler as wr # read data data = wr.s3.read_parquet("s3://bucket-name/folder/with/parquet/files/", dataset = True) 这将返回一个pandas数据帧： client_id center client_lat client_lng inserted_at matrix_updated 0700292081 BFDR -23.6077

浏览 9提问于2021-06-10得票数 0

回答已采纳

1回答

不带s3传输族的AWS sftp

、、

有没有其他方法可以将文件从Ubuntu服务器上传到没有AWS传输家族的AWS s3？我必须每五分钟做一个MYSQL转储，并上传到桶，但是传输家庭的每小时价格对客户来说太高了。我是否可以将存储器附加到EC2上并在其上建立一个SFTP帐户？包含MYSQL的VPS由DigitalOcean托管。

浏览 0提问于2022-08-10得票数 1

回答已采纳

2回答

如何在Javascript中从.mp4中每隔5帧提取一次？

、、

我正在构建一个将本地.mp4上传到S3存储桶的web应用程序。它适用于低带宽环境。是否可以在前端以JavaScript格式每隔5帧上传一次.mp4，并上传这个精简的.mp4？

浏览 5提问于2020-05-07得票数 0

2回答

指定将Pandas数据帧上传到S3时要使用的AWS配置文件名称

、、

我想通过指定S3 url将熊猫的数据帧直接上传到s3。我有一个，我想指定用于此上传的配置文件的名称。既然是，我想知道是否有其他方法可以在代码中指定(非默认)区域。我无法在库中归档任何这样的选项，boto3在内部使用该库来上传到s3。请注意，我不想使用环境变量，也不想修改AWS凭证文件中的默认配置。 import pandas as pd data = [1, 2, 3] df = pd.DataFrame() # I would like to specify non-default profile to use here s3_url = 's3://my_bucket/p

浏览 0提问于2018-01-28得票数 4

1回答

转换为拼图的csv文件将'e0‘添加到值的末尾

、

我正在运行一个测试来填充Redshift中的一个表。我将模拟数据添加到csv文件中，然后将其转换为带有pandas的拼图。我使用COPY命令将数据从s3存储桶中的parquet文件获取到我的红移数据库。我得到了错误： 'file has an incompatible Parquet schema for column' 这些列是十进制(12,3)。我查看了s3控制台，发现在查看转换后的拼图文件时，已将'e0‘添加到值的末尾，例如： {"id":2873130000000000000,"field1":9.335e0

浏览 14提问于2021-04-13得票数 0

回答已采纳

1回答

如何从s3桶中读取所有拼花文件

、、

我现在有一个s3桶，里面有文件夹和拼花文件。我想阅读所有单独的拼花文件，并将它们连接到一个熊猫数据文件中，不管它们在哪个文件夹中。我正在尝试以下代码： import pyarrow.parquet as pq import s3fs s3 = s3fs.S3FileSystem() pandas_dataframe = pq.ParquetDataset('s3://vivienda-test/2022/11', filesystem=s3).read_pandas().to_pandas() print(pandas_dataframe) 我意识到它只适用于连接桶的特定文

浏览 6提问于2022-11-03得票数 0

1回答

InputFile在R中是如何工作的

、、、

我正在开发一个R闪亮的应用程序，该应用程序将从用户接收视频，并上传到亚马逊网络服务s3桶。如果我使用R connect来部署应用程序，我不清楚这个视频是如何上传的。它是通过https还是http？我知道它将被保存到R shiny服务器，然后上传到s3存储桶，但如果有一种方法可以直接保存到s3存储桶？

浏览 27提问于2021-03-03得票数 0

1回答

如何将docusign与亚马逊s3云连接？

我想从我们的s3存储桶中访问文档，并上传到docusign以获得接收者的签名，签名完成后，文档需要再次上传到我们的s3存储桶中。我想知道使用docusign的过程，.It是可以使用rest api的，也可以让我知道。请给我解决这个问题的办法.Thank你

浏览 32提问于2019-01-10得票数 0

回答已采纳

1回答

sys.meta_path错误: HTTP客户端引发了未处理的异常: Botocore必须是导入挂钩的列表

、、、、

我正在运行这个小片段，以便使用parquet将熊猫数据帧上传到s3。但是我得到了一个错误： Exception botocore.exceptions.HTTPClientError: HTTPClientError(u'An HTTP Client raised an unhandled exception: sys.meta_path must be a list of import hooks',) in <bound method S3File.__del__ of <S3File /my-bucket-name/parquet/six>>

浏览 24提问于2020-07-28得票数 1

2回答

将日期为S3的.parquet文件复制到Redshift

、、、

我正在尝试从S3中使用COPY命令将.parquet文件加载到我的红移数据库中。该文件包含一个日期格式为2018-10-28的列。Redshift中表中的相关字段定义为date。源spark数据帧将字段显示为datetime64，并将其转换为pandas，因为它是时间戳。使用简单的COPY dates FROM s3://mybucket/file.parquet iam_role {xxxxx} FORMAT AS PARQUET总是返回一个不兼容的模式错误。在我的jupyter笔记本中，我看不到完整的错误描述，但我猜它是日期字段，就像表的其余部分一样，是一个简单的varchar字段和

浏览 4提问于2019-08-30得票数 0

2回答

使用pyarrow读取亚马逊网络服务s3中的分区数据集不会添加分区列

、、、

我正在尝试在亚马逊网络服务s3中读取一个分区的数据集，它看起来像这样： MyDirectory--code=1--file.parquet --code=2--another.parquet --code=3--another.parquet 我创建了一个包含目录中所有文件路径的file_list，然后执行 df = pq.ParquetDataset(file_list, filesystem=fs).read().to_pandas() 除了分区列code在dataframe df中不存在之外，一切都可以正常工作。我也尝试使用file_list

浏览 16提问于2020-01-07得票数 1

2回答

Amazon EC2 - EBS AMI的本地备份

、

我想存储我的EBS AMI的本地副本，以便妥善保管/记住，但这似乎不是非常直接。我遇到的唯一方法是将EBS AMI转换为instance-store/S3‘格式’，按照链接中的描述将其捆绑并上传到S3，然后通过s3浏览器下载。然后，当我想要重新上传时，我必须通过这样的方式转换回EBS：我甚至不能完全确定这种方法是否能像预期的那样工作。它是不是不正确，有没有更好的替代方案？可以从s3非“用户可见”的存储桶中下载一个AMI吗？

浏览 0提问于2013-07-16得票数 7

回答已采纳

3回答

如何将pyarrow镶木地板数据写入s3存储桶？

、、、

我已经创建了一个数据帧，并使用pyarrow (也提到了)将该df转换为拼图文件： def convert_df_to_parquet(self,df): table = pa.Table.from_pandas(df) buf = pa.BufferOutputStream() pq.write_table(table, buf) return buf 现在我想保存上传到s3存储桶，并尝试upload_file()的不同输入参数，我尝试的一切都不起作用： s3_client.upload_file(parquet_file, bucket_name, dest

浏览 23提问于2019-11-12得票数 1

1回答

如何将iPhone捕获的视频转换为HTTP流文件？

、、

我在AmazonWebServicesEC2/S3上有一个iOS应用程序和Django后端。目前的程序： iOS应用程序使用UIImagePickerController捕捉视频，它输出一个MP4。 MP4被上传到运行Django的EC2 (Ubuntu)服务器上。 Django读取文件并上传到S3存储。现在，iOS应用程序可以在稍后时间访问S3电影来观看。它使用渐进式流(即假流，下载时只播放)。目标：我的目标是在这里利用here (HLS)。有人可以建议如何改变我当前的工作流程，使HLS文件(.M3U8和.TS)在S3上允许流吗？谢谢。

浏览 4提问于2012-08-07得票数 4

回答已采纳

1回答

如何使用s3从boto3读取拼图文件

、、

我在s3桶(s3://mybucket/my/path/)中没有几个拼板文件。我想要阅读它使用boto3的火花数据。由于现有的安全性，我不能将它直接读为spark.read.parquet('s3://mybucket/my/path/')。因此，需要使用boto3阅读它。当尝试使用下面的代码读取单个拼板文件(S3://mybucket/my/path/myfile1.parquet)时，我得到了错误。 res = autorefresh_session.resource('s3') bucket = res.Bucket(name=mybucket) ob

浏览 0提问于2021-11-17得票数 0

1回答

如何解码字典列时使用pyarrow读取拼花文件？

、、、、

我有三个.snappy.parquet文件存储在一个s3桶中，我试着使用pandas.read_parquet()，但是只有当我指定一个单独的拼板文件(例如：df = pandas.read_parquet("s3://bucketname/xxx.snappy.parquet") )时，它才能工作，但是如果我不指定文件名df = pandas.read_parquet("s3://bucketname")，这就不能工作了，这给我带来了错误：Seek before start of file。我读了很多书，然后我发现了这个这表明我们可以使用pyarrow读取

浏览 2提问于2021-06-15得票数 0

回答已采纳

2回答

有没有办法合并多个CSV文件上传到亚马逊网络服务S3存储桶使用Python？

、、

我需要设置一个AWS Lambda函数，该函数在新的CSV文件上传到S3存储桶时触发，以将CSV文件合并为一个主文件(它们将具有相同的列数和列名)，然后将新的主文件上传到另一个S3存储桶。我使用Python实现Lambda函数。我用我的Lambda函数和我使用的依赖项(Pandas和Numpy)创建了一个zip文件夹，并上传了它。目前，我必须将我想要合并在一起的CSV文件包括在压缩文件夹本身中，当我检入CloudWatch时，该函数会合并这些CSV文件，并且输出(主文件)在日志中。我不知道如何将我的代码链接到输入和输出的S3存储桶。这是我正在开发的一个应用程序。下面是我使用的pyth

浏览 1提问于2019-07-02得票数 1

1回答

将pandas数据帧转换为parquet格式并上传到s3存储桶

、、、、

我有一个拼图文件列表，需要从一个S3存储桶复制到另一个帐户中的另一个s3存储桶。在上传之前，我必须在parquet文件中添加一些列。我正在尝试读取文件到一个熊猫数据帧，我正在添加列，并转换它拼图，但它似乎不工作。这就是我正在尝试的。my_parquet_list是我获取所有密钥列表的地方。 for file in my_parquet_list: bucket = 'source_bucket_name' buffer = io.BytesIO() s3 = session.resource('s3') s3_obj = s

浏览 83提问于2020-12-09得票数 0

回答已采纳

1回答

从S3存储桶中读取Spark Dataframe，而另一个进程向其写入？

、、、、

读取spark数据帧并通过Jupyter笔记本和另一个并发写入s3存储桶的进程将其持久化是否会出现任何问题？说, 我读了一个数据框，如下所示： s3 = spark.read.parquet('s3://path/to/table') 并在笔记本上做这件事。同时，我在某个时刻通过不同的过程写出相同的s3存储桶，例如 system('s3-dist-cp --src --dest s3://path/to/table) 这会被证明是一个问题吗？我不介意弄乱读/数据帧，但我不想阻止写到存储桶中。

浏览 0提问于2018-09-21得票数 0

2回答

阅读最后N行S3拼花表

、、、

如果我将讨论过的应用到S3 buck中读取S3 buck中的拼花文件，特别是： import pyarrow.parquet as pq import s3fs s3 = s3fs.S3FileSystem() pandas_dataframe = pq.ParquetDataset('s3://your-bucket/', filesystem=s3).read_pandas().to_pandas() 当表随着时间的推移越来越大时，我需要定期进行检索，我只想将最后的N行读入数据帧。这个是可能的吗？

浏览 0提问于2021-06-20得票数 4

回答已采纳

2回答

为什么AWS Athena在目标S3位置转储结果时需要'spill-bucket‘

、、、

为什么AWS Athena在目标S3位置转储结果时需要'spill-bucket‘ WITH ( format = 'Parquet', parquet_compression = 'SNAPPY', external_location = '**s3://target_bucket_name/my_data**' ) AS WITH my_data_2 AS (SELECT * FROM existing_tablegenerated_data" limit 10) SELECT * FROM my_data

浏览 0提问于2021-02-24得票数 2

1回答

在go中写拼图文件的时间戳的格式是什么

、、

我正在尝试在一个Parquet文件中编写一个Go结构并上传到S3。我为struct中的timestamp参数指定了什么格式和类型，以便雅典娜在从拼接文件读取时显示正确的时间戳。 type example struct { ID int64 `parquet:"name=id, type=INT64"` CreatedAt int64 `parquet:"name=created_at,type=TIMESTAMP_MILLIS"` } ex := example{} ex.ID = int64(10

浏览 0提问于2019-01-17得票数 1

2回答

从AWS S3下载没有访问权限的文件

、、、

我有一个工作代码可以从S3中的一个桶中下载文件，并通过Python完成一些转换工作。I不嵌入，在代码中嵌入访问和密钥，但是键在中，我的AWS配置。 import boto3 import botocore BUCKET_NAME = 'converted-parquet-bucket' # replace with your own bucket name KEY = 'json-to-parquet/names.snappy.parquet' # replace with path and follow with key object s3 = boto

浏览 2提问于2019-10-23得票数 0

4回答

将Lambda配置为在S3桶中使用最新版本的代码

、、、

我在AWS上使用codepipeline，codebuild和cloudformation。我的流量是：推动提交到github，这会触发codepipeline 代码构建上传(压缩) lambda函数到S3桶 Cloudformation配置lambda函数云形成(简化)： CreateDoctorLambda: Type: AWS::Lambda::Function Properties: Runtime: python3.6 Handler: lambda_function.lambda_handler Role

浏览 0提问于2018-08-16得票数 6

回答已采纳

1回答

如何使用pyarrow从s3读取已分区的拼图文件？

、、、、

我正在尝试读取存储在s3桶中的分区拼花目录。为了解决这个问题，让我们把这个桶称为bucket。桶有一个文件夹，其中包含基于年份/月/日/小时的后续分区。因此，如果要到达一个.parquet文件，url将是： s3://bucket/folder/year/month/day/hour 我试着去读它，就像我会读任何其他的地板文件一样。我最近一直在和他们合作。但是，到目前为止，我还没有尝试读取分区文件。我在下面列出了我的示例代码： import s3fs import pandas as pd import boto3 # Creating an S3 Filesystem (Only r

浏览 0提问于2019-06-13得票数 1

回答已采纳

1回答

使用lambda将文件流上传到s3文件

、、

我正在用盒子api在AWS上工作。我想使用lambda函数将文件上传到s3存储桶中。但是给出了错误我使用此接口获取文件的内容并上传到s3存储桶。但内容是流的。下面是我的代码 let status= await appUserClient.files.getReadStream(fileId, null, async function(error, stream) { var params = {Bucket: 'bucketname', Key: 'key.csv', Body: stream}; let status= await

浏览 5提问于2019-12-19得票数 0

1回答

如果一切都已设置好，则修改S3对象将反映在云前端上

、、

让我们假设我已经设置了s3存储桶和Cloudfront distrib。指着它。有一个CSS文件，我可以通过Cloudfront在CSS上做get请求。现在，如果对CSS进行更新并上传到s3存储桶，它是否可以在没有Cloudfront缓存失效的情况下工作，或者我应该在Cloudfront上缓存失效。有没有人能解释一下。

浏览 16提问于2020-03-08得票数 0

1回答

是否可以通过URL将图像加载到S3中？

、

我正在通过如何将文件和文件夹上载到S3桶？文档中的一些步骤将我的卵子放入S3中。对我来说，下载并上传它似乎是浪费时间，有没有从web资源导入S3对象的机制？我有一份UCS主管的工作，为我构建OVA，将它们上传到Cassandra大数据集群，并为我和客户提供模糊链接供我和客户下载--我想提供到AWS的所谓模糊链接，而不是下载到我的计算机上并上传到S3。最后，我想我可以让我的图像直接从UCS总监到AWS，但暂时，我想节省一步。

浏览 0提问于2018-03-13得票数 2

1回答

Pyarrow在使用S3文件系统时覆盖数据集

、

当将两个拼板文件本地写入数据集时，箭头可以适当地附加到分区。例如，如果我使用箭头逐列对两个文件进行分区，箭头将生成一个文件结构，其子文件夹对应于A列中的每个唯一值，当我编写带有分区的第一个parquet文件时。当写入第二个文件时，箭头足够智能，可以将数据写入正确的分区。因此，如果A列中的文件1和两个共享公共值，则在子文件夹中可以看到两个具有公共值的单独文件。代码示例： df = pd.read_parquet('~/Desktop/rough/parquet_experiment/actual_07.parquet') table = pa.Table.from_pandas(

浏览 8提问于2021-09-14得票数 0

回答已采纳

1回答

使用Lambda从S3上的CSV文件创建S3上的压缩文件

、、、、

在我的S3存储桶中，每天大约生成60个CSV文件。每个文件的平均大小约为500MB。我想通过lambda函数动态压缩所有这些文件(而不是在Lambda执行中下载文件)，并将这些压缩文件上传到另一个s3存储桶中。我遇到了这些解决方案1和2，但我仍然在实现中遇到问题。现在，我正在尝试将CSV文件数据流式传输到一个压缩文件(这个压缩文件是在Lambda tmp目录中创建的)，然后上传到s3。但是我在写入压缩文件时收到这个错误信息：[Errno 36] File name too long 这是我的测试Lambda函数，我只是尝试处理一个文件，但在实际情况下，我需要单独压缩50-60个CSV文件：

浏览 25提问于2020-12-28得票数 1

回答已采纳

1回答

如何解决“参数验证失败”错误时，我上传熊猫数据作为一个s3桶作为一个boto3桶？

、、、、

我正在学习一篇关于udemy的教程，在那里我尝试用s3将熊猫数据上传到boto3桶作为一块拼花。我使用BytesIO将dataframe转换为拼板，并尝试将其上传到我的s3桶中，这是我让公众可以访问的。在执行时，我遇到一个错误： Parameter validation failed: Missing required parameter in input: "Key" Unknown parameter in input: "key", must be one of: ACL, Body, Bucket, CacheControl, ContentDispo

浏览 11提问于2022-11-08得票数 2

回答已采纳

2回答

如何使用Boto3将gzipped拼图文件从S3读取到Python？

、、、、

我的S3存储桶上有一个名为data.parquet.gzip的文件。我不知道读它有什么问题。通常我会使用StringIO，但我不知道如何修复它。我想使用pandas和boto3将它从S3导入到我的Python jupyter笔记本会话中。

浏览 16提问于2019-04-18得票数 1

1回答

DuckDB用于读取s3上的多个拼花文件

、、

我试图使用带有HTTPFS扩展的DuckDB从具有类似密钥的s3桶中使用相同的模式查询大约1000个拼花文件。当我使用duckdb查询单个文件时，我可以获得该表 import duckdb import pandas as pd cursor = duckdb.connect() df = cursor.execute(f""" INSTALL httpfs; LOAD httpfs; SET s3_region='

浏览 9提问于2022-10-19得票数 0

9回答

如何使用pyarrow从S3中读取作为熊猫的数据文件列表？

、、、、

我有一种用boto3 (1.4.4)、pyarrow (0.4.1)和pandas (0.20.3)来实现这个目标的方法。首先，我可以在本地读取一个拼花文件，如下所示： import pyarrow.parquet as pq path = 'parquet/part-r-00000-1e638be4-e31f-498a-a359-47d017a0059c.gz.parquet' table = pq.read_table(path) df = table.to_pandas() 我还可以在本地读取一个像这样的拼花文件目录： import pyarrow.parquet a

浏览 34提问于2017-07-11得票数 67

回答已采纳

1回答

如何删除7天以上的文件，但在亚马逊的S3中保存每月1次的最后6个文件？

、、、、

我们有一个备份策略，每天获取db转储并上传到s3桶。我们希望从s3中删除7天以上的备份，但我们也希望在过去的6个月中保持每月1日的备份。备份文件采用db_dump20220430220001.gz格式。

浏览 5提问于2022-11-25得票数 -1

2回答

将图像从一个S3桶复制到diff帐户s3桶

、

我使用的是RESTful API，API提供程序在S3存储桶上有超过80 am大小的映像。我需要下载这些图片，并上传到我的AWS S3桶，它的时间占用工作。有没有办法将图像从API复制到我的S3桶而不是我下载和上传一次。我和API支持部门谈过，他们说你得到了图像URL，所以这取决于你如何处理，我用的是拉拉。是获取源图像url并将图像直接移动到S3的方法，而不是我首先下载和上传的. 谢谢

浏览 3提问于2021-01-20得票数 1

1回答

在aws glue中运行的pandas_udf函数不会在没有打印函数的情况下将对象放入s3

、、、、

这就是我正在尝试做的事情。 SparkDataframe -> groupby ->调用pandas_udf方法，该方法使用boto3在s3中创建一些文件 pandas_udf方法 # Pandas_UDF method saveSNFile_schema = StructType([ StructField('cloc', StringType(), True), # chunk file location StructField('aggloc', StringType(), True), # chunk file locati

浏览 11提问于2020-06-13得票数 0

2回答

拒绝从S3存储桶[pendente]访问

、、

在帐户A中，我使用cloudformation创建了一个s3存储桶，然后CodeBuild构建了一个工件并上传到此存储桶。在帐户B中，我尝试使用cloudformation创建一个堆栈，并使用帐户A的存储桶中的工件来部署我的Lambda函数。但是，我得到了一个拒绝访问的错误。有人知道解决方案吗？谢谢..。 "TestBucket": { "Type": "AWS::S3::Bucket", "DeletionPolicy": "Retain", "Properties": { &

浏览 0提问于2017-02-07得票数 1

1回答

命名拼图文件

、、

我正在卸载数据到S3使用卸载查询红移(文件格式: Parquet).Is它可以命名拼花地板文件，而卸载数据到S3桶使用卸载查询(包括分区子句)？

浏览 13提问于2021-03-01得票数 0

1回答

Pandas数据帧到内存中的parquet缓冲区

、、、、

使用案例如下：从外部数据库读取数据并将其加载到pandas中，然后将数据帧加载到parquet格式缓冲区中将该缓冲区上传到s3 我一直在尝试在内存中执行第二步(不需要将文件存储到磁盘以获得parquet格式)，但到目前为止，我看到的所有库都是写入磁盘的。因此，我有以下问题：如果在内存中完成转换，性能不是更好吗?因为您不必处理I/O磁盘开销。当您增加转换文件并将其存储到磁盘的并发进程时，我们是否会遇到有关磁盘的问题，例如在某些情况下空间不足或达到磁盘吞吐量限制?

浏览 65提问于2018-10-23得票数 7

2回答

通过s3_additional_kwargs将Pandas数据帧加载到S3

、、、

请原谅我在这方面的无知/缺乏知识！我希望上传一个数据帧到S3，但我需要传递'ACL':'bucket-owner-full-control‘。 import pandas as pd import s3fs fs = s3fs.S3FileSystem(anon=False, s3_additional_kwargs={'ACL': 'bucket-owner-full-control'}) df = pd.DataFrame() df['test'] = [1,2,3] df.head() df.to_parque

浏览 11提问于2020-02-14得票数 3

1回答

查询所寻址的S3桶位于与此集群不同的区域，但parquet文件不支持region参数。

、、

我正在使用copy命令从s3桶中填充Redshift数据库。它们在不同的区域，所以我插入 '...FORMAT AS PARQUET REGION AS 'us-east-1' 但这就产生了错误： psycopg2.errors.FeatureNotSupported: REGION argument is not supported for PARQUET based COPY 有人能为这件事提出解决方案吗？

浏览 2提问于2021-04-22得票数 1

回答已采纳

1回答

使用S3下载和上传TemporaryFile

、、、

我需要下载所有的内容(包括版本)的亚马逊S3桶，并上传到其他亚马逊S3桶。别叫我用aws，我就是不能用。我使用tempfile.TemporaryFile，它显然是有效的，打印显示文件对象有正确的内容在里面，但是上传的文件是空的(零字节)。 with tempfile.TemporaryFile() as data: sourceUser.download_fileobj('source-bucket',key,data) # next 2 lines was just to check the content of the file data.see

浏览 2提问于2018-04-12得票数 2

2回答

从s3子目录读取PySpark中的数据

、、、、

我想从一个S3桶中读取所有的拼板文件，包括子目录中的所有文件(这些实际上是前缀)。在S3 url中使用通配符(*)只适用于指定文件夹中的文件。例如，使用此代码将只读取target/文件夹下的拼花文件。 df = spark.read.parquet("s3://bucket/target/*.parquet") df.show() 假设我在我的s3桶中有这样一个结构： "s3://bucket/target/2020/01/01/some-file.parquet" "s3://bucket/target/2020/01/02/some-file.pa

浏览 1提问于2020-10-08得票数 2

回答已采纳

1回答

在python中使用s3 select解析多个拼花文件？

、

我试图从一个带有S3的boto3桶子文件夹中读取多个拼板文件。在用python读取一个csv文件时，我没有遇到任何问题，但我以前没有能够让它与多个文件读取一起工作。我已经看到以前的答案，这是不支持aws。然而，据我所知，这一功能已于2018年年底实施。那么，是否有一种方法，使用我的工作代码(如下所示)对相关文件夹中的所有parquet文件运行一个s3 select语句，即从所有文件中选择所有行？存储桶中工作子文件夹中的文件： _success file1.snapy.parquet file2.snapy.parquet python代码： response = s3.select_o

浏览 2提问于2019-10-16得票数 3

1回答

将大火花数据帧写入s3桶

、、

我的场景 I在AWS胶水作业中有一个火花数据帧，其中有400万条记录，，我需要将它写成AWS s3中的单个拼花文件。当前代码 file_spark_df.write.parquet("s3://"+target_bucket_name) 问题上面的代码创建100+文件的大小为17.8到18.1MB，猜猜它的一些默认的分解大小问题1:如何只创建一个文件？对于一个火花数据帧?，我检查了，没有找到任何要设置的参数问题2:如何指定我尝试的文件的名称. file_df.write.parquet("s3://"+target_bucket_name+"/&#

浏览 3提问于2021-01-21得票数 0