使用pyarrow读取亚马逊网络服务s3中的分区数据集不会添加分区列_使用PyArrow从多个文件中读取已分区的宗地数据集，然后根据文件名添加分区键 - 腾讯云开发者社区

database、amazon-web-services、amazon-s3、amazon-dynamodb

我是亚马逊网络服务的新手，需要决定选择亚马逊网络服务发电机数据库或亚马逊网络服务S3。我有一个用例，在这个用例中，我需要从数据源获取多个项，并更新这些项，然后放回数据源。我搜索了一下，发现我们不能在S3中执行多个get。任何建议都会很有帮助!！

浏览 1提问于2016-06-17得票数 4

1回答

如何使用Spark DataFrameWriter.partitionBy获取分区列值的集合

apache-spark、partitioning

我想使用星火DataFrameWriter.partitionBy()来写亚马逊网络服务S3。当然，它为分区列值的每个唯一组合写入一个单独的目录分支。有没有办法从Spark得到DataFrame中存在哪些分区列值组合，即写入了哪些分区列值组合？而不查询“文件系统”(亚马逊网络服务S3对象存储)。

浏览 9提问于2018-03-03得票数 0

2回答

从Glue Catalog和Glue Py Spark脚本中的动态路径同步CSV文件

amazon-web-services、amazon-s3、pyspark、aws-glue

我每天都将CSV文件存储在亚马逊网络服务s3中。下面是我的S3文件路径结构： s3://data-dl/abc/d=2019-09-19/2019-09-19-data.csv 在此结构中，将每天生成s3文件路径的日期部分。现在我想使用AWS glue for ETL将数据从S3传输到Redshift。要使用它，我如何在数据目录中添加S3路径？我只想同步最近使用的文件夹CSV文件。另外，对于Job part，我如何在Glue Pyspark脚本中声明此动态路径？

浏览 1提问于2019-09-19得票数 0

1回答

如何创建用于在web前端显示大型数据集的后端

amazon-s3、aws-lambda、parquet、aws-glue、amazon-athena

我有大量的时间序列相关数据分成一个小时的间隔存储在亚马逊网络服务的s3文件(每小时一个文件)。其目的是让web应用程序显示该数据。由于我们不能根据请求抓取s3上的每个拼图，因此我的方法是使用ETL过程来聚合这些序列，并将它们存储为单个拼图并存储在dynamodb表中，用于不同的聚合视图，如年、月、周、日、小时甚至分钟。此外，处理后的拼花将可用于aws athena进行查询(不是从前端，因为我预计执行查询需要很长的等待时间)。

浏览 17提问于2020-03-13得票数 1

回答已采纳

1回答

将数据从关系数据库传输到S3时，关系是否会保留？

amazon-s3、relational-database、amazon-rds、object-oriented-database

在亚马逊网络服务中，有用于将数据库快照从关系数据库传输到S3的options。但是S3是一个对象存储，所以它只存储文件(例如parquet)。关系数据库中的表之间的关系(如键)是否以某种方式传递到了S3？是否仍然可以对S3中的文件进行查询，从而允许在表之间进行连接？

浏览 29提问于2021-07-10得票数 0

5回答

如何使用python中的py箭头从S3读取已分区的拼图文件

python、parquet、pyarrow、fastparquet、python-s3fs

我寻找使用python从s3中读取来自多个分区目录的数据的方法。 data_folder/serial_number=1/cur_date=20-12-2012/abcdsd0324324.snappy.parquet data_folder/serial_number=2/cur_date=27-12-2012/asdsdfsd0324324.snappy.parquet pyarrow的ParquetDataset模块具有从分区读取数据的能力。因此，我尝试了以下代码： >>> import pandas as pd >>> import pyarrow.

浏览 8提问于2017-07-13得票数 60

回答已采纳

1回答

亚马逊雅典娜如何从S3选择新文件/记录

amazon-web-services、aws-lambda、amazon-athena

我不时地在亚马逊S3上添加文件，我正在使用亚马逊雅典娜对这些数据执行查询，并将其保存在另一个S3存储桶中作为CSV格式(聚合数据)，我正在尝试找到方法让雅典娜只选择新数据(这是雅典娜以前没有查询过的)，以优化成本并避免数据重复。我尝试在被雅典娜选中后更新记录，但在雅典娜中不支持更新查询。有什么办法可以解决这个问题吗？

浏览 18提问于2020-09-07得票数 1

回答已采纳

6回答

将dynamoDB表复制到另一个不带S3的亚马逊网络服务账户

copy、amazon-dynamodb

我想将所有的dynamoDB表复制到另一个没有s3的亚马逊网络服务账户来保存数据。我看到了使用数据管道复制表的解决方案，但都是使用s3来保存数据。我想跳过s3步骤，因为表中包含大量数据，因此s3写入和s3读取过程可能需要一些时间。因此，我需要直接将表从一个帐户复制到另一个帐户。

浏览 2提问于2017-04-25得票数 27

1回答

将所有csv文件从s3转换为parquet

python

我要做的是将所有文件从S3(亚马逊网络服务存储)转换为parquet格式，并将它们重新保存到s3中。我不能从s3转换所有的文件。请帮帮我!！ import boto3 import pandas as pd import pyarrow as pa from s3fs import S3FileSystem import pyarrow.parquet as pq s3 = boto3.client('s3',region_name='us-east-2') obj = s3.get_object(Bucket='dstest-s3', K

浏览 21提问于2019-07-25得票数 0

1回答

S3数据池中数据的增量更新

amazon-web-services、amazon-s3

我是AWS新手，来自ETL背景的数据仓库。我们目前正在使用AWS服务数据湖向云移动，并尝试使用sqoop作业将数据从外部源关系数据库管理系统(Bucket)加载到亚马逊s3登陆层(Bucket)，然后使用Informatica将数据加载到亚马逊S3中的不同层(桶)。从外部源系统获取数据的频率为每天。我不知道如何在S3中实现Delta /SCD类型。在亚马逊的S3桶中创建对象之后，是否有可能更改它，或者我们是否必须继续在s3桶中作为对象创建日常负载的副本？我知道亚马逊为我们提供了数据库选项，但我们被指示将数据加载到Amazon中。

浏览 1提问于2018-10-21得票数 1

回答已采纳

2回答

从EC2读取用于ML培训的S3存储桶

amazon-web-services、amazon-s3、amazon-ec2

我正在尝试在亚马逊网络服务EC2上训练一个机器学习模型。我目前有超过50 S3的数据存储在亚马逊网络服务的S3存储桶中。在EC2上训练我的模型时，我希望能够访问这些数据。从本质上讲，我希望能够调用此命令： python3 train_model.py --train_files /data/train.csv --dev_files /data/dev.csv --test_files /data/test.csv 其中/data/train.csv是我的S3存储桶s3://data/。我该怎么做呢？我目前只看到了将S3数据cp到我的EC2中的方法。

浏览 0提问于2020-06-22得票数 0

1回答

Flink Streaming AWS S3并行读取多个文件

amazon-s3、apache-flink、flink-streaming、flink-cep

我是Flink的新手，我的理解是遵循API调用 StreamExecutionEnvironment.getExecutionEnvironment().readFile(format, path) 将并行读取给定S3存储桶路径的文件。我们将日志文件存储在S3中。要求是为多个客户端请求提供服务，以便使用时间戳从不同的文件夹读取数据。对于我的用例，为了服务多个客户端请求，我正在评估使用Flink。因此，我希望Flink为不同的亚马逊网络服务S3文件路径并行执行亚马逊网络服务S3读取。是否有可能在单个Flink作业中实现这一点。有什么建议吗？

浏览 49提问于2017-07-18得票数 2

1回答

使用Lambda将S3数据从一个亚马逊网络服务账户推送到另一个S3存储桶

amazon-web-services、amazon-s3、aws-lambda

我的用例是不断地将数据从一个亚马逊网络服务账户S3桶推送到另一个亚马逊网络服务账户S3桶。跨账号推送。我正在使用lambda来完成这项工作。假设在亚马逊网络服务账户A中，数据经常从某些来源落地到S3存储桶中。我需要创建一个S3触发器，它将调用亚马逊网络服务账户A中的Lambda函数，并将账户A的S3存储桶数据推送到亚马逊网络服务账户B中的另一个S3存储桶。这个是可能的吗？

浏览 1提问于2019-06-11得票数 0

3回答

如何使用Sails删除亚马逊网络服务S3中的文件？要上传，我使用skipper-s3

amazon-web-services、amazon-s3、sails.js、sails-skipper

我刚刚用sails和skipper-3上传了一个文件到3，它工作得很好。现在，如何使用Sails删除亚马逊网络服务S3中的文件？当我上传文件时，我在数据库中存储了指向亚马逊网络服务S3的网址。

浏览 26提问于2016-07-29得票数 1

回答已采纳

1回答

dask.dataframe.read_parquet耗时太长

python-3.x、dask

我试着这样读s3上的拼图： import dask.dataframe as dd s3_path = "s3://my_bucket/my_table" times = dd.read_parquet( s3_path, storage_options={ "client_kwargs": { "endpoint_url": bucket_endpoint_url,

浏览 2提问于2019-05-14得票数 3

4回答

使用谓词筛选pyarrow.parquet.ParquetDataset中的行

python、pandas、amazon-s3、parquet、pyarrow

我在s3上存储了一个拼花数据集，我想从该数据集中查询特定的行。我可以使用petastorm实现这一点，但现在我只想使用pyarrow。以下是我的尝试： import pyarrow.parquet as pq import s3fs fs = s3fs.S3FileSystem() dataset = pq.ParquetDataset( 'analytics.xxx', filesystem=fs, validate_schema=False, filters=[('event_name', '=',

浏览 1提问于2019-06-10得票数 23

回答已采纳

1回答

使用AWS CLI传输AWS S3数据

amazon-web-services、amazon-s3、aws-cli

我正在尝试使用aws CLI将存储在s3中的25 tb数据从一个亚马逊网络服务账户传输到另一个亚马逊网络服务账户(位于不同地区)中的另一个s3存储桶，有人能建议我使用和处理哪个EC2实例更适合使用命令行工具进行数据传输吗?主要是完成传输可能需要多长时间。

浏览 3提问于2017-07-24得票数 0

2回答

s3存储桶日期路径格式，可加快操作速度

amazon-web-services、amazon-s3

亚马逊网络服务本身的一位顾问告诉我，在用date命名s3中的文件夹(对象)时。使用MM-DD-YYYY进行更快的s3操作，比如get Object，但我通常使用YYYY-MM-DD。我不明白这有什么区别，有区别吗，如果有，哪一个更好？

浏览 1提问于2020-05-04得票数 3

1回答

AWS堆栈中的按区域上传是如何工作的？

amazon-s3、aws-cli

我无法理解AWS堆栈中的区域。我在亚马逊网络服务文档中看到，一个地区的上传数据(S3)不会自动反映到其他地区。我是否需要上传到所有可用区域以反映我上传的文件在全球范围内的情况？然而，我曾经在一个地区使用亚马逊网络服务控制台上传到S3，在亚马逊网络服务中我不知道区域通过上传。今天我在aws控制台的url中更改了region，发现内容是相同的。如果它自动反映，那么在上传到S3或任何其他亚马逊网络服务时，指定区域的意义是什么。

浏览 0提问于2016-05-09得票数 0

1回答

如何加密用于托管静态网页的现有亚马逊网络服务S3存储桶？

amazon-web-services、amazon-s3、encryption

我有一个亚马逊网络服务的S3桶，用于托管静态网页。因此，内容必须是公开的，并且启用加密可防止网站在互联网上可用。有没有办法加密这种亚马逊网络服务的S3桶，用于托管一个静态网页？

浏览 15提问于2021-05-12得票数 0

1回答

S3中拼图文件的最佳最大大小

amazon-s3、parquet

我正在尝试计算出在S3上分区拼图数据时的最佳文件大小。亚马逊网络服务推荐avoiding having files less than 128MB。但是，是否也有推荐的最大文件大小？ Databricks推荐files should be around 1GB，但我不清楚这是否只适用于HDFS。我知道最佳文件大小取决于HDFS数据块大小。但是，S3没有任何块大小的概念。有什么想法吗？

浏览 23提问于2019-03-07得票数 3

2回答

如何在极性或Pyarrow中获取字符串列的散列

pandas、pyarrow、python-polars

我有一个带有字符串键列的// Pyarrow表。你可以假设字符串是随机的。我想根据这个键列将数据分割为N个较小的数据格式。对于整数列，我只需使用df1 = df[df.key % N == 1]、df2 = df[df.key % N == 2]等。对于如何使用string列，我最好的猜测是应用一个散列函数(例如，将字符串的ascii值相加)，将其转换为整数列，然后使用模数。请告诉我在Pandas、Polars或Pyarrow中最有效的方法是什么，最好是在API中使用纯粹的柱状操作。对于我的用例来说，执行df.apply可能太慢了。

浏览 5提问于2022-05-09得票数 0

回答已采纳

1回答

在Python Pandas中使用read_parquet从AWS S3读取拼图文件时出现分割错误

python、pandas、amazon-web-services、fastparquet

我有一个运行在AWS EC2上的python脚本(在AWS Linux上)，这些脚本将S3中的parquet文件拉到Pandas dataframe中。我现在正在迁移到新的亚马逊网络服务帐户，并设置一个新的EC2。这一次，当在python虚拟环境中执行相同的脚本时，我得到了“分段错误”，并且执行结束。 import pandas as pd import numpy as np import pyarrow.parquet as pq import s3fs import boto3 from fastparquet import write from fastparquet import P

浏览 66提问于2019-09-04得票数 2

1回答

亚马逊网络服务端点:为什么亚马逊网络服务在默认情况下不启用S3端点？

amazon-web-services、amazon-s3、amazon-ec2

如果亚马逊网络服务账户启用了S3端点，当EC2尝试从您拥有的S3存储桶下载文件时，ec2将转到亚马逊网络服务基础设施中的S3存储桶，而不是通过互联网网关。它必须节省不必要的流量，并提高下载性能。为什么亚马逊网络服务不默认开启EC2实例？ ?

浏览 17提问于2020-09-27得票数 0

2回答

AWS Athena/S3中的分层分区是否有效？

amazon-web-services、amazon-s3、amazon-athena

我是亚马逊网络服务的新手，正在尝试使用S3和雅典娜作为一个用例。我希望将数据保存为S3中的json文件，以便从雅典娜查询。为了减少数据扫描，我创建了如下目录结构 ../customerid/date/*.json (format) ../100/2020-04-29/*.json ../100/2020-04-30/*.json . . ../101/2020-04-29/*.json 在Athena中，根据我们期望的数据创建了表结构，并创建了2个分区，即customer (customerid)和dt (date)。我想查询客户'100‘的所有数据，并将扫描范围限制在我试图加

浏览 24提问于2020-04-30得票数 2

2回答

pyarrow.lib.ArrowIOError:无效的拼图文件大小为0字节

python、boto3、pyarrow

我正在尝试执行类似的操作，将S3存储桶中的文件列表读取到pyarrow表中。如果我指定了文件名，我可以这样做： from pyarrow.parquet import ParquetDataset import s3fs dataset = ParquetDataset( "s3://path/to/file/myfile.snappy.parquet, filesystem=s3fs.S3FileSystem(), ) 一切都像预期的那样工作。但是，如果我这样做了： dataset = ParquetDataset( "s3://path/to/fi

浏览 1提问于2019-10-31得票数 2

1回答

如何在fabric.js框架中直接从S3加载json文件？

codeigniter、amazon-s3、fabricjs、pdfjs、aws-php-sdk

目前，我正在使用pdfjs。我已经添加了fabric.js在pdf文件上做注释。以Json格式保存在.json文件中的注释。以前它是来自亚马逊网络服务器的发电机数据库，但由于大量的数据，现在我们想要转移到亚马逊网络服务的S3桶。现在如何在fabric.js框架中直接从S3加载json文件？

浏览 1提问于2017-06-08得票数 2

3回答

使用AWS Lambda读取/写入镶木面板文件？

amazon-s3、aws-lambda、parquet

嗨，我需要一个lambda函数，将读取和写入镶木地板文件，并将它们保存到S3。我试图用我需要使用pyarrow的库制作一个部署包，但是我得到了cffi库的初始化错误： module initialization error: [Errno 2] No such file or directory: '/var/task/__pycache__/_cffi__x762f05ffx6bf5342b.c' 我甚至可以用AWS Lambda制作镶木地板文件吗？有没有人遇到过类似的问题？我想做这样的事情： import pyarrow as pa import pyarrow.parq

浏览 16提问于2017-07-28得票数 4

1回答

拼图创建从pandas dataframe到pyarrow表的转换不适用于对象数据类型

pandas、hive、parquet

我想从csv文件创建一个拼图文件。出于测试目的，我有下面的一段代码，它读取一个文件，并首先将其转换为pandas dataframe，然后再转换为pyarrow表。然后将该表存储在亚马逊网络服务S3上，并希望在该表上运行配置单元查询。输入文件内容： YEAR|WORD 2017|Word 1 2018|Word 2 代码： dataFrame=pd.read_csv(inputFile, sep='|') print(dataFrame) print(dataFrame.dtypes) print(dataFrame.columns) dataFrame['C1

浏览 2提问于2017-04-07得票数 0

2回答

当我使用无服务器部署从VSCode部署时，Lambda函数没有出现在亚马逊网络服务控制台上

node.js、aws-lambda、serverless

我的问题是，如果我用VSCode编写Lambda函数，我无法将其部署到亚马逊网络服务控制台。我有一个亚马逊网络服务帐户，并提供了在VSCode中使用的凭据。只是使用serverless deploy命令测试简单的Lambda函数到亚马逊网络服务控制台的部署。到目前为止还没有成功。它在S3上创建存储桶，并将邮政编码放在那里。在AWS Lambda控制台中手动创建ConsoleTest函数。 ? 我的serverless.yml看起来像这样： service: myservice provider: name: aws runtime: nodejs12.x function

浏览 40提问于2020-04-21得票数 1

回答已采纳

3回答

尝试将数据上传到AWS-S3时，rails 3出现管道断开错误

ruby-on-rails-3、amazon-s3

我正在尝试将一些静态数据上传到我的亚马逊网络服务s3帐户。为此，我使用了aws/S3GEM。我在我的网页上有一个简单的上传按钮，它点击控制器，它创建亚马逊网络服务连接，并尝试上传数据到亚马逊网络服务S3。连接到亚马逊网络服务是成功的，然而，当尝试在S3中存储数据时，我得到了以下错误: Errno::EPIPE:Broken“...always。我尝试从s3sh (S3外壳)运行相同的代码段，并且我能够正确地执行所有调用。我是不是漏掉了什么？我已经有一段时间没有面对这个问题了。我的配置是:Ruby1.8，Rails3，混合，s3存储桶区域我们。任何帮助都是最好的。

浏览 1提问于2011-08-10得票数 0

1回答

不使用AWS版本控制存储重复文件

python-3.x、amazon-web-services、amazon-s3、aws-cli、versioning

我正在尝试将大量文件上传到亚马逊网络服务s3存储桶。我还需要启用文件版本控制来备份，以防某些文件被意外覆盖。然而，当我上传已经存在的完全相同的文件时，如果当前启用了亚马逊网络服务s3版本控制，亚马逊网络服务将存储完全相同文件的两个版本。这是一个问题，因为我会多次上传相同的文件，在这种情况下，我希望版本控制不会被用来防止由于存储同一对象的多个版本而产生的额外数据费用。但是，如果对文件进行了更改，那么我希望使用aws版本控制。有没有办法配置亚马逊网络服务s3存储桶版本控制，以便忽略重复的上传文件，但更改或激活新文件的版本控制？(如果有帮助，我使用的脚本使用python和awscli)

浏览 1提问于2020-12-05得票数 1

1回答

尽管使用了过滤器，但是Pyarrow ParquetDataset.read()在已分区的S3数据集中速度很慢。

python、amazon-s3、hive、pyarrow

尽管使用了filters标志，但是尝试从大型拼花数据集读取一天的速度非常慢。我使用过滤器的方式有什么问题吗？若然，我怎样才能纠正这个问题呢？我有一个巨大的拼花数据集，其中包含S3中的数百万个文件，这些文件都是由分区的星星之火作业生成的。分区模式如下所示： s3://bucket-name/dataset-name/year=2019/month=5/day=23 守则如下： import s3fs import pyarrow.parquet as pq s3_path = 's3://bucket-name/dataset-name' s3 = s3fs.S3FileSys

浏览 1提问于2019-11-15得票数 2

回答已采纳

1回答

如何使用配置单元读取S3文件查询

amazon-web-services、amazon-ec2、hive、hiveql、emr

我在亚马逊网络服务的S3存储桶中存储了XML文件。我想提取XML元数据并将其加载到HDFS上的HIVE表中。是否有任何工具可以帮助简化此活动？

浏览 2提问于2017-04-04得票数 0

2回答

从亚马逊DynamoDB到亚马逊S3的增量导出

amazon-web-services、amazon-s3、amazon-dynamodb、analytics、amazon-athena

我们需要对亚马逊DynamoDB中的数据进行分析。由于DDB在分析方面的局限性，在DDB中做这件事不是一个选择，根据我的建议，我倾向于DDB -?> S3 ->雅典娜。它是一个数据密集型应用程序，具有来自亚马逊网络服务IoT设备的数据流，也是一个多租户应用程序。现在，要将数据从DDB同步到亚马逊S3，可能一天需要几次。为此，我们如何设置增量导出？

浏览 30提问于2021-06-19得票数 0

1回答

我应该在亚马逊网络服务S3的同一前缀下存储不同类型的用户活动数据，还是对每类事件使用不同的前缀？

sql、database、amazon-s3、amazon-athena、amazon-kinesis-firehose

我应该将不同类型的用户活动数据(如登录、活动、支付)存储在亚马逊网络服务S3中的相同前缀/路径下，还是对每类事件使用不同的前缀？例如, loginEvents/ paymentEvents/ interactionEvents/ 我正在使用Firehose流式传输事件并保存到s3中。在那之后，我会使用雅典娜来查询。雅典娜可以使用任何一种情况(一个前缀或多个前缀)，但哪种方法更好？将所有内容保存在一个前缀下将减少查询时间，因为在雅典娜查询期间不需要表连接？在不同的前缀下保存数据似乎可以更系统地组织数据？

浏览 3提问于2021-04-23得票数 0

2回答

pyarrow.ParquetDataset >分区列的模式

python、pandas、hive、parquet、pyarrow

我有一只熊猫DataFrame： import pandas as pd df = pd.DataFrame(data={"col1": [1, 2], "col2": [3.0, 4.0], "col3": ["foo", "bar"]}) 使用 from s3fs import S3FileSystem s3fs = S3FileSystem(**kwargs) 我可以把它写成一个拼花数据集 import pyarrow as pa import pyarrow.parq

浏览 7提问于2021-12-10得票数 3

回答已采纳

2回答

存档AWS RDS mysql数据库

mysql、amazon-web-services、amazon-s3、amazon-rds、amazon-glacier

我正在寻找选项来存档我的旧数据从AWS RDS MySQL数据库的特定表。我遇到了亚马逊网络服务S3，亚马逊网络服务Glacier，并使用一些管道或桶将数据复制到其中一个，但据我所知，他们将数据复制到保险库或备份数据，但不移动它们。是否有合适的选项通过从RDS迁移到S3、Glacier或Deep Archive来归档数据？即在创建档案后从AWS RDS中的表中删除。满足我的要求的归档流程的最佳选项是什么?它是否会影响现有的副本？

浏览 1提问于2020-01-29得票数 2

2回答

从亚马逊网络服务S3加载保存的Scala XGBoost模型时出现问题

scala、apache-spark、amazon-s3、xgboost

我在从AWS S3加载保存的Scala XGBoost模型时遇到了一个问题。下面是我的代码。问题是我可以在亚马逊网络服务S3中保存Scala XGBoost模型，但无法从亚马逊网络服务S3加载该模型。 val trainingData = sqlContext.read.parquet(path1) val testData = sqlContext.read.parquet(path2) val OOTvalData = sqlContext.read.parquet(path3) // number of iterations val numRound = 200 val numWo

浏览 2提问于2017-08-04得票数 0

1回答

亚马逊网络服务s3同步从s3复制到电子病历的速度很慢

amazon-web-services、aws-cli、s3cmd

亚马逊网络服务s3同步速度很慢。此外，亚马逊网络服务s3同步也会以静默方式失败。s3 mv会在失败时删除目标文件并进行清理。但是，它不会尝试复制(需要错误处理)。将文件从s3移动到电子病历的最佳选择是什么？- s3命令？- s3 mv？还有其他建议吗？

浏览 16提问于2020-03-07得票数 0

1回答

从Kafka连接到AWS S3存储桶的数据包传输速度较慢。如何提高吞吐量

amazon-s3、apache-kafka、apache-kafka-connect

我正在使用Kafka Connect S3将记录推送到亚马逊网络服务的s3存储桶，我们正在使用s3.sink.properties的timebasedpartioner，我们注意到每秒只有10条记录。请指导如何提高吞吐量。

浏览 23提问于2020-03-30得票数 0

1回答

将SQL数据库转换/压缩为RedShift的parquet格式

amazon-web-services、amazon-redshift

我在亚马逊网络服务上的s3存储桶中有3个SQL数据库，我想将它们上传到redshift。我了解到，将它们转换为一些大数据格式会更好，因为在这些格式中查询红移成本和性能总体上会更好。如何将我的数据库转换为这些格式？请询问可能需要的任何进一步信息。谢谢

浏览 2提问于2020-12-15得票数 0

1回答

在S3中的何处可以找到自动和手动DocumentDB快照？

amazon-web-services、aws-documentdb

我看到亚马逊网络服务DocumentDB每天都在创建自动快照，我自己也可以从亚马逊网络服务控制台创建手动快照。文档说快照保存在S3中，但我在S3上看不到它。我基本上想将DocumentDB数据移动到S3，以便将其进一步传播到其他亚马逊网络服务，以实现监控目的。我在想，如果我可以每天触发一个手动快照，并在DocumentDB上传的S3文件上有一个lambda触发器。如何在S3上查看由DocumentDB创建的自动快照和手动快照？

浏览 45提问于2021-05-02得票数 1

回答已采纳

2回答

Python - On表单提交、发送电子邮件和在数据库中保存记录耗费大量时间

python、django、forms、performance、amazon-s3

我正在用python/Django.Form编写的应用程序中编写表单提交。表单有一个上传的附件(最大3MB)。在提交时，它必须将附件保存在亚马逊网络服务s3中，将其他数据保存在数据库中，并发送电子邮件。此表单提交占用的时间太长，UI挂起。在python/django中有没有其他方法可以做到这一点？

浏览 1提问于2016-01-08得票数 1

2回答

如何在亚马逊网络服务的S3存储桶中使用Java读取压缩的CSV文件？

java、csv、amazon-web-services、amazon-s3

我有一个要求，我必须从S3存储桶中读取.csv文件。我是通过 S3Object s3Obj = amazonS3Client.getObject(bucketname, fileName); BufferedReader reader = new BufferedReader(new InputStreamReader(s3Obj.getObjectContent())); 现在，同样的.csv文件以存档(压缩)的形式呈现在亚马逊网络服务的S3存储桶中。我需要读取这个.csv文件，而不需要在服务器端进行解压缩操作。亚马逊网络服务中是否有任何文档或应用程序接口可以直接读取.csv文件而无需解

浏览 0提问于2015-01-27得票数 2

1回答

JupyterHub access亚马逊网络服务S3

amazon-web-services、amazon-s3、jupyter、jupyterhub

我想给JupyterHub用户提供访问权限，这样他们就可以使用亚马逊S3中的数据。如果有人能解释一下如何设置这个用法，我将不胜感激。另外，我更希望有一种方法可以不给JupyterHub用户提供亚马逊网络服务凭证，但只允许他们访问亚马逊网络服务S3中的数据。谢谢!

浏览 24提问于2021-04-26得票数 1

1回答

指向私有github存储库或亚马逊S3作为Jupyterhub笔记本服务器的笔记本目录

github、amazon-s3、jupyter-notebook、jupyter、jupyterhub

是否可以指向私有github存储库或亚马逊网络服务S3作为Jupyterhub笔记本服务器的笔记本目录？在Jupyterhub配置文件中，我可以将C.Spawner.notebook_dir设置为指向本地目录，但我如何才能指向受密码保护的文件共享，或者指向私有的github存储库或亚马逊网络服务S3？这里有一些关于为每个用户自定义目录位置的信息- 。有没有办法扩展自定义派生类，使其能够指向私有github或S3？

浏览 1提问于2017-03-24得票数 0

2回答

阅读最后N行S3拼花表

python、amazon-web-services、amazon-s3、pyarrow

如果我将讨论过的应用到S3 buck中读取S3 buck中的拼花文件，特别是： import pyarrow.parquet as pq import s3fs s3 = s3fs.S3FileSystem() pandas_dataframe = pq.ParquetDataset('s3://your-bucket/', filesystem=s3).read_pandas().to_pandas() 当表随着时间的推移越来越大时，我需要定期进行检索，我只想将最后的N行读入数据帧。这个是可能的吗？

浏览 0提问于2021-06-20得票数 4

回答已采纳

1回答