将文件写入csv和存储到S3时无法更改文件名

文章/答案/技术大牛

发布

1回答

获取spark数据帧写入的文件名

、、、、

我使用下面的代码将spark数据帧写入s3存储桶中。. \在这里，我想要获取正在写入s3 bukcet的文件的名称，并希望将该文件用作后面代码部分的一部分。我已经解决了上面的问题，因为我们不能在将数据帧写入s3<

浏览 0提问于2018-06-18得票数 1

1回答

、、、、

所以我一直在AWS glue上工作，我在pyspark中创建了一个ETL作业，它从数据目录中读取数据并写入，csv被存储在S3存储桶中。但每次作业运行时，它都会创建具有不同名称的不同文件，而我希望在每次作业运行时覆盖相同的文件。我找不到它的正确代码。有没有办法覆盖同一个文件(在S3中启用了版本控制)。", connection_options = { "path": "s3

浏览 37提问于2021-05-07得票数 0

1回答

将数据从S3文件复制到aws postgresql:参数无效？

、、、

我试图将AWS S3文件的内容复制到AWS RDS Postgresql表中，但似乎语法错误？从‘s3://存储桶名称/文件名.csv’(格式CSV，分隔符E'\t'，编码‘utf-8’)复制myschema.mytable；返回以下错误:错误:无法打开文件"S3://bucket-name/

浏览 17提问于2019-01-31得票数 0

1回答

我们使用DMS从SQL Server中获取数据并将其加载到S3存储桶中，之后数据最终使用Snowpipe加载到Snowflake DB中进行完整加载。现在，为了让雪花管道知道S3存储桶中有新的数据，文件名需要与上一个不同。我尝试了所有可用的任务设置选项(DROP_AND_CREATE、DO_NOTHING、TRUNCATE)，以使文件名不同，但仍然不起作用。它将文件名加载为LOAD00000001.csv 在文档中，它显示文件名将是递

浏览 0提问于2018-08-16得票数 1

2回答

重命名写入的CSV文件Spark

、、、

我运行的是spark 2.1，我想把结果写成一个csv到亚马逊S3。在重新分区后，csv文件有一个很长的加密名称，我想将其更改为一个特定的文件名。 .repartition(1) .format("com.databricks.spark.csv") .option("header&

浏览 1提问于2017-06-26得票数 3

回答已采纳

1回答

Python函数根据文件名对不同的CSV文件执行一些操作

、、

我必须打开并执行三个不同的CSV文件的逻辑，我要上传到S3。位置:我的桶/配置/我试图使用python纠正lambda函数，以便在上传这些文件时触发lambda函数，然后根据上传文件的名称，我应该能够识别必须写入的逻辑。我所需要知道的就是如何纠正'if‘条件，以匹配

浏览 2提问于2020-02-04得票数 0

回答已采纳

4回答

在亚马逊网络服务中将pickle文件写入s3存储桶

、、、

我正在尝试将一个熊猫数据帧作为一个pickle文件写入到亚马逊网络服务的s3存储桶中。我知道我可以将dataframe new_df作为csv写入到s3存储桶中，如下所示： bucket='mybucket's3_resource = boto3.re

浏览 39提问于2018-03-06得票数 24

回答已采纳

2回答

将报告数据临时存储到亚马逊网络服务DynamoDB？这是一个可行的解决方案吗？

、、

大部分数据都是扁平的(只有行和列)。通常，记录大小在100秒左右，有时在1000秒左右，很少在10,000秒左右。这是个好主意吗？表演会是什么样的呢？

浏览 0提问于2017-10-04得票数 2

1回答

对我的亚马逊网络服务S3存储桶中其他人创建的对象的访问权限被拒绝

、

我们有一个将文件写入亚马逊S3存储桶的应用程序。我无法将文件下载或复制到不同的存储桶。我收到access denied错误。文件的所有者是其他人，但是存储桶归我们所有。该人员无法访问，并且不在组织中。如何访问文件并更改访问权限或更改文件的所有者？我尝试将对象从源存储桶复制<

浏览 14提问于2019-09-19得票数 0

3回答

无法通过SSMS打开DataFile SSIS包

、、、

部署到SSMS包中，将文件写入网络文件服务器中的CSV文件。包的平面文件目标的默认名称是从表达式派生的$path\workcsvout.csv包文件名Troubleshooting 验证

浏览 6提问于2015-11-19得票数 0

回答已采纳

3回答

将R数据作为csv直接写入s3

、、、

我希望能够将data.frame\ data.table对象中的数据作为csv文件直接写入到AWS s3中的存储桶中，而无需首先使用AWS CLI将其写入磁盘。obj.to.write.s3 <- data.frame(cbind(x1=rnorm(1e6),x2=rnorm(1e6,5,10),x3=rnorm(1e6,20,1))) 此时，我首先写入csv，然后上传到现有存储桶，然后使用以

浏览 1提问于2015-05-07得票数 19

1回答

如何从amazon s3加载模板文件并将其加载到openpyxl工作簿中

、、、、

我正在设置一个无服务器的python应用程序，使用aws lambda和python将csv文件转换为excel。我已经使用boto3成功地将csv数据读取到我的应用程序中。现在，我想将内容写入excel模板文件

浏览 3提问于2019-10-01得票数 0

1回答

如何在使用Lamda从S3处理csv文件时将响应返回到前端？

、、、、

新的AWS Lambda，科尼图，AWS API网关和无服务器计算.

浏览 6提问于2020-06-22得票数 0

1回答

使用Informatica powercenter在亚马逊S3存储桶中创建文件夹模式

、、

我们需要使用Informatica powercenter 10.2 Hotfix 1将数据从teradata实现到亚马逊S3存储桶层中，所以我们的想法是将目标文件放在S3存储桶中的动态文件夹中，如s3://amazon.s3.bucket/YYYYMM/Schema/File.csv 我想动态传递文件的s3<em

浏览 0提问于2021-06-17得票数 0

2回答

如何返回Spark/HDFS中读取文件的文件名/文件路径？

、、、

我想要自动处理每日上传的文件使用临时电子病历集群。我在S3上的文件是使用这样的日期键进行分区的：2022-07-28-stats.csv ...每天，我从S3上传一个文件到‘hdfs://raw/’，并且在文件‘hdfs://raw/**..csv’中使用*作为Spark脚本中读取的文件，这样我就

浏览 15提问于2022-07-27得票数 -2

1回答

从极光mysql向sqs发送消息

、、、、

我在中间有两个lambdas和一个SQS队列。第一个lambda的目的是从aurora MySQL中选择产品ids并发送到SQS。有超过700万的产品ids。当第一个lambda向SQS发送这些产品ids时，我启用了一个触发器，该触发器调用了我的第二个lambda。我面临的问题是，由于lambda的时间限制，我的第一个lambda无法在1次调用中将所有产品I发送到队列。我测试了它，对于1次调用，它只能向SQS发送100 k记录。即使我在lambda中设置了一个限制和偏移量，但在第一次调用之后，我将不得不更改</em

浏览 2提问于2021-03-05得票数 2

回答已采纳

1回答

查询Spark上的Hive以获得最高性能的正确方法是什么？

、、、、

我在Hive中有一个相当大的表(约130M条记录，180列)，我正尝试使用Spark将其打包为拼图文件。data = hiveCtx.sql("select * from my_table") data.repartition(20).write.mode('overwrite').parquet("s3

浏览 0提问于2017-03-21得票数 2

3回答

如何从S3存储桶中读取CSV文件，对其应用特定的if语句，并写入新的更新CSV文件并将其放入S3存储桶中？

、、、、

我在将新的CSV文件写入S3存储桶时遇到了问题。我希望能够读取S3存储桶中的CSV文件，如果CSV中的某个值符合特定要求，我希望将其更改为不同的值。我读到过不可能编辑S3对象，所以每次都需要创建一个新对象。简而言之，我想从S3存储桶中的另一个CSV文件创建一个新的、更新的<e

浏览 0提问于2019-08-01得票数 2

1回答

如何为SageMaker批处理转换作业的输出文件指定名称？

、、

目前，这使用了一些输入数据和预先培训的模型。作业的编排是在lambda中使用boto3 python库完成的。第一件事是通过参数将文件名应用到pandas.to_csv()函数。但是，只进行此更改，SageMaker就会失败，并出现以下错误：我还尝试将文件名应用于output_path参数，该参数是对象的一部分。这只是为了指定<

浏览 3提问于2019-11-05得票数 2

2回答

五角壶的S3 GET失败

、、

使用AWS密钥，可以看到S3上的存储桶，但不能获取文件。有人能帮帮忙吗？by buildguy) : org.pentaho.di.core.exception.KettleException: 2016/07/03 21:32:20 - S3 CSV Input.0CSV Input.0 - S3 GET failed for '&

浏览 7提问于2016-07-03得票数 0

点击加载更多

获取spark数据帧写入的文件名