使用pyspark删除s3对象

使用pyspark删除S3对象可以通过以下步骤完成：

导入必要的库和模块：

from pyspark.sql import SparkSession

创建SparkSession对象：

spark = SparkSession.builder \
    .appName("Delete S3 Object") \
    .getOrCreate()

配置AWS访问密钥：

spark.conf.set("spark.hadoop.fs.s3a.access.key", "your_access_key")
spark.conf.set("spark.hadoop.fs.s3a.secret.key", "your_secret_key")

请将"your_access_key"和"your_secret_key"替换为您的AWS访问密钥。

删除S3对象：

s3_path = "s3a://bucket_name/object_key"
spark._jvm.org.apache.hadoop.fs.FileSystem.get(spark._jsc.hadoopConfiguration()).delete(spark._jvm.org.apache.hadoop.fs.Path(s3_path), True)

请将"bucket_name"替换为您的S3存储桶名称，"object_key"替换为要删除的对象的键。

完整的代码示例：

from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("Delete S3 Object") \
    .getOrCreate()

spark.conf.set("spark.hadoop.fs.s3a.access.key", "your_access_key")
spark.conf.set("spark.hadoop.fs.s3a.secret.key", "your_secret_key")

s3_path = "s3a://bucket_name/object_key"
spark._jvm.org.apache.hadoop.fs.FileSystem.get(spark._jsc.hadoopConfiguration()).delete(spark._jvm.org.apache.hadoop.fs.Path(s3_path), True)

这段代码使用pyspark连接到S3存储桶，并删除指定的对象。它首先创建一个SparkSession对象，然后配置AWS访问密钥，最后使用Hadoop的FileSystem类删除S3对象。

推荐的腾讯云相关产品：腾讯云对象存储（COS）腾讯云COS是一种高可用、高可靠、低成本的云端对象存储服务，适用于存储和处理任意类型的文件，包括文本、图片、音频、视频等。您可以使用腾讯云COS来存储和管理您的S3对象。

产品介绍链接地址：腾讯云对象存储（COS）

页面内容是否对你有帮助？

有帮助

没帮助

如果没有指定的分区路径，星火SQL将失败。

、、、、

我正在使用电子病历中的蜂巢Metastore。我能够通过HiveSQL手动查询表。但是当我在火花作业中使用相同的表时，它说输入路径不存在: s3:// 由: org.apache.hadoop.mapred.InvalidInputException:输入路径不存在引起的:s3://. 我在s3://..中删除了上述分区路径。但是它仍然在我的蜂巢中工作，没有在表级别上丢弃分区。但无论如何它在火花放电中都不起作用。这是我的完整代码 from pyspark import SparkContext, HiveContext from pyspark import SQLContext

浏览 0提问于2017-12-21得票数 0

1回答

根据文件夹名在pyspark中重命名和移动S3文件

、、

我正在使用partitionBy to S3处理一些数据帧。创建的文件夹结构如下所示。 root/ date=2018-01-01/ date=2018-01-02/ 我想将这些文件移动到s3中的另一个目录，并将这些文件夹重命名为 root1/ 20180101/ 20180102/ 有没有办法通过pyspark实现这一点？另外，我需要在目录中以顺序的方式重命名文件，例如： root1/ 20180101/FILE_1.csv 20180101/FILE_2.csv

浏览 0提问于2018-10-09得票数 0

1回答

是否有办法在EMR作业完成后自动删除检查点文件夹？

、、

我在我的pyspark代码中创建和使用检查点。由于我使用的是非常大的数据帧，因此随着时间的推移，它们的大小往往会膨胀。有没有办法在作业完成后删除检查点文件夹？例如，如下伪代码所示： from pyspark.sql import SparkSession spark = SparkSession.builder.getOrCreate() sc = spark.sparkContext spark.sparkContext.setCheckpointDir("s3://path/Checkpoint_Folder") df=spark.read.parquet("s

浏览 2提问于2021-05-02得票数 1

1回答

s3是如何工作的？

、

我正试图使用pyspark在s3中保存数据。已经存在一堆来自上一轮火星雨的文件。在我当前的运行中，我试图用新的dataframe (它已经包含旧的数据)中的数据覆盖现有的文件。我正在使用由pyspark提供的“覆盖”模式来处理这个问题。这到底是怎么回事？在用新数据写入新文件之前，S3是否删除目录中的所有文件?如果是这样的话，当目录中有大量现有文件时，S3删除是否可能失败？

浏览 4提问于2022-03-18得票数 0

回答已采纳

1回答

用pyspark/python在AWS S3上列出目录中的文件

、、

因此，我对AWS、S3、pyspark和linux都很陌生。我不知道从哪里开始。以下是我的问题：在linux中，我可以发出以下命令，并可以在文件夹中看到文件： aws s3 ls 's3://datastore/L2/parquet' 使用python做类似的事情不起作用。 import os os.listdir('s3://datastore/L2/parquet') 它会产生错误： Traceback (most recent call last): File "<stdin>", line 1, in <modul

浏览 1提问于2017-03-29得票数 1

回答已采纳

1回答

pyspark如何保存和加载一个与rest分类器逻辑回归

、、

我正在使用pyspark 2.4.5，我在保存和加载一个与rest分类器时遇到了问题下面是代码 from pyspark.ml.classification import LogisticRegression, OneVsRest start=time.time() lr = LogisticRegression(maxIter=10, tol=1E-6, fitIntercept=True) # instantiate the One Vs Rest Classifier. ovr = OneVsRest(classifier=lr) # train the multicla

浏览 38提问于2020-07-18得票数 0

1回答

pyspark合并覆盖为一个具有固定名称的文件

、、

我们有一个自动化管道的需求。我的需求是使用具有固定名称的pyspark生成/覆盖一个文件但是，我现在的命令是- final_df.coalesce(1).write.option("header", "true").csv("s3://finalop/" , mode="overwrite") 这确保目录(finalop)是相同的，但每次我覆盖它时，该目录中的文件总是以不同的名称创建。现在，下一个作业读取它不是在pyspark中，所以我们不能自动化管道。我们正在尝试让它读取目录的方法。但是在pyspark中有没有办法生成

浏览 25提问于2020-10-14得票数 0

回答已采纳

2回答

如何读取电火花中s3上的表格数据？

、、、、

在s3目录s3://mybucket/my/directory/中有一些选项卡分隔的数据。现在，我要告诉pyspark，我想使用\t作为分隔符，只在下面这样的一个文件中读取： from pyspark import SparkContext from pyspark.sql import HiveContext, SQLContext, Row from pyspark.sql.types import * from datetime import datetime from pyspark.sql.functions import col, date_sub, log, mean, to

浏览 3提问于2017-07-17得票数 1

回答已采纳

3回答

如何在本地模式下运行的pyspark中读取S3？

、、、

我使用的是PyCharm 2018.1，使用的是Python3.4，其中的Spark2.3是通过pip安装在一个虚拟环境中的。本地主机上没有安装hadoop，因此没有Spark安装(因此没有SPARK_HOME、HADOOP_HOME等)。当我尝试这样做时： from pyspark import SparkConf from pyspark import SparkContext conf = SparkConf()\ .setMaster("local")\ .setAppName("pyspark-unittests")\ .se

浏览 0提问于2018-05-05得票数 4

回答已采纳

2回答

从pyspark作业在s3存储桶中动态创建文件夹

、、、

我正在将数据写入s3存储桶，并使用pyspark创建拼图文件。我的存储桶结构如下： s3a://rootfolder/subfolder/table/ 子文件夹和表如果文件夹不存在，这两个文件夹应该在运行时创建，如果文件夹存在，拼图文件应该在文件夹表中。当我在本地机器上运行pyspark程序时，它会用_$folder$ (如table_$folder$ )创建额外的文件夹，但如果从emr运行相同的程序，它就会用_SUCCESS创建。 writing into s3: (pyspark program) data.write.parquet("s3a://rootfolder/sub

浏览 2提问于2020-12-03得票数 0

1回答

加载文件时无法推断架构

、、

下面的代码是在pyspark shell中运行时的工作文件，但在spark-submit master-yarn中执行时失败。我到底做错了什么？ from datetime import date, timedelta import pandas as pd import os, sys startd = '20140101' endd=str(sys.argv[1]) currd=str(sys.argv[2]) spark = SparkSession.builder.getOrCreate() base = &

浏览 14提问于2020-07-28得票数 1

1回答

通过lambda函数在Apache Livy中运行PySpark代码时，AWS EMR导致模块错误

、、、、

我在AWS EMR集群中运行pyspark代码。我通过lambda函数给出了livy应用程序中的spark属性。 import requests import json def lambda_handler(event, context): master_dns = event.get('clusterDetails', {}).get('Cluster', {}).get('MasterPublicDnsName') headers = { "content-type": "application/json&

浏览 53提问于2021-03-16得票数 0

回答已采纳

5回答

使用IAM角色访问S3的PySpark

、、、、

我想知道PySpark是否支持使用IAM角色进行S3访问。具体地说，我有一个业务约束，我必须承担AWS角色才能访问给定的存储桶。使用boto时这很好(因为它是应用程序接口的一部分)，但我无法找到PySpark是否支持这一开箱即用的明确答案。理想情况下，我希望能够在本地以独立模式运行时担任一个角色，并将我的SparkContext指向该s3路径。我已经看到非IAM调用通常如下所示： spark_conf = SparkConf().setMaster('local[*]').setAppName('MyApp') sc = SparkContext(conf=s

浏览 0提问于2016-03-23得票数 8

2回答

如何正确地使用AWS EMR (Pyspark)执行增量负载？

、、

我在S3 location s3://sample/input_data中有我所有的数据我通过部署AWS并使用PySpark来完成ETL。 PySpark脚本非常简单。我加载s3://sample/input_data作为火花数据。将其划分为一列。将dataframe保存为Parquet文件，在“追加”模式下使用写选项将其保存到S3 location s3://sample/output_data中然后将s3://sample/input_data中的所有文件复制到s3://sample/archive_data并删除s3://sample/input_data中的所

浏览 3提问于2021-11-17得票数 0

回答已采纳

1回答

为什么星火需要S3来连接红移仓库？同时，巨蟒熊猫可以直接阅读红移表。

、、、

提前为这个愚蠢的问题道歉。我刚从AWS和Pyspark开始。我当时正在查看pyspark库，并且我看到S3中需要一个tempdir才能读取红移中的数据。我的问题是，为什么pyspark需要这个S3临时目录。其他库，例如Pandas，可以直接读取Redshift表，而无需使用任何临时目录。感谢每个人。路易斯

浏览 4提问于2022-05-14得票数 0

1回答

pyspark的输出不会显示在s3存储桶中

、、

AWS新手在这里，我试图在EMR集群上运行s3作业，但我似乎不能弄清楚为什么我的输出不能保存到指定的pyspark存储桶中。 from pyspark import SparkContext if __name__ == "__main__": sc = SparkContext(appName="appName") rdd = sc.parallelize([1,2,3,4,5]) rdd.saveAsTextFile("s3a://ouput-bucket/output") sc.stop() 我使用脚本提交

浏览 1提问于2018-12-03得票数 0

1回答

在本地运行Pyspark以访问S3错误中的拼花文件：“无法从链中的任何提供者加载AWS凭据”

、、、、

我正在尝试通过Pycharm访问在S3桶中可用的parquet文件，使用Pyspark。我在Pycharm中配置了AWS工具包，并且在我的~/.aws/credentials中添加了访问密钥和安全密钥，但是我看到凭据没有被访问。这会引发错误“无法从链中的任何提供程序加载AWS凭据”。 import os import pyspark from pyspark.sql import SparkSession os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages com.amazonaws:aws-java-sdk-pom:1.

浏览 1提问于2020-09-04得票数 0

1回答

火花:火花-csv花了太长时间

、、

我正试图使用Databricks DataFrame包和，从EMR集群上的S3上的CSV源创建一个 from pyspark.sql import SQLContext sqlContext = SQLContext(sc) df = sqlContext.read.format('com.databricks.spark.csv').options(header='true').load('s3n://h2o-airlines-unpacked/allyears.csv') df.first() 这不会在4m3.xlarge的集群上终止。我

浏览 0提问于2015-08-28得票数 3

1回答

Spark on AWS EMR -动态分区覆盖S3 / Glue

、、、

我正在使用AWS EMR笔记本中的pyspark，并希望在保存表时覆盖单个分区。通常可以用以下命令来实现 df.write.mode('overwrite')\ .option("partitionOverwriteMode", "dynamic")\ .insertInto('table') 但是，这在写入S3时不起作用。有没有办法只覆盖S3分区和spark元数据中的文件？注意:我使用Glue作为spark元数据

浏览 1提问于2021-06-12得票数 0

1回答

更快地为S3编写Pyspark

、

我正在使用Pyspark从mysql中提取数据，并试图使用pyspark上传相同的数据。虽然这样做，它需要5-7分钟来上传一块100 K的记录。这一过程将需要几个月的数据拉出，因为源中大约有3,108,700,000 recs。是否有更好的方法可以改善S3上传过程。注意:数据拉取一次100 K只需20-30秒，这仅仅是S3上传造成的问题。下面是我如何为S3编写DF。 df = spark.read.format("jdbc"). option('url', jdbcURL). option('driver', drive

浏览 3提问于2022-06-24得票数 0

回答已采纳

1回答

aws胶水下降大部分为空字段

、、、

我有一份数据文件。它有几个列，大多为null。我使用下面的代码将它写到一个s3桶中。然后，我抓取s3桶以获取数据记录中的表模式。我发现当我抓取数据时，大部分为null的字段会被删除。我已经检查了输出的json，我发现有些记录有字段，而另一些则没有。有人知道问题可能是什么吗？我想包括这些字段，即使它们大部分是空的。代码： # importing libraries import sys from awsglue.transforms import * from awsglue.utils import getResolvedOptions from pyspark.context impor

浏览 0提问于2019-08-29得票数 1

1回答

写入后读取的S3最终一致性

、

我读了很多关于s3最终一致性的不同场景和问题，以及如何处理它以避免出现404错误。但是这里我有一个有点奇怪的用例/需求！我正在做的是将一堆文件写入s3桶中的临时/临时文件夹(使用火花作业并确保作业不会失败)，如果上一步成功，则移除主/目标文件夹，最后将文件从临时复制到同一桶中的主文件夹。下面是我代码的一部分： # first writing objects into the tempPrefix here using pyspark ... # delete the main folder (old data) here ... # copy files from the temp to t

浏览 2提问于2020-07-02得票数 3

回答已采纳

1回答

通过PySpark直接从DWH处理数据是一种好方法吗？

、

我有两个DWH，我需要通过PySpark处理他们的数据，作业将在AWS EMR上执行。我想知道通过PySpark直接从DWH处理数据是可以的，还是让ETL从DWH到S3，然后运行将使用S3数据的Spark作业会更好。

浏览 39提问于2021-08-31得票数 0

2回答

是否不可能将文件保存在S3桶中而不是选择文件夹？

、、、

我试图通过AWS作业将一个数据文件保存到S3中。我试着用火花数据作为 df.coalesce(4).write.mode("overwrite").format("parquet").save("s3://my_own_bucket/") 当我测试它时，代码返回一个错误 pyspark.sql.utils.IllegalArgumentException: 'Can not create a Path from an empty string' 如果我尝试在文件夹中放置一个文件，如 df.coalesce(4).write.mo

浏览 13提问于2021-12-29得票数 0

回答已采纳

2回答

Spark流处理二进制数据文件

、

我使用的是pyspark 1.6.0。我有现有的pyspark代码从亚马逊网络服务的S3桶读取二进制数据文件。其他Spark/Python代码将解析数据中的位，将其转换为int、string、boolean等。每个二进制文件都有一条数据记录。在PYSPARK中，我使用: sc.binaryFiles("s3n://.......")读取二进制文件。这很有效，因为它提供了一个元组(文件名和数据)，但我正在尝试找到一个等效的PYSPARK流API来读取二进制文件作为流(如果可以的话，希望也是文件名)。我尝试过:binaryRecordsStream(目录，recordLen

浏览 3提问于2016-06-29得票数 6

1回答

电子病历和S3源上的spark流

、、

我正在尝试使用s3作为源，在电子病历中使用齐柏林飞艇笔记本打印一个流。 %pyspark from pyspark.streaming import StreamingContext from pyspark.sql import Row, SparkSession ssc = StreamingContext(sc, 45) streams=ssc.textFileStream('s3://realtime-nyc-bike/') streams.pprint() 但是，什么都没有打印出来。Bucket名称正确。问题可能是什么？

浏览 1提问于2017-04-27得票数 0

2回答

从S3导入pyfile

、

我很难理解如何将文件导入到具有pyspark的库中。假设我有以下几点 HappyBirthday.py def run(): print('Happy Birthday!') sparky.py from pyspark import SparkContext, SparkConf from pyspark.sql import SparkSession import HappyBirthday sc = SparkContext(appName="kmeans") HappyBirthday.run() sc.stop() 它们都存储在S3中的同一

浏览 0提问于2018-12-08得票数 2

1回答

AWS EMR PySpark作业中的机密管理

、

我有一个电子病历PySpark的工作，需要访问一个s3桶拥有的第三方。 PySpark作业存储在s3://mybucket/job.py上，并作为步骤提交 { "Name": "Process promo_regs", "ActionOnFailure": "TERMINATE_CLUSTER", "HadoopJarStep": { "Jar": "command-run

浏览 2提问于2020-06-05得票数 1

回答已采纳

2回答

从S3中读取csv和拼花文件

、、

我们的要求是使用S3将csv和parquet文件加载到数据文件中。我使用的代码是： from pyspark import SparkConf, SparkContext from pyspark.sql import SparkSession conf = SparkConf() appName = "S3" master = "local" conf.set('spark.executor.extraJavaOptions', '-Dcom.amazonaws.services.s3.enableV4=true') con

浏览 25提问于2022-10-30得票数 -1

1回答

来自S3 -java.lang.ClassNotFoundException的Pyspark : com.amazonaws.services.s3.model.MultiObjectDeleteException

、、、

我正在尝试从AWS EMR集群中使用pyspark从s3获取数据。我仍然收到这个错误- An error occurred while calling o27.parquet. : java.lang.NoClassDefFoundError: com/amazonaws/services/s3/model/MultiObjectDeleteException. 我尝试了不同版本的jars/集群，仍然没有结果。 from pyspark import SparkContext from pyspark.sql import SQLContext from pyspark import Spa

浏览 87提问于2021-04-07得票数 0

2回答

无法在木星笔记本上将s3承载的CSV装载到火花数据中心。

、、、、

无法加载S3-托管的CSV到星火数据在木星笔记本上。我相信我上传了两个必需的包与以下的os.environ行。如果我做错了，请告诉我如何正确安装它。木星笔记本是托管在一个EC2实例上的，这就是为什么我试图从一个S3桶中提取CSV。这是我的代码： import os import pyspark os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages com.amazonaws:aws-java-sdk-pom:1.10.34,org.apache.hadoop:hadoop-aws:2.7.2 pyspark-shell

浏览 19提问于2022-06-23得票数 0

回答已采纳

1回答

如何从S3桶中的最新文件中获取日期

、、

我得到了这样的要求:在PySpark中，我需要从s3中的文件中获取最新的日期。如何使用Pyspark代码获取日期？ s3文件路径，示例： "s3://bucketname/folderpath/2021/10/10/file.parquet, s3://bucketname/folderpath/2021/10/08/file.parquet, s3://bucketname/folderpath/2021/10/05/file.parquet, s3://bucketname/folderpath/2021/10/02/file.parquet" Output：从S3获取最

浏览 1提问于2021-11-15得票数 0

4回答

如何在pyspark (2.2.0)中将CSV文件写入AWS时分配访问控制列表(ACL)？

、、、、

我知道我可以通过以下方式将我的spark数据帧作为CSV文件输出到AWS S3 df.repartition(1).write.csv('s3://my-bucket-name/df_name') 我的问题是，有没有一种简单的方法可以将这个文件的访问控制列表(ACL)设置为'bucket-owner-full-control'，当使用pyspark将其写入S3时？

浏览 0提问于2018-10-06得票数 0

2回答

如何使用AWS Lambda在AWS EMR上运行PySpark

、、、

如何通过AWS Lambda使我的PySpark代码与AWS EMR一起运行？我是否必须使用AWS Lambda创建一个自动终止的EMR群集来运行一次S3存储的代码？

浏览 0提问于2020-06-03得票数 0

1回答

aws glue / pyspark -如何使用Glue以编程方式创建Athena表

、、、、

我在AwsGlue中运行一个脚本，该脚本从s3加载数据，执行一些转换并将结果保存到S3。我正试着在这个例程中再增加一步。我想在雅典娜的现有数据库中创建一个新表。我在AWS文档中找不到任何类似的示例。在我遇到的示例中，结果只是写到了S3中。这在Glue中是可能的吗？这里有一些代码的例子。应该如何修改它才能创建包含输出结果的Athena表？ import sys from awsglue.transforms import * from awsglue.utils import getResolvedOptions from awsglue.context import GlueContex

浏览 26提问于2019-05-31得票数 1

回答已采纳

2回答

如何在pyspark中导入以‘to’分隔的.txt文件

、、

我在亚马逊网络服务s3中有一个分隔的.txt文件。datan由þ 839729þ25þad@xxx.comþfirstnameþlastnameþ0þBLACKþ28/08/2017þ12329038þ99þ287þ81þ0分隔我尝试使用databricks and sparkcontext导入数据。虽然databricks方法运行时没有抛出错误，但数据帧中没有数据。spark上下文只是抛出了一个错误- Cannot run multiple SparkContexts at once. 下面是我尝试过的两个appraoches的代码： from pyspark import SparkCo

浏览 4提问于2017-09-01得票数 0

2回答

有没有办法在运行AWS Glue ETL作业时从S3存储桶中读取文件名并命名输出文件名。pyspark提供了这样做的方法吗？

、、、、

我正在通过从多个名为rawpart1.json和rawpart2.json的S3存储桶中读取json文件来运行AWS Glue ETL作业。验证两个文件中的字段以及两个S3存储桶中的文件名。我可以读取和更改文件名吗？ETL job运行后，在S3存储桶中为ETL job的输出创建文件名。目前我得到的文件名是run-15902070851728-part-r-00000。让我知道我们是否可以在pyspark中做这件事？谢谢

浏览 19提问于2020-06-09得票数 1

1回答

Spark使用Scala内核

、、、、

我在从Spark访问S3数据时遇到了问题。我已经为spylon-kernel安装了JupyterHub (它是带有Spark集成的Scala内核)。它使用pyspark。不幸的是，最新的火花放电仍然使用hadoop-2.7.3库。当我试图访问法兰克福地区的S3桶时，我得到以下： "com.amazonaws.services.s3.model.AmazonS3Exception:状态代码: 400，服务： S3，AWS请求ID: xxxxxxxxxx，错误代码: null，AWS错误消息:坏请求“ 从我的研究来看，这似乎是hadoop 2.7.3问题。对于较新的版本(3.1.1)，它

浏览 1提问于2020-04-25得票数 2

2回答

在AWS Glue pySpark脚本中使用SQL

、、、、

我想使用AWS胶水将一些csv数据转换为orc。我创建的ETL作业生成了以下PySpark脚本： import sys from awsglue.transforms import * from awsglue.utils import getResolvedOptions from pyspark.context import SparkContext from awsglue.context import GlueContext from awsglue.job import Job args = getResolvedOptions(sys.argv, ['JOB_NAME&

浏览 0提问于2017-08-22得票数 7

1回答

需要在本地模式下运行火花放电作业，并将S3连接到Studio中

、、、

我想在Sagemaker中以本地模式运行火花放电作业。根据我对官方文档的了解，我们需要access_key和secret_key 我计划通过下面的脚本使用botocore获得凭据。但是它的secret_key和值既不适用于pyspark，也不适用于python。 import boto3 import pandas as pd from io import StringIO session = boto3.Session() credentials = session.get_credentials() access_key = credentials.access_key secre

浏览 19提问于2022-06-27得票数 0

1回答

我不能在EMR PySpark笔记本上安装spacy型号

、、、、

我现在有一个AWS电子病历，并有一个连接到同一个集群的笔记本。我想加载一个spacy模型(en_core_web_sm)，但是首先我需要下载这个模型，这个模型通常是使用python -m spacy download en_core_web_sm完成的，但是我真的找不到如何在PySpark会话中这样做。这是我的配置： %%configure -f { "name":"conf0", "kind": "pyspark", "conf":{ "spark.pysp

浏览 7提问于2020-08-04得票数 2

回答已采纳

4回答

如何使用Spark防止两次处理文件

、、、

我正在使用AWS处理一些S3 TSV到S3 Parquet。由于非UTF-8传入文件，我被迫使用DataFrames而不是DynamicFrames来处理我的数据(这是一个已知的问题，没有任何解决办法，DynamicFrames对任何非UTF 8字符都完全失败)。这似乎也意味着我不能使用Glue中的Job来跟踪我已经处理过的S3 TSV文件。我的代码如下所示： # pylint: skip-file # flake8: noqa import sys from awsglue.transforms import * from awsglue.utils import getResolvedO

浏览 1提问于2019-03-21得票数 3

回答已采纳

1回答

如何设置PySpark以使用Hadoop从S3本地读取数据？

、、、、

我跟踪了，它建议使用： from pyspark import SparkConf from pyspark.sql import SparkSession conf = SparkConf() conf.set('spark.jars.packages', 'org.apache.hadoop:hadoop-aws:3.2.0') conf.set('spark.hadoop.fs.s3a.aws.credentials.provider', 'org.apache.hadoop.fs.s3a.TemporaryAWSCredent

浏览 7提问于2022-01-28得票数 2

回答已采纳

1回答

Pyspark S3 NoClassDefFoundError: com/amazonaws/AmazonClientException

、、、、

我正在尝试从我运行的一个小spark集群中读取S3文件。我安装了以下jars： "aws-java-sdk-bundle-1.11.975.jar" "hadoop-aws-3.2.1.jar" 并且我使用了以下代码： from pyspark.context import SparkContext from pyspark.sql import SparkSession, SQLContext import os # initialise Spark session spark = SparkSession \ .builder \ .app

浏览 0提问于2021-03-16得票数 1

1回答

如何连接s3文件而不访问密钥详细信息

、、、

我们有一台unix机器，可以直接访问我们的s3桶。我们能够从unix机器上运行所有cli命令，比如"aws s3 ls“。现在，我们需要从那里读取一个文件，并使用pyspark创建一个星火数据框架。因此，现在需要对unix框进行ssh连接，并读取该文件并创建星火数据框架。有没有人能帮助我们如何访问s3而不用使用pyspark访问关键细节。

浏览 2提问于2022-10-19得票数 0

1回答

如何在Dask中导入许多二进制文件？

、

我有许多二进制文件(.tdms格式，类似于.wav)存储在S3中，我想用nptdms读取它们，然后在集群上用Dask以分布式方式处理它们。在PySpark中，有一个pyspark.SparkContext.binaryFiles()，它为每个输入文件生成一个带有字节数组的RDD，这是一个解决这个问题的简单解决方案。我还没有在达斯克找到一个等价的函数--有吗？如果没有，如何才能在Dask中实现同等的功能？我注意到如果有必要使用dask.bytes.read_bytes()，但是nptdms不能读取一个文件的一块-它需要整个文件是可用的，我不知道如何做到这一点。

浏览 5提问于2021-01-06得票数 0

回答已采纳

1回答

如何加快从EMR PySpark笔记本到PySpark的数据写入速度？

、、、、

因此，我正在学习PySpark，在一个附加到EMR集群的jupyter笔记本中玩DMOZ数据集。我正在努力实现的过程如下：将带有s3公共数据集中文件位置的csv加载到DF上的PySpark DataFrame (~130 k行)Map中，该函数检索文件内容(html)并将文本与原始DF连接，作为新列将已连接的DF写入s3 (问题:它似乎永远挂起，它不是一个大任务，输出json应该仅为几个gigs) 所有的编写都是在一个名为run_job()的函数中完成的。我让它在一个包含10个m5.8×大型实例的集群上停留了大约2个小时，这应该足够了。除了df.write()之外，所有其他步骤都可以自行执

浏览 1提问于2021-10-25得票数 0

1回答

通过pyspark中的UDF读取文本文件返回意外输出

、、、

我有一个包含文本文件路径的pyspark dataframe df。我想用文本文件的内容创建一个新列。 import pyspark.sql.functions as F from pyspark.sql.types import * def read_file(filepath): import s3fs s3 = s3fs.S3FileSystem() with s3.open(filepath) as f: return f.read() read_file_udf = F.udf(read_file, StringType()) df.

浏览 9提问于2019-06-14得票数 0

2回答

齐柏林飞艇中带有HCatalog表的火花放电

、、

我已经创建了一个表HCatalog表，其中的分区映射到S3中的一些zip文件。在齐柏林飞艇中，我使用%pyspark模块创建了一个段落，代码如下：第1段： %pyspark from pyspark.sql import HiveContext hc = HiveContext( sc ) f_req_2h = hc.table( "default.f_req_2h" ) # a HCatalog table in the default schema" print f_req_sh.count() f_req_2h.registerTempTable("

浏览 2提问于2016-07-30得票数 1

回答已采纳

1回答

如何将吡火花数据直接写入S3桶中？

、、、

我想直接将保存到s3桶中。我试过了一些选择，但都错了。有人能帮我解决我的问题吗？我创建了一个样例，并试图直接保存在S3桶中。我试过下面的代码- from pyspark.context import SparkContext from pyspark.sql import HiveContext from pyspark.sql.functions import * from pyspark.sql import SQLContext from pyspark.sql.window import Window import pyspark.sql.functions as func from

浏览 18提问于2022-04-01得票数 0