为什么对于pyspark中的S3目录源，input_file_name()是空的？

amazon-web-services、apache-spark、amazon-s3、pyspark、aws-glue

我正在尝试获取通过AWS Glue中的S3数据目录加载的每个文件的输入文件名(或路径)。我已经在几个地方使用read让input_file_name()提供此信息(不过需要注意的是，这只在调用from_catalog而不是from_options时有效，我相信我就是这样做的！)。import SparkContext from pyspark.sql.functions import inp

浏览 70提问于2019-06-29得票数 5

回答已采纳

1回答

如何在AWS胶水作业中添加带有源名称的新列？

pyspark、etl、aws-glue

但是，它并没有像预期的那样工作。我想知道我忽略了哪一步。import sysfrom awsglue.utils import getResolvedOptionsfrom awsglue.cont

浏览 10提问于2019-08-16得票数 0

3回答

AWS Glue:如何在输出中添加带有源文件名的列？

amazon-web-services、apache-spark、pyspark、aws-glue

有谁知道将源文件名作为列添加到Glue作业中的方法吗？我查看了AWS文档和aws-glu

浏览 0提问于2018-05-11得票数 7

回答已采纳

1回答

使用通配符读取物理分区的数据

apache-spark、amazon-s3、pyspark、apache-spark-sql

我在AWS S3上有一个持久化数据帧，结构如下： s3://bucket/df/ |__ FILENAME01.json |__ FILENAME02如果我使用以下语法读取此数据帧： df = spark.read.json("s3://bucket/df)" 没有扩展名的文件将是我的数据帧的一部分，这是不可取的。

浏览 50提问于2021-02-20得票数 1

回答已采纳

1回答

如何在重新分区后在input_file_name中获得正确的PySpark

dataframe、apache-spark、amazon-s3、pyspark、apache-spark-sql

我正在开发一个PySpark作业，用于读取文本文件，并在AWS S3桶上编写拼图文件。df.write.

浏览 3提问于2020-03-24得票数 1

回答已采纳

2回答

从csv文件读取增量/插入数据集

csv、apache-spark、pyspark、spark-dataframe

我有一个定期更新的数据集，作为一系列CSV文件接收这些更改。我想要一个只包含每一行的最新版本的Dataframe。是否有一种方法可以在火花/火花放电中加载整个数据集，从而允许并行性？) 3,JKL 4,MNO 我知道，我可以通过顺序加载每个文件，然后使用一个反连接(用于踢出旧值被替换)和一个联合，但这并不是让工作负载是并行的

浏览 3提问于2017-06-28得票数 0

回答已采纳

1回答

如何使用AWS Glue从web服务端点提取数据？

web-services、amazon-web-services、pyspark、aws-glue

更多的源数据来自我需要定期轮询的Web服务端点。一旦我得到数据，我就可以使用pyspark执行传统的ETL，并最终将数据写入S3和Redshift。我不知道如何进行初始提取，甚至不知道我应该在AWS Glue文档中寻找什么。对于数据目录，“源”web服务终结点是否可以被视为一个表？任何例子都会更好。

浏览 1提问于2018-04-19得票数 2

回答已采纳

1回答

为什么星火需要S3来连接红移仓库？同时，巨蟒熊猫可以直接阅读红移表。

amazon-web-services、amazon-s3、pyspark、amazon-redshift

提前为这个愚蠢的问题道歉。我刚从AWS和Pyspark开始。我当时正在查看pyspark库，并且我看到S3中需要一个tempdir才能读取红移中的数据。我的问题是，为什么pyspark需要这个S3临时目录。其他库，例如Pandas，可以直接读取Redshift表，而无需使用任何临时目录。感谢每个人。路易斯

浏览 4提问于2022-05-14得票数 0

1回答

如何从S3桶中读取最新的7天csv文件

scala、apache-spark、pyspark、apache-spark-sql

我想弄清楚，如何使用Spark从s3桶中的文件夹中读取最新的7天文件。我们拥有的目录：Source/Date_1/Client_1/sample_1.csvSource/Date_2/Client_3/sample_1.csv Source&

浏览 6提问于2021-12-21得票数 0

1回答

AWS Glue - Pick动态文件

python、amazon-web-services、pyspark、aws-glue

有人知道如何从S3存储桶中获取动态文件吗？我在S3存储桶上设置了一个爬虫，然而，我的问题是，每天都会有后缀为YYYY-MM-DD-HH-MM-SS的新文件到来。当我通过目录读取表时，它会读取目录中存在的所有文件吗？是否可以动态挑选给定日期的最新三个文件，并将其用作源文件？谢谢!

浏览 1提问于2018-09-29得票数 1

1回答

导入Pyspark* Delta Lake模块时找不到模块错误*

apache-spark、pyspark、spark-structured-streaming、delta-lake

这是在一台没有互联网连接的机器上，所以我必须手动从Maven下载增量核心jar，并将其放到%SPARK_HOME%/jars文件夹中。我的程序运行正常，没有任何问题，而且我能够从delta中写入和读取，所以我很高兴我得到了正确的jar。但是当我尝试导入增量模块from delta.tables import *时，我得到了错误。对于信息，我的代码是： import os from pyspark.sql import Spa

浏览 25提问于2020-06-11得票数 2

回答已采纳

2回答

如何读取电火花中s3上的表格数据？

amazon-s3、amazon-ec2、pyspark、parquet、pyspark-sql

在s3目录s3://mybucket/my/directory/中有一些选项卡分隔的数据。现在，我要告诉pyspark，我想使用\t作为分隔符，只在下面这样的一个文件中读取： from pyspark.sql import://mybucket/my/directory/

浏览 3提问于2017-07-17得票数 1

回答已采纳

1回答

Databricks spark.read csv具有要刷新的行号

dataframe、apache-spark、databricks

我要将csv读取到数据帧1.我创建了结构2. load csv spark.read.option("header"，"false").schema(schema).option('delimiter'，'，').option('mode'，'PERMISSIVE').csv( path1 ) enter image description here所示如何检查哪些文件/哪些行获得了#torefresh和null...…?？?

浏览 10提问于2019-09-28得票数 0

2回答

从Glue Catalog和Glue Py Spark脚本中的动态路径同步CSV文件

amazon-web-services、amazon-s3、pyspark、aws-glue

我每天都将CSV文件存储在亚马逊网络服务s3中。下面是我的S3文件路径结构：在此结构中，将每天生成s3文件路径的日期部分。现在我想使用AWS glue for ETL将数据从S3传输到Redshift。要使用它，我如何在数据目录中添

浏览 1提问于2019-09-19得票数 0

1回答

s3是如何工作的？

amazon-s3、pyspark

我正试图使用pyspark在s3中保存数据。已经存在一堆来自上一轮火星雨的文件。在我当前的运行中，我试图用新的dataframe (它已经包含旧的数据)中的数据覆盖现有的文件。我正在使用由pyspark提供的“覆盖”模式来处理这个问题。这到底是怎么回事？在用新数据写入新文件之前，S3是否删除目录中的</

浏览 4提问于2022-03-18得票数 0

回答已采纳

1回答

使用python将数据从kafka发送到s3

amazon-s3、pyspark、apache-kafka

对于我的当前项目，我正在使用Kafka (python)，并想知道是否有任何方法可以将流式Kafka数据发送到AWS S3桶(而不使用汇流)。我从Reddit API获得我的源数据。我甚至想知道Kafka+s3是否是一个很好的组合，用于存储数据，这些数据将使用pyspark进行处理，或者我应该跳过s3步骤，直接从Kafka读取数据。

浏览 5提问于2022-08-28得票数 0

1回答

Pyspark:将tar.gz文件加载到数据文件中，并通过文件名进行筛选

apache-spark、pyspark、tar、pyspark-dataframes

我有一个包含多个文件的tar.gz文件。层次结构如下所示。我的目的是读取tar.gz文件，过滤掉b.tsv的内容，因为它是静态元数据，所有其他文件都是实际记录。通过吡咯烷酮加载，我可以将该文件加载到dataframe中。from pyspark.sql.functions import input_file_name它现在生成

浏览 2提问于2020-02-06得票数 1

4回答

AWS S3同步--删除、删除本地的新文件

amazon-web-services、amazon-s3、aws-cli

aws s3 sync --delete删除了一些新文件。桶- S3://my-bucket/images/1.jpg中有一个文件。然后，我将一个文件上传到服务器：2.jpg开始运行同步cron作业：awss3 sync ./ s3://my

浏览 20提问于2015-06-02得票数 60

1回答

PySpark和Pandas读取从S3中分离的csv文件跳过空文件

apache-spark、amazon-s3、pyspark、boto3、emr

使用PySpark，我有一些代码可以运行在一系列查询中。/Csvs/Query_{}'.format(index) 我是个新手，但我知道每个分区都在将各个csv文件写入一个名为Query_[index]的目录。所以我的代码花了很多时间试图读取一个空的csv文件，结果却抛出了一个异常。据我所知，df_spark.toPandas()函数克服了spark的用途，因为它将其放入驱动程序内存中，

浏览 3提问于2018-02-07得票数 1

1回答

pyspark合并覆盖为一个具有固定名称的文件

apache-spark、pyspark、amazon-emr

我们有一个自动化管道的需求。我的需求是使用具有固定名称的pyspark生成/覆盖一个文件但是，我现在的命令是- final_df.coalesce(1).write.option("header", "true").csv("s3://finalop/" , mode="overwrite") 这确保目录(finalop)是

浏览 25提问于2020-10-14得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在AWS胶水作业中添加带有源名称的新列？

AWS Glue:如何在输出中添加带有源文件名的列？

使用通配符读取物理分区的数据

如何在重新分区后在input_file_name中获得正确的PySpark

从csv文件读取增量/插入数据集

如何使用AWS Glue从web服务端点提取数据？

为什么星火需要S3来连接红移仓库？同时，巨蟒熊猫可以直接阅读红移表。

如何从S3桶中读取最新的7天csv文件

AWS Glue - Pick动态文件

导入Pyspark* Delta Lake模块时找不到模块错误*

如何读取电火花中s3上的表格数据？

Databricks spark.read csv具有要刷新的行号

从Glue Catalog和Glue Py Spark脚本中的动态路径同步CSV文件

s3是如何工作的？

使用python将数据从kafka发送到s3

Pyspark:将tar.gz文件加载到数据文件中，并通过文件名进行筛选

AWS S3同步--删除、删除本地的新文件

PySpark和Pandas读取从S3中分离的csv文件跳过空文件

pyspark合并覆盖为一个具有固定名称的文件

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐