使用pyspark to pyspark dataframe从s3位置读取拼图文件的文件夹_无法使用本地PySpark从S3读取json文件_方案没有FileSystem : s3在读取拼图s3文件时使用pyspark - 腾讯云开发者社区

pyspark、parquet

我在火星雨方面还很新，我还在努力弄清楚到底是谁干的。我想要做的是在内存中加载一个拼花文件之后，使用pyarrow，我试着使它成为。但我搞错了。--我要提到的是，我并不是直接阅读pyspark，因为s3中的文件给了我另一个关于“s3"的错误，所以我试图解决这个问题。下面我有一个可重复的例子。',filesystem=s3) sc = Spark

浏览 1提问于2019-07-29得票数 0

1回答

雪花不扣除拼花中的按列分区

snowflake-cloud-data-platform、parquet

但是，当对拼图文件进行分区并将其存储在S3中时，推断模式的功能与pyspark数据帧不同。在DataFrames中，分区文件夹名和值被读取为最后一列；在Snowflake推断模式中，有没有办法实现同样的结果？ @GregPavlik -输入为结构化拼图格式。当地块文件存储在没有分区的S3中时，模式是完全派生出来的。"：“20302”}

浏览 0提问于2021-10-21得票数 5

2回答

从pyspark作业在s3存储桶中动态创建文件夹

python-3.x、amazon-web-services、amazon-s3、pyspark

我正在将数据写入s3存储桶，并使用pyspark创建拼图文件。我的存储桶结构如下：子文件夹和表如果文件夹不存在，这两个文件夹应该在运行时创建，如果文件夹存在，拼图文件应该在文件夹表中。当我在本地机器上运行pyspark程序时，它

浏览 2提问于2020-12-03得票数 0

1回答

异常: Java网关进程在使用pyspark发送其端口号之前退出

python、amazon-s3、pyspark、parquet

我在一台jupyter笔记本上使用python和pyspark。我正在尝试从亚马逊网络服务的s3存储桶中读取几个拼图文件，并将它们转换为单个json文件。这就是我所拥有的：from pyspark.sql import DataFrame ke

浏览 3提问于2020-07-18得票数 1

1回答

从多个S3存储桶导入pyspark dataframe，其中有一列指示条目来自哪个存储桶

amazon-s3、pyspark、pyspark-dataframes

我有一个按日期分区的S3存储桶列表。第一个存储桶标题为2019-12-1，第二个存储桶标题为2019-12-2，依此类推。这些存储桶中的每一个都存储我正在读取到pyspark dataframe中的拼图文件。从每个存储桶生成的pyspark dataframe具有完全相同的模式。我想要做的是迭代这些存储桶，并将所有这些拼

浏览 13提问于2019-12-16得票数 0

回答已采纳

2回答

如何指定saveAsTable保存文件的路径？

apache-spark、pyspark、apache-spark-sql

我正在尝试使用DataFrameWriter在Spark1.4的pyspark中保存一个DataFrame到S3df_writer = pyspark.sql.DataFrameWriter(df) .saveA

浏览 0提问于2015-06-17得票数 14

回答已采纳

2回答

读取PySpark中的所有分区拼图文件

apache-spark、pyspark、apache-spark-sql、parquet

我想要加载存储在S3 AWS文件夹结构中的所有拼图文件。文件夹结构如下：<code>D0</code> 我想要的是一次读取所有的拼图文件，所以我希望PySpark读取2019年所有可用的月份和日期的所有数据，然后将其存储在一个数据帧中(这样您就可以获得一个包含2019年所有日期的连接/

浏览 70提问于2019-12-04得票数 0

1回答

追加到拼图文件的EMR Spark步骤正在覆盖拼图文件

python、apache-spark、amazon-emr、parquet

在使用Python 3.6的Amazon EMR集群(1个主服务器，2个节点)上运行Spark 2.4.2 我正在读取亚马逊s3中的对象，以拼图格式压缩它们，并将它们添加(附加)到现有的拼图数据存储中。当我在pyspark shell中运行我的代码时，我能够读取/压缩对象并将新的拼图文件添加到现有的拼图文件中，并且，当

浏览 17提问于2019-07-10得票数 1

回答已采纳

1回答

使用pyspark to pyspark dataframe从s3位置读取拼图文件的文件夹

python、amazon-web-services、hadoop、amazon-s3、pyspark

我想将s3 bucket myBucketName上的文件夹poc/folderName中的一些拼图文件读取到pyspark dataframe。我正在使用pyspark v2.4.3来做同样的事情。下面是我正在使用的代码 sc = SparkContext.getOrCreate() sc.sqlContext =

浏览 13提问于2019-10-11得票数 0

1回答

AWS作业create_dynamic_frame_from_options()打开特定的文件？

amazon-web-services、apache-spark、pyspark、aws-glue

如果使用create_dynamic_frame_from_catalog()，则提供数据库名称和表名，例如，从Glue爬虫中创建，这实际上是命名特定的输入文件。我希望能够在没有爬虫和数据库的情况下完成同样的操作(指定一个特定的输入文件)。我尝试过使用create_dynamic_frame_from_options()，但“路径”连接选项显然不允许我命名该文件。有办法这样做吗？

浏览 1提问于2020-07-15得票数 1

1回答

PyArrow表到PySpark数据帧的转换

python-3.x、pandas、pyarrow

我正在尝试将我的Pandas数据帧转换为PySpark数据帧。createDataFrame函数不起作用，所以我找到了PyArrow。

浏览 1提问于2018-11-16得票数 3

1回答

通过spark dataframe读取S3文件时，粘合书签不起作用

amazon-web-services、amazon-s3、pyspark、aws-glue

我有一个存储.gz文件(json格式)的S3存储桶。每小时将有更多的文件发送到此存储桶。我想使用Glue增量地(每天)从S3存储桶中读取数据，将.gz转换为拼接，然后写回另一个S3存储桶。我想我可以使用Glue书签来完成增量文件的读取/转换/写入。然而，我发现如果我读取spark dataframe<

浏览 24提问于2020-12-30得票数 1

2回答

如何读取电火花中s3上的表格数据？

amazon-s3、amazon-ec2、pyspark、parquet、pyspark-sql

现在，我要告诉pyspark，我想使用\t作为分隔符，只在下面这样的一个文件中读取：sc.setLogLevel("DEBUG") sqlContext = SQLContext:/&

浏览 3提问于2017-07-17得票数 1

回答已采纳

2回答

电子病历笔记本-会话未处于活动状态

apache-spark、pyspark、amazon-emr、livy

我正在使用EMR笔记本和pyspark和livy。我从s3中读取数据，数据格式为拼图和字符串，并将其读入pyspark数据帧。大约有几个。200万行。当我执行连接操作时。遇到错误:来自的无效状态代码'400‘，负载错误：“要求失败:会话未处于活动状态。”

浏览 1提问于2019-08-19得票数 1

1回答

在pyspark中，Inferschema将列检测为字符串，而不是parquet中的双精度

pyspark、azure-databricks

问题-我正在使用azure databricks在pyspark中读取拼图文件。有一些列有很多空值并且有十进制值，这些列被读取为字符串而不是双精度。有没有办法推断出pyspark中正确的数据类型？代码- 要读取拼花面板文件- df_raw_data = sqlContext.read.parquet(data_filename[5:]) 它的输出是一个包含100多列的数据帧，其中大

浏览 16提问于2020-06-23得票数 0

1回答

火花:火花-csv花了太长时间

csv、apache-spark、pyspark

我正试图使用Databricks DataFrame包和，从EMR集群上的S3上的CSV源创建一个sqlContext = SQLContext).options(header='true').load('s3n://h2o-airlines-unpacked/allyears.csv') 这不会在4m3.

浏览 0提问于2015-08-28得票数 3

1回答

使用Pyspark从s3存储桶中读取最后一个csv文件

python、amazon-web-services、csv、amazon-s3、pyspark

因此，我有一个s3存储桶(数据)，其中有一个名为(First)的文件夹，其中包含多个CSV文件，但我不知道该文件的名称，现在我想将该文件夹中的最新文件读取到pyspark dataframe中。

浏览 15提问于2021-09-16得票数 0

1回答

将嵌套的JSON列转换为Pyspark列

arrays、json、dataframe、pyspark

我已经使用S3数据格式在pyspark.pandas中读取和存储了拼花文件。现在，在第二阶段，我试图在databricks中读取pyspark dataframe中的parquet文件，并面临将嵌套的json列转换为适当列的问题。首先，我使用以下命令从S3读取拼图数据： adf = spark

浏览 8提问于2022-06-07得票数 0

1回答

Pyspark dataframe在不删除/_temporary文件夹的情况下写入拼图

pyspark、pyspark-sql

df.write.mode("append").parquet(path)我建议将文件写入另一个可以授予删除权限的文件夹，然后将文件复制过来。

浏览 5提问于2019-12-10得票数 0

1回答

使用本地Pyspark从GCS打开镶木

apache-spark、pyspark、google-cloud-storage

我在谷歌云存储上有一个文件夹，里面有几个拼图文件。我安装在我的VM pyspark中，现在我想读取拼图文件。下面是我的代码： from pyspark.sql import SparkSession .builder\ .getOrCreate() sc = spark.s

浏览 26提问于2019-12-11得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

从拼花文件中创建pyspark数据格式

雪花不扣除拼花中的按列分区

从pyspark作业在s3存储桶中动态创建文件夹

异常: Java网关进程在使用pyspark发送其端口号之前退出

从多个S3存储桶导入pyspark dataframe，其中有一列指示条目来自哪个存储桶

如何指定saveAsTable保存文件的路径？

读取PySpark中的所有分区拼图文件

追加到拼图文件的EMR Spark步骤正在覆盖拼图文件

使用pyspark to pyspark dataframe从s3位置读取拼图文件的文件夹

AWS作业create_dynamic_frame_from_options()打开特定的文件？

PyArrow表到PySpark数据帧的转换

通过spark dataframe读取S3文件时，粘合书签不起作用

如何读取电火花中s3上的表格数据？

电子病历笔记本-会话未处于活动状态

在pyspark中，Inferschema将列检测为字符串，而不是parquet中的双精度

火花:火花-csv花了太长时间

使用Pyspark从s3存储桶中读取最后一个csv文件

将嵌套的JSON列转换为Pyspark列

Pyspark dataframe在不删除/_temporary文件夹的情况下写入拼图

使用本地Pyspark从GCS打开镶木

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐