将Spark DataFrame导出为S3_Pyspark -将DataFrame导出为文本_使用Python将DataFrame导出为pptx - 腾讯云开发者社区

、、、、

因此，在某些操作之后，我在Spark DataFrame中有了一些数据，具体地说，就是org.apache.spark.sql.DataFrame = [_1: string, _2: stringnot null|.isComplete("value")| +--------------------+--------------------+--------------------+ 当我尝试将数据框导出为csv到我的S3存储桶时

浏览 62提问于2021-02-10得票数 0

回答已采纳

1回答

创建外部雅典娜表，用于按星火2.2.1创建，数据丢失或不正确的十进制或时间戳类型

、、、

我尝试从雅典娜的s3拼花文件(用火花保存到s3中创建)创建外部表。每当数据类型为十进制或时间戳时，之后就不会显示任何数据。org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe' 'serialization.format' = '1'LOCATION 's3将以上代码中的小数点(38，0)替换为double，不工作，该列中没有显示用字符串

浏览 3提问于2020-04-10得票数 1

1回答

是否可以在PySpark中解除DataFrame的标记？

、、、、

在标记化并删除停用词之后，我想要取消标记化剩余的单词并导出到csv。这有可能吗？%pythonfrom pyspark.sql import SparkSessionfrom pyspark import SparkFiles<em

浏览 18提问于2021-02-17得票数 1

0回答

如何通过Spark向S3对象添加用户定义的元数据

我正在使用spark sql dataframe将s3写成parquetspark.sparkContext.hadoopConfiguration.set("fs.s3a.server-side

浏览 3提问于2018-07-14得票数 7

1回答

火花转换Pandas df到S3

、、、、

如何将Pandas以一种方便的方式转换成可以写入s3的数据。 .format("com.databricks.spark.csv") .save("123.csv")

浏览 0提问于2017-01-03得票数 0

回答已采纳

1回答

将spark数据帧导出到带有标头和特定文件名的.csv

、、、、

我正在尝试将数据从spark dataframe导出到.csv文件： .write\我希望文件名为"part-r-00000.csv“或"part-00000.csv” 由于该文件是在亚马逊网络服务S3

浏览 6提问于2018-02-07得票数 12

1回答

重命名Spark作业中的导出文件

、、

我们目前正在使用Spark Job on Databricks，它在S3中的数据湖上进行处理。处理完成后，我们使用普通的df.write()将结果导出到S3存储桶中问题是，当我们将数据帧写入S3时，文件的名称由Spark控制，但根据我们的协议，我们需要将该文件重命名为一个有意义的名称。由于S3没有重命名功能，我们现在正在使用boto3复制和粘贴具有预期名称的文件。这个过程非常复杂，而且随着更多的客户加入，这个过程也不能扩展。我们有没

浏览 0提问于2019-04-12得票数 1

1回答

Spark :基于s3文件中的字段动态生成查询

、、

基于s3中的这些数据，我们将数据加载到一个表中，并且我们手动地(在每次运行中字段的数目可能会随着添加或删除几个列而改变)运行一个metrics.There，因为很少的metrics.There会对这些数据进行更多的计算Approach：考虑到模式少的特性，由于每次运行时s3文件中的字段数可能不同，只需添加/删除几个字段，这就需要在SQL中每一次进行手动更改，因此我计划探索Spark/Scala，这样我们就可以直接从s3查询:如何在scala/spark&#x

浏览 7提问于2020-03-19得票数 1

6回答

如何将PySpark中的表数据框导出到csv？

、、、、

我使用的是Spark 1.3.1 (PySpark)，并且我已经使用SQL查询生成了一个表。我现在有一个对象，它是一个DataFrame。我想把这个表对象(我把它叫做“DataFrame”)导出到一个csv文件中，这样我就可以操作它并绘制列。如何将DataFrame“表”导出为csv文件？谢谢!

浏览 813提问于2015-07-13得票数 92

回答已采纳

1回答

从Spark写入DynamoDB

、、、

我正在尝试使用spark从亚马逊s3获取一个文件(以DataFrame或RDD的形式)，执行一些简单的转换，然后将文件发送到DynamoDB上的一个表中。在阅读了其他一些论坛帖子后，我开始了解到读/写DynamoDB需要使用hadoopRDD -这与spark中的RDD不同-也不同于我检索s3文件的方式。我该如何将DataFrame/RDD从s3中的文件更改为hadoopRDD，这样我才能将其发送回来？我正在使用

浏览 0提问于2016-05-26得票数 7

2回答

如何将文件名自动提取到数据框中，而不是手动指定

、

我正在尝试用Scala或python自动化我的spark代码，这就是我想要做的从s3存储桶中，spark代码应该能够选择文件名并创建数据帧example Dataframe=sqlContext.read.format("com.databricks.spark.csv").options(header="true").options(delimite

浏览 0提问于2016-02-04得票数 1

1回答

在spark/scala中读取s3时，分区id被隐式转换

、、、、

我有s3中的源数据，我的spark/scala应用程序将在一个新的partition_id列上对它进行分区之后，读取这些数据并将其写成拼花文件。partition_id的值将通过从具有字母数字字符串值的另一个id列中获取前两个字符来导出。例如：将数据写入s3后，将为每个分区创建单独的分区文件夹，并且一切看起来都很好。用于将分区数据写入/从s3读取的命令： <em

浏览 1提问于2019-09-25得票数 1

回答已采纳

1回答

将数据从redshift直接复制到EMR集群--这是一种好的做法吗？

、

亚马逊提供了一个非常详细的文档来将数据从电子病历复制到电子病历(通过S3)，但在其他方面似乎没有任何文档，这让我想知道将数据从电子病历加载到电子病历(直接，或通过某种媒介)是否是一个好的做法。

浏览 13提问于2018-08-14得票数 0

1回答

在星火中，RDD和Dataframe有什么区别？

、、

我想了解RDD、dataframe和数据集之间的区别。在这种情况下，当我从s3加载数据时，什么是RDD？感谢有人能解释RDD、dataframe和数据集之间的区别。

浏览 1提问于2019-08-20得票数 2

1回答

如何使用s3从boto3读取拼图文件

、、

我在s3桶(s3://mybucket/my/path/)中没有几个拼板文件。我想要阅读它使用boto3的火花数据。由于现有的安全性，我不能将它直接读为spark.read.parquet('s3://mybucket/my/path/')。因此，需要使用boto3阅读它。当尝试使用下面的代码读取单个拼板文件(S3://mybucket/m

浏览 0提问于2021-11-17得票数 0

3回答

将大型Spark Dataframe保存为S3中的单个json文件

、、、

我试图在亚马逊S3中将一个Spark DataFrame (超过20G)保存到一个json文件中，我保存数据帧的代码如下所示：但是我从S3得到了一个错误“你建议的上传超过了最大允许的大小”，我知道亚马逊允许的最大文件大小是5 5GB。可以和Spark一起使用S3</

浏览 0提问于2015-04-28得票数 19

回答已采纳

1回答

如何读取拼板文件并只保存包含某些列的文件

、

我在一个S3桶里有一堆拼花文件。这些文件包含不同的列。我想读取这些文件，并创建一个仅包含一些列的文件的数据框架。例如:假设我有三列“名称”、“城市”和“年份”。

浏览 6提问于2022-03-10得票数 1

1回答

使用s3-dist-cp进行星火应用程序消费的JSON聚合

、、、

运行在AWS上的spark应用程序从存储在S3中的JSON数组加载数据。然后通过火花引擎处理由此创建的Dataframe。s3-dist-cp --src <em

浏览 13提问于2020-04-07得票数 0

1回答

AWS作业create_dynamic_frame_from_options()打开特定的文件？

、、、

如果使用create_dynamic_frame_from_catalog()，则提供数据库名称和表名，例如，从Glue爬虫中创建，这实际上是命名特定的输入文件。我希望能够在没有爬虫和数据库的情况下完成同样的操作(指定一个特定的输入文件)。

浏览 1提问于2020-07-15得票数 1

1回答

在胶水中的现有地板文件上创建表

、、、

我在S3中有一个拼花文件，我想在上面创建一个胶水表。我正在使用boto3 python来做到这一点。test_table', 'Location': 's3

浏览 2提问于2020-04-06得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云