使用python将两个spark数据帧合并到一个模式中_当字典具有不同的键时，将Python字典合并到Spark数据帧中_使用Pandas将多个CSV文件合并到一个数据帧中 - 腾讯云开发者社区

、、、

我有两个不同的pyspark数据帧，需要合并成一个。有一些逻辑需要为合并编码。其中一个数据帧具有以下模式：(id，类型，计数)，另一个具有模式：(id，timestamp，test1，test2，test3) 第一个数据帧是通过sql "group by“查询创建的。并且，对于给定的类型，有一个相关的计数。在最终的模式</em

浏览 46提问于2020-01-29得票数 0

回答已采纳

1回答

有没有办法在pyspark中加速缓存过程？

、

我正在尝试缓存一个基于Pyspark的3列27行的数据帧，这个过程大约需要7-10秒。提前感谢！

浏览 1提问于2020-07-20得票数 0

3回答

如何使用createDataFrame创建pyspark数据帧？

我知道这可能是一个愚蠢的问题。SparkSessiondf = SparkSession.createDataFrame(rows)df.show() 但是我得到了一个错误

浏览 1提问于2018-03-12得票数 2

回答已采纳

1回答

将88个JSON文件合并和/或读取到Dataframe -不同的数据类型

、、、

我基本上有一个过程，在这个过程中，我对一个API进行多次调用，并在JSON返回中使用一个令牌，将这个包传递到函数顶部，再次调用API以获得一个“分页”文件。在将每个JSON文件下载到数据帧后，我尝试读取它，然后尝试将该数据文件合并到主数据帧中，因此基本上，我将有一个大数据帧与

浏览 5提问于2022-06-24得票数 0

2回答

如何在"pyspark“中读取xml文件？

、、

其他人使用此代码。spark.read \ .option('rootTag', 'tags')df = spark.read.format('xml').options(rowTag='file').load('ted_en-20160408.xml') 但也有错误。Please

浏览 2提问于2021-09-30得票数 0

1回答

使用更改模式将数据插入到增量表中

、、

如何通过改变数据库中的模式将数据插入到增量表中。在Databricks Scala中，我分解了一个Map列并将其加载到增量表中。我有一个预定义的增量表模式。假设模式有4列A、B、C、D。因此，有一天，我使用下面的代码将包含4列的数据帧加载到增量表中。例如，在第2天，添加了两个</e

浏览 18提问于2021-10-29得票数 0

1回答

合并具有不同模式的两个地块文件

、、、

我有两个拼图文件，拼花A有137列，拼花B有110列。拼图文件包含表的整个历史记录。因此，拼图A拥有表的整个历史记录的所有字段。拼图B是我今天拉入的所有值，删除了17列。是否可以将缺少的列添加到拼接B并添加空值。那就加入工会吧？

浏览 19提问于2018-09-06得票数 0

1回答

Spark-SQL :如何将TSV或CSV文件读入dataframe并应用自定义模式？

、、、

我在使用制表符分隔值(TSV)和逗号分隔值(CSV)文件时使用Spark 2.0。我希望将数据加载到Spark-SQL数据帧中，在读取文件时，我希望完全控制模式。我不希望Spark从文件中的数据中猜测模式。如何将TSV或CSV文件加载到Spark SQL Dataframe中</em

浏览 2提问于2017-04-20得票数 6

2回答

Pyspark:通过ID和最近日期向后加入2个数据帧

、、、

在pyspark (和一般的python )中执行两个数据帧的滚动连接时，我遇到了很多问题。我希望将两个pyspark数据帧通过它们的ID和最近日期反向连接在一起(这意味着第二个数据帧中的日期不能晚于第一个数据帧中的日期) Table_2：期望的结果：从本质上讲，

浏览 1提问于2020-08-08得票数 2

1回答

使用pyspark在Azure Blob存储中将多个csv文件合并为一个csv文件

、、、

我使用下面的代码将csv文件保存回blob存储，尽管它在循环中运行时会创建多个文件。现在我想将它们合并到一个单独的csv文件中。虽然我已经使用了dbutils.fs.cp/mv，但它没有什么帮助df = spark.read.format("com.databricks.spark.csvappend").option("header"

浏览 15提问于2019-08-20得票数 1

回答已采纳

6回答

如何在Pyspark中定义一个空的dataframe并将其附加到相应的dataframe？

、

所以我想从一个目录中读取csv文件，作为pyspark dataframe，然后将它们附加到单个dataframe中。而不是像我们在熊猫身上做的那样，在pyspark中得到替代方案。例如，在熊猫中，我们这样做： dff=pd.read_csv(f,delimiter=',')在Pysp

浏览 5提问于2017-04-10得票数 11

3回答

pySpark将mapPartitions的结果转换为spark* DataFrame*

、、

我有一个作业需要在分区的spark数据帧上运行，该进程如下所示： rdd = sp_df.repartition(n_partitions, partition_key).rdd.mapPartitions现在我希望将结果转换成spark数据帧，我这样做的方式是： sp = None if i == 0:sp = spark.creat

浏览 124提问于2019-12-10得票数 4

回答已采纳

3回答

在写入dataframe - pyspark之前从表中删除记录

、、、、

在从dataframe向表中写入数据之前，我正在尝试从表中删除记录。这对我不起作用。我做错了什么？query = "(delete from xx_files_tbl)" .option("url", "jdbc:sqlserver

浏览 172提问于2020-10-14得票数 1

回答已采纳

1回答

spark.createDataFrame ()不使用Seq RDD

、、

CreateDataFrame有两个参数，一个rdd和一个模式。", StringType,false) ) )`val data1=Seq(Row(1,"one"),Row(2,"two")) data2不能成为数据帧的有效rdd，这有什么

浏览 16提问于2019-08-19得票数 0

回答已采纳

4回答

我在Python中使用Apache Arrow和Spark已经有一段时间了，通过使用Pandas作为中介，我可以很容易地在dataframes和Arrow对象之间进行转换。然而，最近我为了与Spark进行交互而从Python转到了Scala，在Scala (Java)中使用Arrow并不像在Python中那样直观。我的基本需求是尽快将Spark dataframe (或RDD，因为它们很容易转换)转换为Arrow对象

浏览 58提问于2017-07-28得票数 11

3回答

pyspark to hive中的Pandas数据帧

、、、

如何将熊猫数据帧发送到hive表？我知道如果我有一个spark数据帧，我可以将它注册到一个临时表中，使用sqlContext.sql("create table table_name2as select * from table_name") 但是当我尝试对registerTempTable使用</

浏览 0提问于2016-04-28得票数 9

回答已采纳

1回答

在spark中处理json文件

、、

在spark-scala中，我需要使用嵌套结构的json文件来创建数据帧我有一个具有复杂嵌套结构的json输入。每天都有可能一些键在任何记录上都不可用(键是可选的)，键的.some可能不会出现在day1上，可能会出现在day2中，但我希望得到一个通用的输出，其中所有列都期望inspite键缺失。我不能使用withcolumn函数并应用默认值，因为如果键出现在某一天，相应的值应该是我选择的taken.if，它无法解决错误，

浏览 1提问于2019-10-01得票数 0

1回答

使用数据仓库中的python客户端库加载BQ表。需要成本分析。ETL vs ELT

、、

我需要开发一个数据仓库，它要求我使用Python将JSON数据加载到大型查询表中。列也将被转换为特定的数据类型。我应该采用哪种方法来节省成本--a.先使用临时表中的Python Big Query客户端库将数据加载到Big Query表中。b.在大型查询表上执行Cast SQL以更新模式。并加载到数据仓

浏览 3提问于2020-05-26得票数 0

1回答

在Spark结构的流中读取嵌套Json

、、

我正在尝试使用结构化流媒体从Kafka中读取数据。从kafka收到的数据为json格式。我使用样例json创建模式，稍后在代码中使用from_json函数将json转换为数据帧以进行进一步处理。我面临的问题是嵌套模式和多值。示例模式将标记(比如a)定义为结构。从kafka读取的json数据对于同一标签可以有一个或多个值(

浏览 6提问于2019-06-11得票数 0

1回答

更改spark* _temporary目录路径，避免删除parquets*

、、

当两个或多个Spark作业具有相同的输出目录时，相互删除文件将不可避免。我正在使用spark 2.4.4在append模式下写入一个数据帧，我想在spark的tmp目录中添加一个时间戳，以避免这些删除。示例：使用其他数据调用

浏览 20提问于2020-03-19得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云