PySpark中多个数据帧的迭代合并_Pyspark:迭代数据帧中的组_PySpark:迭代数据帧列表 - 腾讯云开发者社区

python、pyspark、pyspark-dataframes

我想将多个PySpark数据帧合并到一个PySpark数据帧中。它们都来自相同的模式，但是它们可能会有所不同，因为有时会缺少一些列(例如，模式通常包含200个具有已定义数据类型的列，其中dataFrame A有120列，dataFrame B有60列)。是否有可能在不写入和读取所有数据帧的情况下再次使用mergeSchema<e

浏览 2提问于2020-06-22得票数 0

1回答

PySpark中多个数据帧的迭代合并

python、apache-spark、pyspark

我正在尝试使用pyspark中的unionAll函数来连接多个数据帧。这就是我要做的： df_list = [] normalizer = Normalizer(inputCol="features", outputColreduce(unionAll, df_list) big_df.write.mode('append').parquet('some_p

浏览 18提问于2019-05-17得票数 0

1回答

如何合并或连接spark中列号不相等的数据帧

python、apache-spark、pyspark、apache-spark-sql、spark-dataframe

我正在做一个使用spark的项目。在某些阶段，我需要在单个数据帧中合并或连接3个数据帧。这些数据帧来自spark sql表，我使用了联合函数，它已经合并了两个表中具有相同编号的列，但我也需要合并不相等的列值。我现在很困惑，有没有办法在pyspark中合并或连接不相等的基于列<

浏览 13提问于2016-09-22得票数 0

1回答

根据update_time将数据帧内的多个spark行按ID合并为一行

pyspark

我们需要使用Pyspark将基于ID的多行合并到单个记录中。如果该列有多个更新，那么我们必须选择对它进行了最后一次更新的那个。请注意，NULL表示没有对该实例中的列进行更新。因此，基本上我们必须创建一行，其中包含对记录所做的合并更新。因此，例如，如果这是数据帧...寻找类似的答案，但在Pyspark ..Merge rows in a spark scala Da

浏览 18提问于2021-10-14得票数 0

1回答

从数据帧列表生成单个DataFrame

list、pyspark、apache-spark-sql、jupyter-notebook、pyspark-dataframes

我有一个数据帧列表，在列表的每个位置上，我有一个数据帧，我需要将所有这些数据帧合并到一个数据帧中。在我使用之前，这是在PySpark中完成的 dataframe_new =pd.concat(listName) 解决方案1 from pyspark.sql.types import * importpyspark</e

浏览 12提问于2021-01-28得票数 0

1回答

pySpark中的数据帧级计算

pyspark、pyspark-dataframes

我正在使用PySpark，并希望利用多节点的优势来提高性能时间。Increase | New Salary 2 | 500 | 0.15 | 4 | 700 | 0.1 | 我想要计算新的薪水列，并希望使用pyspark中多个节点的能力来减少整体处理时间。我不想做一个迭代的逐行计算新工资。 df.withColumn是否在数据帧</e

浏览 16提问于2021-03-24得票数 0

1回答

在执行python文件时使用submit的CLI参数。

python、apache-spark、pyspark、spark-submit

我正试图通过下面的pyspark代码将sql server表转换为.csv格式。from pyspark import SparkContextfrom pyspark.sql import SQLContextdf.registerTempTable("test") df.write.format("com.databricks.spark.csv").save(&qu

浏览 0提问于2017-09-07得票数 0

回答已采纳

1回答

如何使用pyspark合并来自两个不同数据帧的数据？

python、dataframe、apache-spark、pyspark、amazon-emr

我有两个不同的(非常大的)数据帧(详细信息如下)。我需要合并他们两个人的数据。由于这些数据帧非常庞大(第一个数据帧有数百万行，第二个数据帧有数千行)，我尝试使用AWS EMR服务。但我不太明白它是如何在那里完成的，我看到的教程大多只显示了一个数据帧的说明。所以，我一直想知道如

浏览 11提问于2021-06-03得票数 0

回答已采纳

1回答

如何在循环中创建一个pyspark* DataFrame？*

pyspark、pyspark-dataframes

如何在循环中创建一个pyspark DataFrame？在这个循环中，在每次迭代中，我输出2个值print(a1,a2)。现在，我想将所有这些值存储在一个pyspark数据帧中。

浏览 26提问于2021-01-12得票数 0

1回答

如何使用Pyspark/SQL/DataFrames SPARK RDD来插入/删除DB2源表数据？

pyspark、apache-spark-sql、spark-streaming、pyspark-sql

我尝试运行upsert/delete命令来插入/删除DB2数据库源表中的一些值，这是DB2上的一个现有表。是否可以使用Pyspark/Spark SQL/Dataframes。

浏览 2提问于2019-05-10得票数 0

2回答

如何使用PySpark将这些多个csv文件(大约130,000个)有效地合并为一个大型数据集？

python、apache-spark、memory、pyspark、bigdata

我之前发布了这个问题，并得到了一些使用PySpark的建议。下面的压缩文件()包含一个名为data的文件夹，其中包含大约130,000个csv文件。我想把它们合并到一个单独的数据帧中。所以现在我改用PySpark，但是我不知道连接所有文件的最有效的方法是什么，对于pandas数据帧，我会像这样连接单个帧的列表，因为我想让它们

浏览 14提问于2020-02-17得票数 2

回答已采纳

1回答

从多个S3存储桶导入pyspark* dataframe，其中有一列指示条目来自哪个存储桶*

amazon-s3、pyspark、pyspark-dataframes

这些存储桶中的每一个都存储我正在读取到pyspark dataframe中的拼图文件。从每个存储桶生成的pyspark dataframe具有完全相同的模式。我想要做的是迭代这些存储桶，并将所有这些拼图文件存储到一个单独的pyspark dataframe中，该数据框有一个date列，表示dataframe中的

浏览 13提问于2019-12-16得票数 0

回答已采纳

1回答

如何使用Azure databricks在第二代ADLS的多张工作表中读写excel数据

python、pyspark、databricks、azure-databricks

我想使用pyspark在Azure databricks中实现以下逻辑。我有一个下面的文件，其中有多张纸。我想将所有工作表的数据读入一个不同的文件中，并将该文件写入到ADLS2中的某个位置。注意:所有工作表都有相同的模式( Id，名称)

浏览 4提问于2021-10-27得票数 0

1回答

在Databricks中使用Pyspark更新数据库表

python、pandas、pyspark、databricks

我在Azure SQL Server数据库中有一个表，该表是从我的Dataframe填充的。我想使用pyspark / pandas基于多条件数据库来更新这个表。我是PySpark / Databricks / Pandas的新手，有人能告诉我如何更新表吗？我已经将数据插入到表中-我可以想到的一种解决方案是将表中的数据加载到数

浏览 2提问于2020-04-20得票数 0

4回答

使用python将pyspark* dataframe中的多列合并为一列*

python、dataframe、pyspark

我需要使用python中的pyspark将一个数据帧的多个列合并成一个单独的列，并使用list(或tuple)作为该列的值。

浏览 2提问于2017-06-19得票数 12

1回答

分组依据列表中的元素

python、pyspark、pyspark-sql

我是PySpark的新手。我创建了spark dataframe，并且我有一个" countries“列，其中包含国家列表。如何通过存在于国家/地区列表中的单个国家/地区来groupBy我的数据帧 +-----------------++-----------------+ | [

浏览 4提问于2019-10-09得票数 0

1回答

有没有办法在pyspark中加速缓存过程？

python、pyspark

我正在尝试缓存一个基于Pyspark的3列27行的数据帧，这个过程大约需要7-10秒。提前感谢！

浏览 1提问于2020-07-20得票数 0

1回答

如何在AWS胶水作业中将多个源映射到单个目标

amazon-web-services、aws-glue、aws-dms

我有一个MySQL数据库和一个包含200个表的Mongo数据库，我正在尝试将它连接到Glue并合并一些表，最终得到合并数据的20个表，以及一些过滤器和脚本，在数据到达需要的地方之前过滤掉其中的一些数据。我正在使用AWS Glue来做这件事，在使用爬虫生成1-1个表之后，我想开始将这些表合并在一起，但当我创建作业时，我只能选择一个表作为源，这意味着我最终会有200个作业。有没有一种方

浏览 6提问于2018-08-17得票数 1

回答已采纳

1回答

pyspark:创建多个dataframe失败

python、pandas、pyspark

我想将几个大型Pandas数据帧转换为Spark数据帧，然后对它们进行操作和合并，如下所示：from pyspark import SparkContext,SQLContextdf2) File "/home/user/anaconda3/envs/conda_py3.6.8/lib/python3.6/sit

浏览 208提问于2020-06-08得票数 0

回答已采纳

1回答

在PySpark中合并(包括左侧和右侧)

pandas、dataframe、pyspark、merge

在PySpark中，用来合并两个不同数据帧(包括左侧和右侧)的等效代码是什么？

浏览 19提问于2021-11-21得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

将多个PySpark DataFrames与MergeSchema合并

PySpark中多个数据帧的迭代合并

如何合并或连接spark中列号不相等的数据帧

根据update_time将数据帧内的多个spark行按ID合并为一行

从数据帧列表生成单个DataFrame

pySpark中的数据帧级计算

在执行python文件时使用submit的CLI参数。

如何使用pyspark合并来自两个不同数据帧的数据？

如何在循环中创建一个pyspark* DataFrame？*

如何使用Pyspark/SQL/DataFrames SPARK RDD来插入/删除DB2源表数据？

如何使用PySpark将这些多个csv文件(大约130,000个)有效地合并为一个大型数据集？

从多个S3存储桶导入pyspark* dataframe，其中有一列指示条目来自哪个存储桶*

如何使用Azure databricks在第二代ADLS的多张工作表中读写excel数据

在Databricks中使用Pyspark更新数据库表

使用python将pyspark* dataframe中的多列合并为一列*

分组依据列表中的元素

有没有办法在pyspark中加速缓存过程？

如何在AWS胶水作业中将多个源映射到单个目标

pyspark:创建多个dataframe失败

在PySpark中合并(包括左侧和右侧)

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐