如何从2个DataFrames的2列创建PySpark DataFrame？

在PySpark中，可以通过使用join操作将两个DataFrames的两列合并为一个新的DataFrame。具体步骤如下：

导入必要的模块和函数：

from pyspark.sql import SparkSession
from pyspark.sql.functions import col

创建SparkSession对象：

spark = SparkSession.builder.getOrCreate()

创建两个原始的DataFrames：

df1 = spark.createDataFrame([(1, 'A'), (2, 'B'), (3, 'C')], ['id', 'col1'])
df2 = spark.createDataFrame([(1, 'X'), (2, 'Y'), (3, 'Z')], ['id', 'col2'])

使用join操作将两个DataFrames合并：

df = df1.join(df2, on='id')

这样，就可以从两个DataFrames的两列创建一个新的PySpark DataFrame df。在这个例子中，我们使用id列进行连接操作，你可以根据实际情况选择不同的列进行连接。

PySpark DataFrame的优势在于它可以处理大规模的数据集，并且提供了丰富的数据处理和分析功能。它适用于各种场景，包括数据清洗、数据转换、数据聚合等。

腾讯云提供了强大的云计算服务，包括云数据库、云服务器、云原生应用等。你可以参考腾讯云的官方文档了解更多关于这些产品的详细信息和使用方法：

希望以上信息对你有帮助！

在Scala Spark和PySpark之间传递sparkSession

、、、

我的要求是从现有的PySpark程序中调用一个"Spark Scala“函数。将PySpark程序中创建的sparkSession传递给Scala函数的最佳方式是什么？我将我的scala jar传递给Pyspark，如下所示。spark: SparkSession, query:String, df: DataFrame, log: Logger): DataFrame = { impo

浏览 59提问于2019-10-01得票数 4

1回答

我是否需要使用普通的python，除了pyspark，或者pyspark拥有我所需要的所有东西？

、、、

我的公司正转向使用Hadoop & learning进行机器学习。我知道python在库中是非常全面的，但是当我们切换到pyspark时，如果我们需要的东西还没有在pyspark中可用呢？而且，继续使用python可能更容易一些，因为我已经知道了python.So：你能把它们混合在一起，用python编写一部分代码，用pyspa

浏览 4提问于2017-08-30得票数 0

1回答

在DataFrame中子类是可能的吗？

、、、、

Pyspark的文档显示了DataFrames是从sqlContext、sqlContext.read()和各种其他方法构建的。是否可以将Dataframe子类并独立实例化它？我想将方法和功能添加到基类DataFrame类中。

浏览 3提问于2017-01-11得票数 8

回答已采纳

2回答

如何在Jupyter中很好地展示Pyspark* DataFrames？*

、、

我在Jupyter笔记本中使用Pyspark (现在只是在教程之后，没有什么复杂的东西)。在网上，我看到很多在Jupyter中很好地呈现的DataFrames的图片(使用display()函数)，但是当我在我的系统上使用它时，我看到的都是这样的代码行：DataFrame[id: stringimport *from pyspark.

浏览 18提问于2019-10-25得票数 1

回答已采纳

1回答

如何从pyspark中删除数据帧来管理内存？

、、、

我列出我的数据帧以丢弃未使用的数据帧。首先，我使用下面的函数列出了我在其中一篇文章中找到的数据帧然后我试着从列表中删除未使用的。我在下面使用的代码

浏览 0提问于2018-10-31得票数 4

回答已采纳

1回答

使用套接字的火花结构化流，设置模式，在控制台中显示DATAFRAME

、、、

如何在DataFrame中为流PySpark设置架构。from pyspark.sql import SparkSessionfrom pyspark.sql.functions\ .getOrCreate() # Create DataFrame representi

浏览 3提问于2016-12-29得票数 3

回答已采纳

1回答

从dict_values创建pyspark

、、、、

我正在尝试从dict_values中生成一个pyspark。我可以用熊猫来实现同样的功能。字典由键作为年份，值作为。这是我正在使用的代码，我有一个选择，可以将所有的数据文件合并起来，我认为这不是实现它的更好的方法。consit of 10 columns return reduce(DataFrame.unionAll, dfs) df2= union_all_data

浏览 2提问于2017-10-10得票数 0

回答已采纳

2回答

在pySpark中按条件分割数据

、、、

我有一个dataframe值为false、true或null。我想创建两个dataframes，1)只使用True列名，2)只使用假列名。我最初的想法是创建两个dataframes (因为它们稍后将被附加到一个更大的数据集中)，或者我还考虑将适当的列名转换为一个列表，然后将列表名称转换为列名。我是pySpark新手，我想知道如何在不硬编码任何列名(我有几百列)的情况下做到这一点，我知道我不能遍历行，

浏览 3提问于2020-05-07得票数 1

回答已采纳

1回答

组合不同列数的Spark数据帧

、、

在this问题中，我问过如何组合具有不同列数的PySpark数据帧。给出的答案要求每个数据帧必须具有相同的列数才能将它们全部合并： from pyspark.sql import SparkSession dfs[new_name] = d # Loop through all column names.数据帧而不必确保所有数

浏览 13提问于2021-06-28得票数 1

回答已采纳

1回答

使用PySpark实现MongoDB到Elasticsearch

、、

我想使用PySpark将我的MongoDB集合集成到Elasticsearch中。我有MongoDB的连接字符串，但我不知道如何构造代码结构或指定一些参数。有人能给我创建这个任务的代码示例吗？

浏览 20提问于2021-11-10得票数 0

2回答

从字典创建多个DataFrames

、、

我正在寻找一种解决方案，以便从具有键值对的字典中创建多个DataFrames，其中的值包含DataFrames，例如： 'df2' : [dataframe],我尝试过使用.get()，如下所示； df1,df2,df3,

浏览 5提问于2021-10-21得票数 0

回答已采纳

1回答

从单个数据from创建多个电火花数据格式

、、、

我需要根据python列表中可用的值动态地在pyspark中创建多个数据格式。我的dataframe(df)有数据：2018-01-01 M 1002018-03-

浏览 1提问于2019-02-18得票数 2

回答已采纳

2回答

加入来自相同来源的两个DataFrames

、、、

我使用的是pyspark (Apache Spark)的DataFrame接口，遇到了以下问题：我从磁盘加载一个包含n行的DataFrame： df = sql_context.parquetFile('data.parquet')

浏览 1提问于2015-04-21得票数 6

1回答

如何从2个DataFrames的2列创建PySpark* DataFrame？*

、

浏览 31提问于2021-08-11得票数 1

回答已采纳

1回答

从火花放电执行CQL

、、

我正试图从火花放电中执行CQL。目前，我可以读和写表。$ pyspark --packages anguenot/pyspark-cassandra:0.7.0 --conf spark.cassandra.connection.host=12.34.56.78---+| 31| 898|20180429|+-----+-----+--------+ 我希望从我的pyspark

浏览 4提问于2018-05-03得票数 1

回答已采纳

1回答

如何从雪花SQL查询创建PySpark熊猫星火中的DataFrame？

、、、

注意:需要使用分布式处理，这就是我使用的原因。这两种选择都可行吗？如果是这样的话，我如何处理错误(在下面“问题(S)”和“选项2”的错误日志中概述)？from pyspark.sql import Spar

浏览 3提问于2021-10-25得票数 1

4回答

从列表的RDD创建星火DataFrame

、、

我有一个rdd (我们可以称之为myrdd)，其中rdd中的每个记录都具有如下形式：我想把它转换成一个DataFrame --最简单的方法是什么？

浏览 0提问于2015-04-07得票数 15

回答已采纳

2回答

在Spark dataframe* withColumn方法中使用spark RDD.map*

、、

我有以下代码：from pyspark.sql import *;frompyspark.sql.types import StringType, StructType, StructField, IntegerType, DoubleType df.withColumn("NEW_COL"

浏览 2提问于2017-07-02得票数 1

2回答

从RDD中的Pandas DataFrames创建Spark DataFrame

、、

我正在尝试将每个worker节点(每个元素都是Pandas DataFrame的RDD )上的Pandas DataFrame转换为跨所有worker节点的Spark DataFrame。, and I am using some datetime """ return的RDD。在完成熊

浏览 31提问于2019-06-05得票数 0

回答已采纳

2回答

如何键入星火DataFrame列？使用火花放电

、

我以以下方式创建了一个DataFrame：spark = SparkSession \ .getOrCreate() 我的DataFramestring (nullable = true) |-- Ca

浏览 3提问于2018-10-18得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何从2个DataFrames的2列创建PySpark DataFrame？

相关·内容

在Scala Spark和PySpark之间传递sparkSession

我是否需要使用普通的python，除了pyspark，或者pyspark拥有我所需要的所有东西？

在DataFrame中子类是可能的吗？

如何在Jupyter中很好地展示Pyspark* DataFrames？*

如何从pyspark中删除数据帧来管理内存？

使用套接字的火花结构化流，设置模式，在控制台中显示DATAFRAME

从dict_values创建pyspark

在pySpark中按条件分割数据

组合不同列数的Spark数据帧

使用PySpark实现MongoDB到Elasticsearch

从字典创建多个DataFrames

从单个数据from创建多个电火花数据格式

加入来自相同来源的两个DataFrames

如何从2个DataFrames的2列创建PySpark* DataFrame？*

从火花放电执行CQL

如何从雪花SQL查询创建PySpark熊猫星火中的DataFrame？

从列表的RDD创建星火DataFrame

在Spark dataframe* withColumn方法中使用spark RDD.map*

从RDD中的Pandas DataFrames创建Spark DataFrame

如何键入星火DataFrame列？使用火花放电

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐