如何连接Pyspark中的特定列

文章/答案/技术大牛

发布

1回答

、、

在pandas中，Pyspark中特定列连接由以下代码执行： datamonthly=datamonthly.merge(df[['application_type','msisdn','periodloan']],how='left',on='msisdn') 我使用Pyspark尝试了类似的逻辑 datamonthly = datamonthly.join(datal

浏览 13提问于2021-08-30得票数 1

回答已采纳

2回答

从pyspark中的一个非常大的数据帧中选择随机列

、

我有一个pyspark格式的dataframe，大约有150列。这些列是从连接不同的表中获得的。现在，我的要求是以特定的顺序将数据帧写入文件，例如，首先写入1到50列，然后是第90到110列，最后是第70和72列。也就是说，我只想选择特定的列，并重新排列它们。我知道其中一种方法是使用df.se

浏览 1提问于2017-07-14得票数 0

回答已采纳

2回答

在多个列上使用AWS胶连接创建重复

、、、

id列，第二个'id’是table_2中的id列。这个调用成功地将表连接成一个表，但是，生成的joined_table具有匹配列的重复字段。我的两个问题是：我如何利用AWS Glue作业与Pyspark连接跨两个表匹配的所有列，以便在添加新字段时不存在重复的列？这个样例调用只接受'id

浏览 0提问于2018-02-13得票数 4

1回答

检查火花数据中的行值是否为空。

、、、、

我正在使用pyspark中的自定义函数来检查星火数据true中每一行的条件，如果条件为true，则添加列。守则如下：from pyspark.sql.functions import *sdf.show()Attr

浏览 3提问于2016-08-19得票数 7

4回答

如何在Spark中压缩两个数组列

、、、、

我有潘达的数据。我尝试将包含字符串值的两个列连接到一个列表中，然后使用zip将列表中的每个元素都用'_‘连接起来。我的数据集如下：df['column_2']: '1.0, 2.0, 3.0' 我想将这两列连接到第三列中

浏览 2提问于2019-01-21得票数 9

回答已采纳

2回答

通过JDBC从pyspark* dataframe插入到外部数据库表时的重复键更新*

、、、、

嗯，我使用的是PySpark，我有一个Spark dataframe，我使用它将数据插入到mysql表中。df.write.jdbc(url=url, table="myTable", mode="append") 我希望通过列值和特定数字的总和来更新列值(不

浏览 4提问于2015-09-16得票数 12

2回答

将pyspark* dataframe插入到现有的分区配置子表中*

、

我有一个hive表，它是按插入时间列分区的。df.insertInto('tablename',overwrite=True) df.insertInto('tablename&#x

浏览 0提问于2017-09-16得票数 1

1回答

Pyspark删除多列连接后的列

、、

我尝试在pyspark中对两列进行左连接，其中只有一列的名称是相同的：如何删除连接的数据帧df2.date和df2.accountnr的两列 dfAll = ( .join(df2, how = &#

浏览 30提问于2019-02-10得票数 0

2回答

PySpark列向绑定

在PySpark中有什么特定的方法可以像我们在r中那样绑定两个数据帧吗？我需要在PySpark中同时绑定数据帧和作为一个数据帧。

浏览 1提问于2017-08-30得票数 3

2回答

未知解释器PySpark。toree无法安装PySpark

当我为木星笔记本安装PySpark时，我使用以下cmd：但是，我知道所以我不知道有什么

浏览 0提问于2019-03-15得票数 9

1回答

在PySpark* DataFrames中，为什么setitem没有完全实现？*

、、、

在PySpark中，我们不能使用传统的熊猫或R风格的符号来根据DataFrame中的旧列来制作新的列。例如，假设我试图连接两列：df['newcol'] = F.concat(df['col_1'], df['col_2']) 结果：TypeError:

浏览 1提问于2016-07-28得票数 1

回答已采纳

1回答

PySpark动态连接条件

、、、

我有PK列的列表。我在存储主键，因为每个表的主键数可能会发生变化。我想根据pk_list中的列连接两个数据帧。现在，我的代码如下所示： full_load_tbl_nc = full_load_tbl.join(delta_load_tbl, (col(f) == col(s) for (f,s/yarn/use

浏览 0提问于2018-12-07得票数 2

1回答

如何筛选出满为空或列表之和等于0的列表？

、、

在pyspark中，我们可以很容易地过滤出特定列中的单个空值，方法如下：但是，在我的例子中，列中的值变成了[null,null,null]或[0,0,0]，我想知道如何过滤掉这两种情况。

浏览 4提问于2021-07-07得票数 0

回答已采纳

1回答

函数从大型数据集中删除重复的列。

尝试在连接hdfs表后删除pyspark df中的重复列名称？您好，我正在尝试连接多个具有200+最终列数的数据集。由于要求和大量的列，我不能在连接时选择特定的列。有没有办法在连接后删除重复的列。我知道有一种方法可以通过spark df的.join方法来做到这一点，但是我加入的</e

浏览 20提问于2018-12-20得票数 1

1回答

databricks.com/blog/2018/07/31/processing-petabytes-of-data-in-seconds-with-databricks-delta.html中看到的建议，我正在尝试编写一个非常大的PySpark数据帧然而，这个页面使用Scala显示建议，我不知道如何将其转换为PySpark 我看到Scala代码是这样的： spark.read.table(connRandomsaveAsTable(

浏览 4提问于2019-01-08得票数 2

回答已采纳

3回答

对子字符串匹配(或包含)加入PySpark数据帧

我想在两个数据帧之间执行左连接，但是列并不完全匹配。第一个数据帧中的联接列相对于第二个数据帧有一个额外的后缀。from pyspark import SparkContext ['AB

浏览 1提问于2017-08-08得票数 3

回答已采纳

1回答

错误:无法在BigQuery中访问类型为ARRAY<STRUCT<element STRING>>的值上的字段元素

、、、、

我将一个df从pyspark导出到BigQuery。df包含包含数组元素的列，如何将数组转换为连接字符串？每当我尝试查询导出的BigQuery表的数组列时，都会得到以下错误。Error: Cannot access field element on a value with type ARRAY<STRUCT<element STRING>> 下面是导出到BigQuery的pyspark<e

浏览 48提问于2020-06-03得票数 2

1回答

创建一个新列，详细说明一个PySpark数据row中的行是否与另一列中的一个行匹配。

、、、

我想要创建一个函数，该函数从PySpark中的左联接创建一个新列，详细说明一个列中的值是否匹配或不匹配另一个dataframe逐行的列。例如，我们有一个PySpark dataframe (d1)具有列ID和名称，另一个PySpark dataframe (d2)具有相同的列- ID和Name。我试图创建一个连接这两个表

浏览 3提问于2021-12-11得票数 0

1回答

使用csv文件中的pyspark数据绘制RDD数据

、、、、

我刚刚开始在非常大的csv文件上使用pyspark。我使用的是Spark版本2.1.0。我希望从一个.csv文件中读取数据，并将其加载到中，然后在过滤特定的行之后，使用matplotlib绘制2列(纬度和经度)，将其可视化。这就是我到目前为止所做的：from pyspark.sql import SparkSession from pyspark.conf import SparkCo

浏览 0提问于2017-06-28得票数 1

3回答

向PySpark数据帧中添加组计数列

、、

我来自R和到PySpark，因为它的出色的火花处理，我正在努力从一个上下文映射到另一个特定的概念。尤其是，假设我拥有如下数据集--+--a | 8b | 1x | y | na在PySpark中，我可以做一些几乎同样简单的事情，如果我要查看，根据行数概括： from pyspark</em

浏览 0提问于2018-02-14得票数 37

回答已采纳

点击加载更多