pyspark:在连接期间通过dataframe引用列

文章/答案/技术大牛

发布

1回答

、、

我正在尝试连接两个这样的pyspark数据帧 joined = df.join(df1,on=["date"],how='left').select([col('df.'daily_net_payment_avg')]) 但它会导致 An error was encountered: "cannot resolve '`df.cust_no`' given input columns: 在我看来，我不能通过它们的数据帧/表名<em

浏览 15提问于2021-04-17得票数 0

回答已采纳

1回答

在PySpark DataFrames中，为什么setitem没有完全实现？

、、、

在PySpark中，我们不能使用传统的熊猫或R风格的符号来根据DataFrame中的旧列来制作新的列。例如，假设我试图连接两列：df['newcol'] = F.concat(df['col_1'], df['col_2']) 结果：TypeError: 'DataFrame' obje

浏览 1提问于2016-07-28得票数 1

回答已采纳

1回答

使用类似的PySpark连接数据格式

、、

我尝试使用LIKE表达式连接dataframes，其中条件(LIKE的内容)存储在列中。在PySpark 2.3中有可能吗？Source dataframe:|firstname|middlename|| James|让我们创建一个示例dataframe： from pyspark.sql.types import StructType,StructF

浏览 2提问于2022-11-24得票数 0

1回答

如何连接Pyspark中的特定列

、、

在pandas中，Pyspark中特定列连接由以下代码执行： datamonthly=datamonthly.merge(df[['application_type','msisdn','periodloan']],how='left',on='msisdn') 我使用Pyspark尝试了类似的逻辑 datamonthly = datamonthly.join(datalabel ,

浏览 13提问于2021-08-30得票数 1

回答已采纳

1回答

如何将电火花列(pyspark.sql.column.Column)转换为火花放电数据？

、、

我有一个用例来映射基于条件的pyspark列的元素。通过这个文档，我找不到一个函数来执行映射函数。因此，尝试使用pyspark映射函数，但无法将pyspark列转换为dataFrame # like column.map(lambda x: __valid_date(x)) _spark函数参数从库中传

浏览 4提问于2021-11-19得票数 0

回答已采纳

1回答

创建一个新列，详细说明一个PySpark数据row中的行是否与另一列中的一个行匹配。

、、、

我想要创建一个函数，该函数从PySpark中的左联接创建一个新列，详细说明一个列中的值是否匹配或不匹配另一个dataframe逐行的列。例如，我们有一个PySpark dataframe (d1)具有列ID和名称，另一个PySpark dataframe (d2)具有相同的列- ID和Name。我试图创建一个连接这两个表的函数，并创建一个新列，如果两个数据文件中存

浏览 3提问于2021-12-11得票数 0

1回答

熊猫数据索引& loc

、

有一个名为DFF的Pandas Dataframe，如下所示：SalesOrder SOItem SLNo names=['SalesOrder', 'SOItem', 'SLNo']) 还有另一个名为SDD的Pandas Dataframe我在Pyspark中获得

浏览 12提问于2022-11-30得票数 -3

1回答

'DataFrame‘对象不支持项分配

、、、、

我将df作为一个pyspark.sql.dataframe.DataFrame导入到Databricks中。在这个df中，我有3列(我已经证实它们是字符串)，我希望将它们连接起来。df["fullname"] = df["firstname"] + df["middlename"] + df["lastname"] 但是我一直收到错误"'DataFrame‘对象不支持项分配“。因此，我试图

浏览 1提问于2022-12-02得票数 0

1回答

如何在pyspark中解压list类型的列

、、、

我在pyspark中有一个dataframe，df有一个数组字符串类型的列，所以我需要生成一个包含列表头部的新列，还需要包含尾列表连接的其他列。这是我的原始数据帧： pyspark> df.show()| id| lst_col|| 1|[a, b, c,d]| pyspark> df.pri

浏览 29提问于2020-01-24得票数 0

回答已采纳

1回答

col函数如何知道我们引用的是哪个DataFrame？

、、、、

spark.sql.functions.col如何知道我们指的是哪一个Python DataFrame？我们只是传递列的名称。

浏览 2提问于2021-02-03得票数 1

1回答

向类添加功能的最佳方法- PySpark

、、、、

有一段时间，我在寻找如何将多个列一次重命名为一个PySpark DF，并遇到了如下情况：def rename_sdf(df, mapper={}, **kwargs_mapper): # return something 我对最后一段感兴趣，其中通过赋值语句将方法添加到<

浏览 6提问于2020-07-09得票数 1

3回答

向Spark DataFrame添加空列

、、、、

正如web上的中所提到的，向现有DataFrame添加新列并不简单。不幸的是，拥有这种功能是很重要的(尽管它在分布式环境中效率很低)，尤其是在尝试使用unionAll连接两个DataFrame时。将null列添加到DataFrame以简化unionAll的最优雅的解决方法是什么from pyspark.sql.types import StringType from pyspark.sql.functions

浏览 0提问于2015-10-09得票数 63

回答已采纳

2回答

为什么在带有1行的DataFrame上收集()使用2000执行器？

、、、、

这是我能想到的最简单的DataFrame。我使用的是PySpark 1.6.1。(1, 2) ]df = sqlContext.createDataFrame(rows, cols)df.collect()[Stage 2:============================

浏览 5提问于2016-06-21得票数 5

回答已采纳

1回答

我必须遵守pyspark sql中的命令顺序吗？

、

我正在学习pyspark sql，我不确定函数的顺序是否必须是下一个？在何处指定此顺序？我检查了，但它没有提到任何关于尊重命令顺序的内容。

浏览 2提问于2019-09-18得票数 0

1回答

Pyspark :如何在dataframe列为NULL的两列上保留联接dataframe和dataframe

、

我正在为每日增量加载过程编写一个脚本，使用Pyspark和一个Hive表，该表最初已经装载了数据。我一直试图通过左侧创建一个UC dataframe，将INC dataframe和BASE dataframe连接到两个PK列src_sys_id & acct_nbr上，其中INC dataframefleet_acct_nbr"),"left_outer").filter(inc_df("*")

浏览 4提问于2022-03-03得票数 0

1回答

pyspark错误：'DataFrame‘对象没有属性'map’

、、

我正在使用Pyspark2.0通过读取csv来创建一个DataFrame对象，使用：我使用以下命令找到数据的类型type(data)pyspark.sql.dataframe.DataFrame 我正在尝试将数据中的一些列转换为LabeledPoint，以便应用分类。from pyspark.sql.types import *

浏览 4提问于2016-09-08得票数 6

2回答

先读取拼板文件，将新列添加到数据帧中

、、、

假设有一个包含多个列的dataframe，它看起来像这样(我省略了不必要的列)：|path中的一些拼花文件，它只有一行，结构如下：|value ||some value |我如何读取这些文件并将一列(2020-05-14/bla2bla.parq|bla blah | +----------------------------

浏览 3提问于2020-05-18得票数 1

回答已采纳

1回答

PySpark动态连接条件

、、、

我有PK列的列表。我在存储主键，因为每个表的主键数可能会发生变化。我想根据pk_list中的列连接两个数据帧。当我运行代码时，我会得到以下错误：在join/yarn/usercache/root

浏览 0提问于2018-12-07得票数 2

1回答

从另一个DataFrame向Pyspark DataFrame添加列

、、

两个Pyspark Dataframe都从csv文件中读取。如何在df_e中创建一个名为" amount“的新列，它从df_e中引用每条记录的名称和年值，并从df_p中获取相应的金额？使用Pyspark。编辑：下面是我读取文件的方式： from pyspark import SparkContext, SparkConf from pyspark.sql import SparkSession对于熊猫，我会通过迭代D

浏览 14提问于2020-12-05得票数 0

回答已采纳

1回答

连接3种数据的困难--电火花

、

org.apache.spark.sql.AnalysisException:引用'lab_key‘是模棱两可的，可以是: lab_key#1648，lab_key#1954。我试图获得一个列的数据，如：Col 2:框架Col 4: res 你能帮我加入这三个数据帧吗？

浏览 1提问于2018-02-12得票数 3

回答已采纳

点击加载更多