在pyspark中动态生成连接条件_pyspark中的动态条件生成器_在pyspark中参数化连接条件 - 腾讯云开发者社区

join、dynamic、pyspark

有没有人可以建议一种方法来传递一个listofJoinColumns和一个条件来加入pyspark。例如，我需要从列表中动态获取要连接的列，并希望在连接时传递另一个条件。下面解释了在scala中完成的类似操作：generating join condition dynamically in spark/scala 我正在寻找一个类似的解决方案在pyspark。我知道我可

浏览 16提问于2020-11-10得票数 1

1回答

动态填充中的列名

python、apache-spark、dataframe、pyspark

我正在开发一个动态脚本，它可以join任何给定的pyspark。问题是文件中的列名会发生变化&连接条件的数目可能会有所不同。我可以在一个循环中处理这个问题，但是我使用一个变量名执行连接，它失败了。(我的目的是根据文件结构和联接条件动态填充a和b或更多列)a="existingFile.Id" unChangedRecords = exis

浏览 2提问于2018-02-24得票数 0

回答已采纳

1回答

PySpark动态连接条件

join、dynamic、pyspark、conditional-statements

我在存储主键，因为每个表的主键数可能会发生变化。我想根据pk_list中的列连接两个数据帧。当我运行代码时，我会得到以下错误：在join/yarn/usercache/root/appcache/ap

浏览 0提问于2018-12-07得票数 2

2回答

在PySpark中动态生成列表形式的连接条件时，如何在元素之间使用"OR“而不是"AND"？

apache-spark、pyspark、apache-spark-sql

我正在连接两个数据帧site_bs和site_wrk_int1，并使用动态连接条件创建site_wrk。would be site_wrk=site_bs.join(site_wrk_int1,join_cond,'inner').select(*site_bs.columns) join_cond将是动态的，值将类似于col(id) == col(wrk_id)，col(id) == col(wrk_parentId) 在上述连接条件下，

浏览 27提问于2020-08-05得票数 0

回答已采纳

1回答

Pyspark:在运行时为when()子句动态生成条件

apache-spark、pyspark、apache-spark-sql

我已将csv文件读入pyspark dataframe。现在，如果我在when()子句中应用条件，那么当条件在runtime之前给出时，它会很好地工作。import pandas as pdfrom pyspark.sql import SQLContextfrom pyspark.sql.funct

浏览 0提问于2019-11-08得票数 0

回答已采纳

1回答

pyspark中的动态条件生成器

python、apache-spark、pyspark

现在，我需要的是一个动态条件生成器或查询生成器。因此，在本例中，我确定了一个类似"select *"的常见模式，并创建了一个扩展名为.properties的属性文件，并读取了.py文件中的变量：selectVar= "Select * from " 但是，现在需要什么需求来创建一种方式或界面，用户可以根据需要修改条件。就像他们可以添加多个条件<

浏览 17提问于2019-10-27得票数 0

1回答

如何(动态)使用结构连接数组，以便从结构中获得数组中每个元素的值？

apache-spark、join、pyspark、struct、apache-spark-sql

对于"data_array“列中的每个"Id”，我需要从"data_struct“列中获取"EstValue”。"data_struct“中的列名是实际的id (来自"data_array")。尽我最大的努力使用一个动态连接，但得到错误“列是不可迭代的”。我们不能像在PySpark中那样使用动态连接条件吗？有什么更好的方法来实现这一点吗？}

浏览 1提问于2022-10-18得票数 1

回答已采纳

1回答

在spark/scala中动态生成连接条件

scala、apache-spark、apache-spark-sql

我希望能够将两个数据帧的联接条件作为输入字符串传递。这样做的目的是使联接足够通用，这样用户就可以传递他们喜欢的条件。 col(splitted.apply(0)) === col(splitted.apply(1))需要帮助才能找到一种更好的获取输入以动态生成连接条件的方法

浏览 0提问于2018-05-09得票数 1

回答已采纳

2回答

基于多参数化条件的PySpark连接

python、pandas、apache-spark、pyspark、apache-spark-sql

我想要基于多个条件执行一个左连接。假设允许用户传递两个包含要连接的列名的列表(我们不知道每个列表可能超过2列)columnlistA=[]用户将为这两个列表传递任意数量的列输入然后，如何编写联接，以便能够使用这些数据文件的联接条件中包含的这些列列表参数？

浏览 5提问于2022-08-29得票数 0

1回答

在pyspark中参数化连接条件

apache-spark、pyspark、apache-spark-sql

列名存储在列表中。因此，我需要传递列表中的列名(在下面的示例中，列名是其id和programid id)，以便在源数据帧和目标数据帧之间进行比较。在下面的示例中，我想检查src_id == id和src_programid == programid是否。from pyspark import SparkContext, SparkConf, SQLContext from pyspark.sql.functions import col, when

浏览 14提问于2019-04-13得票数 0

1回答

动态汇总和重命名PySpark中的聚合列

python、apache-spark、pyspark、apache-spark-sql、data-manipulation

我有一个PySpark数据帧(Df)，其中包含50+列，其中包含一些动态列，这些列可能存在也可能不存在，但它们存在于一个单独的列表(Reqd_col)中。我想对列表(Reqd_col)中存在的PySpark data frame(df)中的那些列进行汇总(按固定列‘region’分组)和汇总总和或计数，汇总列的名称应与列的原始名称相同，而不是PySpark生成的默认名称。以下是一个例子： df- PySpark数据帧，由50+列组成

浏览 24提问于2021-09-08得票数 0

1回答

火花放电的动态布尔连接

pyspark

我有两个具有如下所示模式的id, name, ageid,name,ageprimary_columns = ["id"]我需要动态地加入上面的两个数据流，如下所示-,how="inner").select([df_source[col] for col in df_sour

浏览 0提问于2019-12-12得票数 0

回答已采纳

1回答

PySpark -从字符串生成StructType

pyspark、databricks、azure-databricks

有没有一种简单的方法可以从字符串的结构类型定义中生成模式？举个例子，我确实这样做了：customSchema = StructType([StructField("Date",StringType(),True)]) from pyspark.sql.types import * stringShema = 'StructType([St

浏览 9提问于2019-07-08得票数 0

回答已采纳

2回答

PySpark动态类操作

python、apache-spark、pyspark、apache-spark-sql、sql-like

我有一个像这样的PySpark数据文件： {"ID": 2, "Value": 10}, final_df.filter(F.col("ID") == "1").where(F.col("Value").like

浏览 9提问于2022-06-16得票数 0

1回答

如何在pyspark中解压list类型的列

python、apache-spark、pyspark、apache-spark-sql

我在pyspark中有一个dataframe，df有一个数组字符串类型的列，所以我需要生成一个包含列表头部的新列，还需要包含尾列表连接的其他列。这是我的原始数据帧： pyspark> df.show()| id| lst_col|| 1|[a, b, c,d]| root |-- id: in

浏览 29提问于2020-01-24得票数 0

回答已采纳

2回答

为窗口上的列获取带最大值的行

dataframe、pyspark、group-by、window

我有如下数据：| 1650983874871 | x | 2020-05-08 | 5 || 1639429213087 | x | 2020-05-08 | 2 || 1650367659030 | x | 2020-06-08 | 3 | | 1639429213087 | x

浏览 4提问于2022-07-29得票数 0

2回答

我们如何使用SQL风格的"LIKE“标准连接两个Spark SQL数据帧？

python、apache-spark、apache-spark-sql、pyspark

我们使用的是与Spark 1.3.1接口的PySpark库。我们希望连接这两个数据帧，并使用{document_id, keyword}出现在document_df.document_text字符串中的条件，返回具有keyword_df.keyword对的结果数据帧例如，在PostgreSQL中，我们可以使用以下形式的ON子句来实现这一点： document_df.document_text ilike '%' || keyword_df.keyword || &#x

浏览 2提问于2015-10-16得票数 8

回答已采纳

1回答

在PySpark* (DataBricks)中构建动态WHERE*

pyspark、apache-spark-sql、azure-databricks

因此，我试图使用Python / PySpark从DataBricks (公司的lakehouse for info)中的info中动态加载一组Server表。我试图使它尽可能地由动态/数据驱动，所以我试图构建一个动态的位置来过滤数据。因为每次从湖畔拉出的数据都有一个不同的日期列要过滤，所以我需要能够使用两个变量来筛选要过滤的列，也可以使用有关日期的变量。对于如何构建这样的动态内容，包括来自dataframe的动态列，以及与那些<e

浏览 6提问于2022-11-18得票数 0

回答已采纳

2回答

PySpark:检查列中的值是否类似于字典中的键

apache-spark、pyspark、apache-spark-sql

我想使用包含关键字的字典，并检查pyspark df中的一列，看看该关键字是否存在，如果存在，则在新列中返回字典中的值。Support issue | Support Issue |在pyspark中构建高效函数的最佳方式是什么？

浏览 0提问于2021-03-29得票数 0

1回答

火花结构流中的sql

apache-spark-sql、spark-structured-streaming

然而，我想验证一些我在火花文档中找不到的答案(我可能已经错过了)。我们可以动态或有条件地处理查询吗？是的，我可以将sql查询作为参数传递并开始执行。需要验证 sql查询的限制是什么:我发现不能像通常对关系数据库那样执行所有类型的sql查询--例如，有条件地终止特定sql的partition.Can执行?有人能帮助我指导在生成sql查询时需要考虑的限制吗？我知道这是一个非常广泛的问题，但任何指导都将是非常有帮助的，可以帮助我朝正确的方向看。import Spark

浏览 1提问于2022-03-14得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云