腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
pyspark
中
动态
生成
连接
条件
join
、
dynamic
、
pyspark
有没有人可以建议一种方法来传递一个listofJoinColumns和一个
条件
来加入
pyspark
。 例如,我需要从列表
中
动态
获取要
连接
的列,并希望
在
连接
时传递另一个
条件
。下面解释了
在
scala
中
完成的类似操作:generating join condition dynamically in spark/scala 我正在寻找一个类似的解决方案
在
pyspark
。我知道我可
浏览 16
提问于2020-11-10
得票数 1
1
回答
动态
填充
中
的列名
python
、
apache-spark
、
dataframe
、
pyspark
我正在开发一个
动态
脚本,它可以join任何给定的
pyspark
。问题是文件
中
的列名会发生变化&
连接
条件
的数目可能会有所不同。我可以
在
一个循环中处理这个问题,但是我使用一个变量名执行
连接
,它失败了。(我的目的是根据文件结构和联接
条件
动态
填充a和b或更多列)a="existingFile.Id" unChangedRecords = exis
浏览 2
提问于2018-02-24
得票数 0
回答已采纳
1
回答
PySpark
动态
连接
条件
join
、
dynamic
、
pyspark
、
conditional-statements
我
在
存储主键,因为每个表的主键数可能会发生变化。我想根据pk_list
中
的列
连接
两个数据帧。当我运行代码时,我会得到以下错误:
在
join/yarn/usercache/root/appcache/ap
浏览 0
提问于2018-12-07
得票数 2
2
回答
在
PySpark
中
动态
生成
列表形式的
连接
条件
时,如何在元素之间使用"OR“而不是"AND"?
apache-spark
、
pyspark
、
apache-spark-sql
我正在
连接
两个数据帧site_bs和site_wrk_int1,并使用
动态
连接
条件
创建site_wrk。would be site_wrk=site_bs.join(site_wrk_int1,join_cond,'inner').select(*site_bs.columns) join_cond将是
动态
的,值将类似于col(id) == col(wrk_id),col(id) == col(wrk_parentId) 在上述
连接
条件
下,
浏览 27
提问于2020-08-05
得票数 0
回答已采纳
1
回答
Pyspark
:在运行时为when()子句
动态
生成
条件
apache-spark
、
pyspark
、
apache-spark-sql
我已将csv文件读入
pyspark
dataframe。现在,如果我
在
when()子句中应用
条件
,那么当
条件
在
runtime之前给出时,它会很好地工作。import pandas as pdfrom
pyspark
.sql import SQLContextfrom
pyspark
.sql.funct
浏览 0
提问于2019-11-08
得票数 0
回答已采纳
1
回答
pyspark
中
的
动态
条件
生成
器
python
、
apache-spark
、
pyspark
现在,我需要的是一个
动态
条件
生成
器或查询
生成
器。因此,
在
本例
中
,我确定了一个类似"select *"的常见模式,并创建了一个扩展名为.properties的属性文件,并读取了.py文件
中
的变量:selectVar= "Select * from " 但是,现在需要什么需求来创建一种方式或界面,用户可以根据需要修改
条件
。就像他们可以添加多个
条件<
浏览 17
提问于2019-10-27
得票数 0
1
回答
如何(
动态
)使用结构
连接
数组,以便从结构
中
获得数组
中
每个元素的值?
apache-spark
、
join
、
pyspark
、
struct
、
apache-spark-sql
对于"data_array“列
中
的每个"Id”,我需要从"data_struct“列
中
获取"EstValue”。"data_struct“
中
的列名是实际的id (来自"data_array")。尽我最大的努力使用一个
动态
连接
,但得到错误“列是不可迭代的”。我们不能像在
PySpark
中
那样使用
动态
连接
条件
吗?有什么更好的方法来实现这一点吗?}
浏览 1
提问于2022-10-18
得票数 1
回答已采纳
1
回答
在
spark/scala
中
动态
生成
连接
条件
scala
、
apache-spark
、
apache-spark-sql
我希望能够将两个数据帧的联接
条件
作为输入字符串传递。这样做的目的是使联接足够通用,这样用户就可以传递他们喜欢的
条件
。 col(splitted.apply(0)) === col(splitted.apply(1))需要帮助才能找到一种更好的获取输入以
动态
生成
连接
条件
的方法
浏览 0
提问于2018-05-09
得票数 1
回答已采纳
2
回答
基于多参数化
条件
的
PySpark
连接
python
、
pandas
、
apache-spark
、
pyspark
、
apache-spark-sql
我想要基于多个
条件
执行一个左
连接
。假设允许用户传递两个包含要
连接
的列名的列表(我们不知道每个列表可能超过2列)columnlistA=[]用户将为这两个列表传递任意数量的列输入然后,如何编写联接,以便能够使用这些数据文件的联接
条件
中
包含的这些列列表参数?
浏览 5
提问于2022-08-29
得票数 0
1
回答
在
pyspark
中
参数化
连接
条件
apache-spark
、
pyspark
、
apache-spark-sql
列名存储
在
列表
中
。因此,我需要传递列表
中
的列名(在下面的示例
中
,列名是其id和programid id),以便在源数据帧和目标数据帧之间进行比较。在下面的示例
中
,我想检查src_id == id和src_programid == programid是否。from
pyspark
import SparkContext, SparkConf, SQLContext from
pyspark
.sql.functions import col, when
浏览 14
提问于2019-04-13
得票数 0
1
回答
动态
汇总和重命名
PySpark
中
的聚合列
python
、
apache-spark
、
pyspark
、
apache-spark-sql
、
data-manipulation
我有一个
PySpark
数据帧(Df),其中包含50+列,其中包含一些
动态
列,这些列可能存在也可能不存在,但它们存在于一个单独的列表(Reqd_col)
中
。我想对列表(Reqd_col)
中
存在的
PySpark
data frame(df)
中
的那些列进行汇总(按固定列‘region’分组)和汇总总和或计数,汇总列的名称应与列的原始名称相同,而不是
PySpark
生成
的默认名称。以下是一个例子: df-
PySpark
数据帧,由50+列组成
浏览 24
提问于2021-09-08
得票数 0
1
回答
火花放电的
动态
布尔
连接
pyspark
我有两个具有如下所示模式的id, name, ageid,name,ageprimary_columns = ["id"]我需要
动态
地加入上面的两个数据流,如下所示-,how="inner").select([df_source[col] for col in df_sour
浏览 0
提问于2019-12-12
得票数 0
回答已采纳
1
回答
PySpark
-从字符串
生成
StructType
pyspark
、
databricks
、
azure-databricks
有没有一种简单的方法可以从字符串的结构类型定义中
生成
模式?举个例子,我确实这样做了:customSchema = StructType([StructField("Date",StringType(),True)]) from
pyspark
.sql.types import * stringShema = 'StructType([St
浏览 9
提问于2019-07-08
得票数 0
回答已采纳
2
回答
PySpark
动态
类操作
python
、
apache-spark
、
pyspark
、
apache-spark-sql
、
sql-like
我有一个像这样的
PySpark
数据文件: {"ID": 2, "Value": 10}, final_df.filter(F.col("ID") == "1").where(F.col("Value").like
浏览 9
提问于2022-06-16
得票数 0
1
回答
如何在
pyspark
中
解压list类型的列
python
、
apache-spark
、
pyspark
、
apache-spark-sql
我
在
pyspark
中有一个dataframe,df有一个数组字符串类型的列,所以我需要
生成
一个包含列表头部的新列,还需要包含尾列表
连接
的其他列。这是我的原始数据帧:
pyspark
> df.show()| id| lst_col|| 1|[a, b, c,d]| root |-- id: in
浏览 29
提问于2020-01-24
得票数 0
回答已采纳
2
回答
为窗口上的列获取带最大值的行
dataframe
、
pyspark
、
group-by
、
window
我有如下数据:| 1650983874871 | x | 2020-05-08 | 5 || 1639429213087 | x | 2020-05-08 | 2 || 1650367659030 | x | 2020-06-08 | 3 | | 1639429213087 | x
浏览 4
提问于2022-07-29
得票数 0
2
回答
我们如何使用SQL风格的"LIKE“标准
连接
两个Spark SQL数据帧?
python
、
apache-spark
、
apache-spark-sql
、
pyspark
我们使用的是与Spark 1.3.1接口的
PySpark
库。我们希望
连接
这两个数据帧,并使用{document_id, keyword}出现在document_df.document_text字符串
中
的
条件
,返回具有keyword_df.keyword对的结果数据帧例如,
在
PostgreSQL
中
,我们可以使用以下形式的ON子句来实现这一点: document_df.document_text ilike '%' || keyword_df.keyword ||
浏览 2
提问于2015-10-16
得票数 8
回答已采纳
1
回答
在
PySpark
(DataBricks)
中
构建
动态
WHERE
pyspark
、
apache-spark-sql
、
azure-databricks
因此,我试图使用Python /
PySpark
从DataBricks (公司的lakehouse for info)
中
的info
中
动态
加载一组Server表。我试图使它尽可能地由
动态
/数据驱动,所以我试图构建一个
动态
的位置来过滤数据。因为每次从湖畔拉出的数据都有一个不同的日期列要过滤,所以我需要能够使用两个变量来筛选要过滤的列,也可以使用有关日期的变量。对于如何构建这样的
动态
内容,包括来自dataframe的
动态
列,以及与那些<e
浏览 6
提问于2022-11-18
得票数 0
回答已采纳
2
回答
PySpark
:检查列
中
的值是否类似于字典
中
的键
apache-spark
、
pyspark
、
apache-spark-sql
我想使用包含关键字的字典,并检查
pyspark
df
中
的一列,看看该关键字是否存在,如果存在,则在新列
中
返回字典
中
的值。Support issue | Support Issue |
在
pyspark
中
构建高效函数的最佳方式是什么?
浏览 0
提问于2021-03-29
得票数 0
1
回答
火花结构流
中
的sql
apache-spark-sql
、
spark-structured-streaming
然而,我想验证一些我
在
火花文档
中
找不到的答案(我可能已经错过了)。我们可以
动态
或有
条件
地处理查询吗?是的,我可以将sql查询作为参数传递并开始执行。需要验证 sql查询的限制是什么:我发现不能像通常对关系数据库那样执行所有类型的sql查询--例如,有
条件
地终止特定sql的partition.Can执行?有人能帮助我指导在
生成
sql查询时需要考虑的限制吗?我知道这是一个非常广泛的问题,但任何指导都将是非常有帮助的,可以帮助我朝正确的方向看。import Spark
浏览 1
提问于2022-03-14
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何在CDH集群上部署Python3运行环境及运行Python作业
Spark通信原理之Python与JVM的交互
Spark 3.0重磅发布!开发近两年,流、Python、SQL重大更新全面解读
PySpark数据分析基础:PySpark原理详解
一文读懂PySpark数据框
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券