具有空值的pyspark UDF check和if语句

如果传递给pyspark UDF的数组中不存在空值，则此方法有效。concat_udf = udf() 我不明白我们如何通过一个带有If的空/无检查来适应这一点。如何正确地适应下面不起作用的以下内容： concat_udf = udf(lambda co

浏览 14提问于2020-10-27得票数 0

回答已采纳

1回答

Pyspark:如何处理python用户定义函数中的空值

、、、、

我想使用一些字符串相似函数，这些函数并不是pyspark的原生函数，例如数据仓库上的jaro和jaro度量。在python模块(如jellyfish )中可以很容易地获得这些功能。我可以在没有null值的情况下编写pyspark的罚款，即将猫与狗进行比较。当我将这些udf应用于存在null值的数据时，它不起作用。在我正在解决的问题中，其中一个字符串是null是非常常见的</

浏览 0提问于2019-05-07得票数 2

1回答

如何在groupBy聚合函数中使用BitwiseOR操作

、、

我如何在pySpark Dataframe.groupBy中使用bitwiseOR作为聚合函数，有像sum这样的内置函数可以为我做这件事吗？

浏览 21提问于2019-08-22得票数 0

回答已采纳

2回答

Pyspark -为什么在udf中不能使用isupper()，islower()，istitle()？

、、、

我尝试创建udf来检查名称字符串是全部大写还是小写。为什么它没有产生我所期望的结果？.select("firstName","casecheck").show() 输出低于这个值，这显然是错误的。我尝试使用islower()，istitle()，也产生了错误的结果。(对于所有记录，它将返回全部是或全部否)。你知道为什么它不能在udf中工作吗？谢谢!(name): if name.isupper() : check="

浏览 16提问于2020-08-29得票数 0

回答已采纳

1回答

试图跳过PYSPARK中非类型属性(null)上的python UDF

、、

我有的Firstname和Middlename列。Middlename列中有空值。customer_df=Avi nullMeg null我写了UDF来脱光催眠药replacehyphens = udf(lambda string_val: str

浏览 1提问于2018-11-06得票数 2

回答已采纳

1回答

为什么我的应用程序不从pandas_udf和PySpark+Flask开始呢？

、、

当我的Flask+PySpark应用程序有一个带有@udf或@pandas_udf注释的函数时，它将不会启动。如果我简单地删除注释，它就会启动。例如，调试器在导入行(如从pyspark.sql.functions导入pandas_udf、udf、PandasUDFType )处停止。但是，根本没有执行任何语句，包括最初的app = Flask(name)语句。(这会是某种隐藏的例外

浏览 5提问于2018-11-14得票数 3

2回答

如何在pyspark中创建具有两个输入的UDF

、、

我是pyspark的新手，我正在尝试创建一个简单的udf，它必须接受两个输入列，检查第二列是否有空格，如果有，将第一列拆分为两个值并覆盖原始列。这就是我所做的：if x == "EXDRA" and y == "":if x == "EXIZQ" andy == "&qu

浏览 42提问于2017-07-11得票数 1

回答已采纳

1回答

当输入参数是从dataframe的两列连接起来的值时，引发UDF错误

、、、、

下面的python代码将一个csv文件加载到dataframe df中，并将一个字符串值从df的单个或多列发送到UDF函数testFunction(...)。如果我发送一个列值，代码就能正常工作。但是，如果我从df的两列发送值df.address + " " + df.city，则会得到以下错误：问题：我可能做错了什么，我们如何解决这个问题？df中的所有列都不是NULL，所以null或空字符串不应该是I问题。例如，如果我发送单列值

浏览 6提问于2022-05-21得票数 0

回答已采纳

1回答

如果列在不同行中的值相等，则合并两行或多行

、、、、

由于数据很大，我必须使用pyspark将不同行中的dataframe值(列表)组合起来。像这样的数据： x = sqlContext.createDataFrame([("A", ['1','2','3']),("B", ['4','2','5','6']),("C", ['2','4'

浏览 3提问于2017-12-28得票数 1

2回答

过滤pyspark* dataframe中的行并创建包含结果的新列*

、、

所以我试图找出周日发生在旧金山市中心边界内的犯罪。我的想法是首先编写一个UDF来标记是否每个犯罪都在我识别为市中心的区域内，如果它发生在该区域内，那么它将有一个标签"1“和"0”。我尽了最大的努力去写我能写的每一件事，但由于某种原因，它就是不起作用。下面是我写的代码： from pyspark.sql.types import BooleanType from pyspark.sql.functi

浏览 12提问于2020-06-30得票数 1

回答已采纳

1回答

AnalysisException不能解析数据查询中的变量。

、、、

如果checkcol是一个值如下所示的变量，F.when(F.col("colA")=='null',"Yes").otherwise(date_validation_udf("colA"))("colC_DateCheck"), F.when(F.col("colD")=='null',"Yes").otherwise(num_check_udf

浏览 1提问于2019-09-17得票数 0

回答已采纳

1回答

单元自动增量UDF没有给出期望的结果

、、、

这个UDF必须自动增加一个名为id的hive表列。插入值：做select语句：输出：插入值： INSERT into TABLE abc SELECT inc() as id, '

浏览 1提问于2017-05-25得票数 0

回答已采纳

1回答

在Pyspark中使用具有多个参数的Scala UDF

、、、

我有一个用Scala编写的UDF，我希望能够通过Pyspark会话调用它。UDF有两个参数，字符串列值和第二个字符串参数。如果UDF只需要一个参数(列值)，我就可以成功地调用它。以下是我到目前为止在Scala和Pyspark中所能做的事情：class SparkUDFTest() extends Serializable { def stringLeng

浏览 1提问于2018-02-12得票数 2

1回答

在运行时评估PySpark* UDF参数*

、、

我有一个注册到pyspark的udf，它的任务是通过使用函数的参数a和b构建url来查询web。在运行时，它在print语句中计算Column<b'(colA + colB)'>的参数。如何获取参数a和b中的字符串？def udf_func(a, b): return requests.get(a + b) get = <e

浏览 0提问于2020-11-26得票数 0

2回答

如何将Python Pandas函数转换为Python PySpark

、、、

我目前在将Python Pandas函数转换为Python PySpark时遇到了一个问题，因为它们是不同的库。我想要做的是有一个查询函数，然后将它应用回相同的列。这是我为Python Pandas所做的(Age是我试图从中检索的数据集中的列)：from pyspark.sql.types impor

浏览 17提问于2020-05-18得票数 0

回答已采纳

2回答

电火花UDF中广播数据的应用

、、

是否可以在pyspark应用程序的UDF中使用广播数据帧。Traceback (most recent call last): File "C:/Users/Vignesh/PycharmProjects/gettingstarted_jsparkSession.udf().registe

浏览 0提问于2018-10-29得票数 0

回答已采纳

1回答

Pyspark中的奇怪行为

、、、

我在PySpark中观察到一个奇怪的行为。也许你们中的一个会知道发生了什么。mydate.strftime('%Y%m') return None "date_string", df.filter(df.mydate.isNotNull()).count()0这意味着我在列df.myda

浏览 34提问于2018-01-10得票数 0

1回答

无法在PySpark项目中生成文档而不运行session

、、、、

我有一个Python包，其中有一个模块，其中包含要在PySpark设置中使用的UDF。在运行单元测试时，我已经想出了一种初始化和关闭Spark会话的方法，但是我在创建文档时遇到了问题。我使用的是，所以我只需运行make clean docs并遇到以下错误： File "/usr/local/lib/python3.9/site-packages/pyspark/sql/pand

浏览 8提问于2022-03-31得票数 1

回答已采纳

2回答

如何在PySpark中根据数组值进行过滤？

、、、、

我的架构： |-- Certifications: array (nullable = true)df3 = sqlContext.sql("select vendorTags.vendor from globalcontacts")df3 = sqlContext.sql("

浏览 0提问于2016-03-15得票数 16

回答已采纳

3回答

用火花法编制RMSE公式

、

我很难用Pyspark编写以下公式：我尝试在python中这样做，它看起来如下(仍然不能100%确定它是正确的)：使用@udf的似乎仍然没有给我一个正确的结果： im

浏览 1提问于2022-08-24得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Pyspark:如何处理python用户定义函数中的空值

如何在groupBy聚合函数中使用BitwiseOR操作

Pyspark -为什么在udf中不能使用isupper()，islower()，istitle()？

试图跳过PYSPARK中非类型属性(null)上的python UDF

为什么我的应用程序不从pandas_udf和PySpark+Flask开始呢？

如何在pyspark中创建具有两个输入的UDF

当输入参数是从dataframe的两列连接起来的值时，引发UDF错误

如果列在不同行中的值相等，则合并两行或多行

过滤pyspark* dataframe中的行并创建包含结果的新列*

AnalysisException不能解析数据查询中的变量。

单元自动增量UDF没有给出期望的结果

在Pyspark中使用具有多个参数的Scala UDF

在运行时评估PySpark* UDF参数*

如何将Python Pandas函数转换为Python PySpark

电火花UDF中广播数据的应用

Pyspark中的奇怪行为

无法在PySpark项目中生成文档而不运行session

如何在PySpark中根据数组值进行过滤？

用火花法编制RMSE公式

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐