腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
具
有空
值
的
pyspark
UDF
check
和
if
语句
如果传递给
pyspark
UDF
的
数组中不存在空
值
,则此方法有效。concat_
udf
=
udf
() 我不明白我们如何通过一个带有If
的
空/无检查来适应这一点。如何正确地适应下面不起作用
的
以下内容: concat_
udf
=
udf
(lambda co
浏览 14
提问于2020-10-27
得票数 0
回答已采纳
1
回答
Pyspark
:如何处理python用户定义函数中
的
空
值
、
、
、
、
我想使用一些字符串相似函数,这些函数并不是
pyspark
的
原生函数,例如数据仓库上
的
jaro
和
jaro度量。在python模块(如jellyfish )中可以很容易地获得这些功能。我可以在没有null
值
的
情况下编写
pyspark
的
罚款,即将猫与狗进行比较。当我将这些
udf
应用于存在null
值
的
数据时,它不起作用。在我正在解决
的
问题中,其中一个字符串是null是非常常见
的</
浏览 0
提问于2019-05-07
得票数 2
1
回答
如何在groupBy聚合函数中使用BitwiseOR操作
、
、
我如何在
pySpark
Dataframe.groupBy中使用bitwiseOR作为聚合函数,有像sum这样
的
内置函数可以为我做这件事吗?
浏览 21
提问于2019-08-22
得票数 0
回答已采纳
2
回答
Pyspark
-为什么在
udf
中不能使用isupper(),islower(),istitle()?
、
、
、
我尝试创建
udf
来检查名称字符串是全部大写还是小写。为什么它没有产生我所期望
的
结果?.select("firstName","casecheck").show() 输出低于这个
值
,这显然是错误
的
。我尝试使用islower(),istitle(),也产生了错误
的
结果。(对于所有记录,它将返回全部是或全部否)。你知道为什么它不能在
udf
中工作吗? 谢谢!(name): if name.isupper() :
check
="
浏览 16
提问于2020-08-29
得票数 0
回答已采纳
1
回答
试图跳过
PYSPARK
中非类型属性(null)上
的
python
UDF
、
、
我有的Firstname
和
Middlename列。Middlename列中
有空
值
。customer_df=Avi nullMeg null我写了
UDF
来脱光催眠药replacehyphens =
udf
(lambda string_val: str
浏览 1
提问于2018-11-06
得票数 2
回答已采纳
1
回答
为什么我
的
应用程序不从pandas_
udf
和
PySpark
+Flask开始呢?
、
、
当我
的
Flask+
PySpark
应用程序有一个带有@
udf
或@pandas_
udf
注释
的
函数时,它将不会启动。如果我简单地删除注释,它就会启动。例如,调试器在导入行(如从
pyspark
.sql.functions导入pandas_
udf
、
udf
、PandasUDFType )处停止。但是,根本没有执行任何
语句
,包括最初
的
app = Flask(name)
语句
。(这会是某种隐藏
的
例外
浏览 5
提问于2018-11-14
得票数 3
2
回答
如何在
pyspark
中创建具有两个输入
的
UDF
、
、
我是
pyspark
的
新手,我正在尝试创建一个简单
的
udf
,它必须接受两个输入列,检查第二列是否
有空
格,如果有,将第一列拆分为两个
值
并覆盖原始列。这就是我所做
的
:if x == "EXDRA" and y == "":if x == "EXIZQ" andy == "&qu
浏览 42
提问于2017-07-11
得票数 1
回答已采纳
1
回答
当输入参数是从dataframe
的
两列连接起来
的
值
时,引发
UDF
错误
、
、
、
、
下面的python代码将一个csv文件加载到dataframe df中,并将一个字符串
值
从df
的
单个或多列发送到
UDF
函数testFunction(...)。如果我发送一个列
值
,代码就能正常工作。但是,如果我从df
的
两列发送
值
df.address + " " + df.city,则会得到以下错误: 问题:我可能做错了什么,我们如何解决这个问题?df中
的
所有列都不是NULL,所以null或空字符串不应该是I问题。例如,如果我发送单列
值
浏览 6
提问于2022-05-21
得票数 0
回答已采纳
1
回答
如果列在不同行中
的
值
相等,则合并两行或多行
、
、
、
、
由于数据很大,我必须使用
pyspark
将不同行中
的
dataframe
值
(列表)组合起来。像这样
的
数据: x = sqlContext.createDataFrame([("A", ['1','2','3']),("B", ['4','2','5','6']),("C", ['2','4'
浏览 3
提问于2017-12-28
得票数 1
2
回答
过滤
pyspark
dataframe中
的
行并创建包含结果
的
新列
、
、
所以我试图找出周日发生在旧金山市中心边界内
的
犯罪。我
的
想法是首先编写一个
UDF
来标记是否每个犯罪都在我识别为市中心
的
区域内,如果它发生在该区域内,那么它将有一个标签"1“
和
"0”。我尽了最大
的
努力去写我能写
的
每一件事,但由于某种原因,它就是不起作用。下面是我写
的
代码: from
pyspark
.sql.types import BooleanType from
pyspark
.sql.functi
浏览 12
提问于2020-06-30
得票数 1
回答已采纳
1
回答
AnalysisException不能解析数据查询中
的
变量。
、
、
、
如果checkcol是一个
值
如下所示
的
变量,F.when(F.col("colA")=='null',"Yes").otherwise(date_validation_
udf
("colA"))("colC_DateCheck"), F.when(F.col("colD")=='null',"Yes").otherwise(num_
check
_
udf
浏览 1
提问于2019-09-17
得票数 0
回答已采纳
1
回答
单元自动增量
UDF
没有给出期望
的
结果
、
、
、
这个
UDF
必须自动增加一个名为id
的
hive表列。插入
值
:做select
语句
:输出:插入
值
: INSERT into TABLE abc SELECT inc() as id, '
浏览 1
提问于2017-05-25
得票数 0
回答已采纳
1
回答
在
Pyspark
中使用具有多个参数
的
Scala
UDF
、
、
、
我有一个用Scala编写
的
UDF
,我希望能够通过
Pyspark
会话调用它。
UDF
有两个参数,字符串列
值
和
第二个字符串参数。如果
UDF
只需要一个参数(列
值
),我就可以成功地调用它。以下是我到目前为止在Scala
和
Pyspark
中所能做
的
事情:class SparkUDFTest() extends Serializable { def stringLeng
浏览 1
提问于2018-02-12
得票数 2
1
回答
在运行时评估
PySpark
UDF
参数
、
、
我有一个注册到
pyspark
的
udf
,它
的
任务是通过使用函数
的
参数a
和
b构建url来查询web。在运行时,它在print
语句
中计算Column<b'(colA + colB)'>
的
参数。如何获取参数a
和
b中
的
字符串?def
udf
_func(a, b): return requests.get(a + b) get = <e
浏览 0
提问于2020-11-26
得票数 0
2
回答
如何将Python Pandas函数转换为Python
PySpark
、
、
、
我目前在将Python Pandas函数转换为Python
PySpark
时遇到了一个问题,因为它们是不同
的
库。我想要做
的
是有一个查询函数,然后将它应用回相同
的
列。这是我为Python Pandas所做
的
(Age是我试图从中检索
的
数据集中
的
列):from
pyspark
.sql.types impor
浏览 17
提问于2020-05-18
得票数 0
回答已采纳
2
回答
电火花
UDF
中广播数据
的
应用
、
、
是否可以在
pyspark
应用程序
的
UDF
中使用广播数据帧。Traceback (most recent call last): File "C:/Users/Vignesh/PycharmProjects/gettingstarted_jsparkSession.
udf
().registe
浏览 0
提问于2018-10-29
得票数 0
回答已采纳
1
回答
Pyspark
中
的
奇怪行为
、
、
、
我在
PySpark
中观察到一个奇怪
的
行为。也许你们中
的
一个会知道发生了什么。mydate.strftime('%Y%m') return None "date_string", df.filter(df.mydate.isNotNull()).count()0这意味着我在列df.myda
浏览 34
提问于2018-01-10
得票数 0
1
回答
无法在
PySpark
项目中生成文档而不运行session
、
、
、
、
我有一个Python包,其中有一个模块,其中包含要在
PySpark
设置中使用
的
UDF
。在运行单元测试时,我已经想出了一种初始化
和
关闭Spark会话
的
方法,但是我在创建文档时遇到了问题。我使用
的
是,所以我只需运行make clean docs并遇到以下错误: File "/usr/local/lib/python3.9/site-packages/
pyspark
/sql/pand
浏览 8
提问于2022-03-31
得票数 1
回答已采纳
2
回答
如何在
PySpark
中根据数组
值
进行过滤?
、
、
、
、
我
的
架构: |-- Certifications: array (nullable = true)df3 = sqlContext.sql("select vendorTags.vendor from globalcontacts")df3 = sqlContext.sql("
浏览 0
提问于2016-03-15
得票数 16
回答已采纳
3
回答
用火花法编制RMSE公式
、
我很难用
Pyspark
编写以下公式:我尝试在python中这样做,它看起来如下(仍然不能100%确定它是正确
的
):使用@
udf
的
似乎仍然没有给我一个正确
的
结果: im
浏览 1
提问于2022-08-24
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
PySpark,大数据处理的超级英雄,一个让数据分析提速100倍的Python库!
Spark 2.3重磅发布:欲与Flink争高下,引入持续流处理
Spark 3.0重磅发布!开发近两年,流、Python、SQL重大更新全面解读
Python实现MaxCompute UDF/UDAF/UDTF
PySpark,大数据处理的Python加速器!
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券