sparksql udf自定义函数中参数过多问题的解决

sparkexpert

发布于 2018-01-09 16:14:33

1.8K0

发布于 2018-01-09 16:14:33

文章被收录于专栏：大数据智能实战

在进行spark sql数据库操作中，常常需要一些spark系统本身不支持的函数，如获取某一列值中的字符串。

如要获取　“aaaakkkkk”中的第4－第8个字符。

针对这种需求，只有设置UDF来实现了。

如

val fun:((String,Int,Int) => String) = (args:String, k1:Int, k2:Int) => { args.substr(k1,k2)} 
val sqlfunc = udf(fun)
df.withColumn("column22", sqlfunc(col("column1"), 1,3)

这样就报错。

才发现这里面由于UDF的原因，在任何函数中这个数字本身是不认的，因此需要加上lit()的命令才可以。



 df.withColumn("column22", sqlfunc(col("column1"), lit(1), lit(3))//只有这样才可以实现。
 df.withColumn("column22", sqlfunc(col("column1"), 1,3)

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2016年10月16日，如有侵权请联系 cloudcommunity@tencent.com 删除

spark

sql

数据库

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

spark

sql

数据库

登录后参与评论

0 条评论

热度

sparksql udf自定义函数中参数过多问题的解决

sparksql udf自定义函数中参数过多问题的解决

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐