首页
学习
活动
专区
工具
TVP
发布

技术学习

专栏作者
8
文章
23646
阅读量
6
订阅数
Spark GenericUDF动态加载外部资源
文章1中提到的动态加载外部资源,其实需要重启Spark任务才会生效。受到文章2启动,可以在数据中加入常量列,表示外部资源的地址,并作为UDF的参数(UDF不能输入非数据列,因此用此方法迂回解决问题),再结合文章1的方法,实现同一UDF,动态加载不同资源。本文通过继承GenericUDF类,读取存放在Redis集群中的字符串,构建字典树,完成词包匹配,来说明这一工作。
mikeLiu
2020-09-01
2.5K0
Spark UDF加载外部资源
由于Spark UDF的输入参数必须是数据列column,在UDF中进行如Redis查询、白/黑名单过滤前,需要加载外部资源(如配置参数、白名单)初始化它们的实例。若它们都能被序列化,从Driver端初始化+broadcast的方式可以完成构建。而Redis、字典树等存在不能序列化的对象,也就无法从Driver端发送到Excutor端。因此,整体的思路是:在Driver端初始化可以被序列化的资源,在Excutor端利用资源构建不可序列化对象,从而分布完成整个对象的构建。
mikeLiu
2020-08-28
5.2K0
Spark UDF小结
Spark UDF 增加了对 DS 数据结构的操作灵活性,但是使用不当会抵消Spark底层优化。
mikeLiu
2020-08-17
1.3K0
Spark Java UDAF 输入struct嵌套结构
虽然Spark3.0.0的官方文档1已对Spark Java UDAF进行了说明,并且有example代码。因此本文主要解决在实际开发过程中,遇到的2种问题:
mikeLiu
2020-08-11
2K1
Spark UDF1 输入复杂结构
在使用Java Spark处理Parquet格式的数据时,难免会遇到struct及其嵌套的格式。而现有的spark UDF不能直接接收List、类(struct)作为输入参数。 本文提供一种Java Spark Udf1 输入复杂结构的解决方法。
mikeLiu
2020-08-08
2.9K0
Spark UDF1 返回复杂结构
由java开发UDF1需指定返回值的DataType,spark-2.3.1暂不支持Array、Map这些复杂结构。因此,需要自定义DataType,满足定制化需求。以下以自定义Map结构的DataType为例进行说明。
mikeLiu
2020-08-05
3.7K0
springboot开发spark-submit的java代码
习惯使用spark-submit提交python写的pyspark脚本,突然想开发基于springboot开发java spark代码。在实际开发工程中,由于对springboot不熟,遇到了很多问题,好在最终都解决了。以下记录了一些问题及其解决方法。
mikeLiu
2020-08-02
2.7K0
Spark UDF实现demo
使用Spark开发代码过程时,很多时候当前库中的算子不能满足业务需求。此时,UDFs(user defined functions) 派上非常大的作用。基于DataFrame(或者DataSet) 的Java(或Python、Scale) 可以轻松的定义注册UDF,但是想在SQL(SparkSQL、Hive) 中自定义或者想共用就遇到困难。这时,可以先按照一定规约自定义函数,再向Spark(或Hive)注册为永久函数,实现在Spark和Hive共享UDF的目的。
mikeLiu
2020-07-31
3.4K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档