首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

深入理解 Hive UDAF

概述 用户自定义聚合函数(UDAF)支持用户自行开发聚合函数完成业务逻辑。从实现上来看 Hive 有两种创建 UDAF 的方式,第一种是 Simple 方式,第二种是 Generic 方式。...1.2 通用 UDAF 简单 UDAF 编写起来比较简单,但是由于使用了 Java 反射机制导致性能下降,并且不允许使用变长参数等特性。...通用 UDAF 允许所有这些特性,但编写起来可能不如简单 UDAF 那么直观。...结构 由于简单(Simple)UDAF 性能相对较低,已经废弃,因此我们后面重点关注通用(Generic)UDAF。...2.1 Resolver 简单 UDAF Resolver 的 UDAF 接口被废弃后,通用 UDAF Resolver 有三种实现方式: 实现 GenericUDAFResolver 接口 实现 GenericUDAFResolver2

3.1K73
您找到你想要的搜索结果了吗?
是的
没有找到

用户自定义函数UDAF

SQL DDL:用户自定义函数UDAF UDAF的创建与实现 Hive UDAF有两种实现方式,可以继承UDAF或者AbstractGenericUDAFResolver类,也可以实现GenericUDAFResolver2...其中直接继承UDAF类,功能实现较为简单,但在运行时使用Hive反射机制,导致性能有损失。...在较新版本中org.apache.hadoop.hive.ql.exec.UDAF类已经废弃,但因为其实现方便,在很多开发者中较为流行。...通过AbstractGenericUDAFResolver和GenericUDAFResolver2实现UDAF,更加灵活,性能也更出色,是社区推荐的写法。...UDAF实现方式一:继承UDAFUDAF开发流程 继承UDAF类进行UDAF的开发流程是: 继承org.apache.hadoop.hive.ql.exec.UDAF类 以静态内部类方式实现org.apache.hadoop.hive.ql.exec.UDAFEvaluator

38930

Hive 系列 之 UDF,UDTF,UDAF

Hive 系列概览 (1)hive系列之简介,安装,beeline和hiveserver2 (2)hive系列之基本操作 (3)hive系列之udf,udtf,udaf (4)hive系列之二级分区和动态分区...系列之数据仓库建模-退化维度和缓慢变化维 (12)hive系列之常用企业性能优化1 (13)hive系列之常用企业性能优化2 (14)hive系列之常用企业性能优化3 今天是第三讲,Hive 的 UDF,UDAF...Hive中有3种UDF: UDF:操作单个数据行,产生单个数据行; UDAF:操作多个数据行,产生一个数据行。 UDTF:操作一个数据行,产生多个数据行一个表作为输出。 ?...4 如何实现一个udaf udaf User-defined Aggregation Function,用户自定义聚合函数 通俗点说,就是你可能需要做一些特殊的甚至是非常扭曲的逻辑聚合,但是Hive自带的聚合函数不够玩...,同时也还找不到高效的等价玩法,那么,这时候就该自己写一个UDAF了。

4.8K20

hive学习笔记之十:用户自定义聚合函数(UDAF)

group by的SQL中,多进一出也是常见场景,例如hive自带的avg、sum都是多进一出,这个场景的自定义函数叫做用户自定义聚合函数(User Defiend Aggregate Function,UDAF...),UDAF的开发比一进一出要复杂一些,本篇文章就一起来实战UDAF开发; 本文开发的UDAF名为udf_fieldlength ,用于group by的时候,统计指定字段在每个分组中的总长度; 准备工作...在一些旧版的教程和文档中,都会提到UDAF开发的关键是继承UDAF.java; 打开hive-exec的1.2.2版本源码,却发现UDAF类已被注解为Deprecated; UDAF类被废弃后,推荐的替代品有两种...:实现GenericUDAFResolver2接口,或者继承AbstractGenericUDAFResolver类; 现在新问题来了:上述两种替代品,咱们在做UDAF的时候该用哪一种呢?...的学习和实践就完成了,咱们掌握了多进一出的函数开发,由于涉及到多个阶段和外部调用的逻辑,使得UDAF的开发难度略大,接下来的文章是一进多出的开发,会简单一些。

2.5K20

hive学习笔记之十:用户自定义聚合函数(UDAF)

zq2599/blog_demos 《hive学习笔记》系列导航 基本数据类型 复杂数据类型 内部表和外部表 分区表 分桶 HiveQL基础 内置函数 Sqoop 基础UDF 用户自定义聚合函数(UDAF...),UDAF的开发比一进一出要复杂一些,本篇文章就一起来实战UDAF开发; 本文开发的UDAF名为udf_fieldlength ,用于group by的时候,统计指定字段在每个分组中的总长度; 准备工作...在一些旧版的教程和文档中,都会提到UDAF开发的关键是继承UDAF.java; 打开hive-exec的1.2.2版本源码,却发现UDAF类已被注解为Deprecated; UDAF类被废弃后,推荐的替代品有两种...:实现GenericUDAFResolver2接口,或者继承AbstractGenericUDAFResolver类; 现在新问题来了:上述两种替代品,咱们在做UDAF的时候该用哪一种呢?...的学习和实践就完成了,咱们掌握了多进一出的函数开发,由于涉及到多个阶段和外部调用的逻辑,使得UDAF的开发难度略大,接下来的文章是一进多出的开发,会简单一些。

53230
领券