SmartSi-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

SmartSi

专栏成员

270

文章

618087

阅读量

53

订阅数

Hive SORT BY vs ORDER BY vs DISTRIBUTE BY vs CLUSTER BY

在这篇文章中，我们主要来了解一下 SORT BY，ORDER BY，DISTRIBUTE BY 和 CLUSTER BY 在 Hive 中的表现。

2021-12-16

1.8K0

深入理解 Hive UDAF

mapreduce hive hadoop

用户自定义聚合函数(UDAF)支持用户自行开发聚合函数完成业务逻辑。从实现上来看 Hive 有两种创建 UDAF 的方式，第一种是 Simple 方式，第二种是 Generic 方式。

2021-12-14

3.7K1

在Zeppelin中如何使用Hive

hive http maven jdbc https

我们来看看强大的 Zeppelin 能够给 Hive 带来什么吧。首先需要安装 Hive 和 Zeppelin。具体请参考如下两篇文章：

2020-10-27

6.6K0

Hive元数据服务MetaStore

hive 存储 html java 数据库

MetaSore 是 Hive 元数据存储的地方。Hive 数据库、表、函数等的定义都存储在 Metastore 中。根据系统配置方式，统计信息和授权记录也可以存储在此处。Hive 或者其他执行引擎在运行时使用此数据来确定如何解析，授权以及有效执行用户查询。

2020-09-21

9.7K0

如何启动HiveServer2

网站 http hive xml

HiveServer2 是一种可选的 Hive 内置服务，可以允许远程客户端使用不同编程语言向 Hive 提交请求并返回结果。HiveServer2 是 HiveServer1 的改进版，主要解决了无法处理来自多个客户端的并发请求以及身份验证问题。具体可以参阅一起了解一下HiveServer2。下面我们具体看一下如何配置 HiveServer2。

2020-09-15

8.4K0

Hive通过Jdbc连接HiveServer2

hive jdbc php java http

如果想通过 JDBC 来访问 HiveServer2，需要开启 HiveServer2 服务，具体请参阅如何启动HiveServer2。

2020-09-15

7.4K0

一起了解一下HiveServer2

hive rpc jdbc hadoop 网站

在了解 HiveServer2 之前我们先来了解一下 HiveServer1（或者称之为 HiveServer）。

2020-09-07

2.5K0

Hive 安装与配置

sql 数据库云数据库 SQL Server hive

可以从 http://hive.apache.org/downloads.html 下载你想要的版本，在这我们使用的是2.3.7版本

2020-08-31

7230

Bitmap用户分群在贝壳DMP的实践和应用

编程算法 hive 存储 sql 数据库

DMP数据管理平台是实现用户精细化运营和和全生命周期运营的的基础平台之一。贝壳找房从2018年5月开始建设自己的DMP平台，提供了用户分群、消息推送、人群洞察等能力。关于贝壳DMP架构的介绍可参考文章：DMP平台在贝壳的实践和应用。

2020-08-24

4.9K1

Presto 安装与部署

node.js hive jvm 日志服务

Presto 在访问 Hive 中的数据时需要得到 Hive 中的所有元数据信息，因此需要部署一个 HiveMetaStore 服务提供 Hive 的元数据信息。

2020-02-25

3K1

Hive Lateral View

Lateral View 一般与用户自定义表生成函数(split、explode等UDTF)一起使用，它能够将一行数据拆成多行数据，并在此基础上对拆分后的数据进行聚合。

2019-11-27

9450

Hive中排除SELECT查询列

hive 正则表达式

在 Hive 表中可能存在很多列，也有可能就存在几列。如果我们想要表中所有列，毫无疑问我们可以使用 SELECT *。但在某些情况下，我们可能拥有 100 多列，并且我们只不需要其中几列。在这种情况下，之前都是手动的添加 SELECT 查询中的所有列名。由于列数很多，比较啰嗦。因此，我们希望能在 Hive 中从 SELECT 查询中排除某些列。

2019-11-27

5.4K0

Spark 在Spark2.0中如何使用SparkSession

sql api hive python json

除了有时限的交互之外，SparkSession 提供了一个单一的入口来与底层的 Spark 功能进行交互，并允许使用 DataFrame 和 Dataset API 对 Spark 进行编程。最重要的是，它减少了开发人员在与 Spark 进行交互时必须了解和构造概念的数量。

2019-08-08

4.7K0

Hive Grouping Sets,CUBE与ROLLUP

ios javascript 打包 rollup.js hive

这篇文章描述了 SELECT 语句 GROUP BY 子句的增强聚合功能 GROUPING SETS。GROUPING SETS 子句是 SELECT 语句的 GROUP BY 子句的扩展。通过 GROUPING SETS 子句，你可采用多种方式对结果分组，而不必使用多个 SELECT 语句来实现这一目的。这就意味着，能够减少响应时间并提高性能。

2019-08-08

3.8K0

Hive 启用压缩

文件存储 hive mapreduce shell

对于数据密集型任务，I/O操作和网络数据传输需要花费相当长的时间才能完成。通过在 Hive 中启用压缩功能，我们可以提高 Hive 查询的性能，并节省 HDFS 集群上的存储空间。

2019-08-07

1.9K0

Hive 抽样Sampling

hive https 网络安全

Block 抽样功能在 Hive 0.8 版本开始引入。具体参阅JIRA - Input Sampling By Splits

2019-08-07

2.4K0

Hive Count Distinct优化

hive mapreduce sql

目前，Hive底层使用MapReduce作为实际计算框架，SQL的交互方式隐藏了大部分MapReduce的细节。这种细节的隐藏在带来便利性的同时，也对计算作业的调优带来了一定的难度。未经优化的SQL语句转化后的MapReduce作业，它的运行效率可能大大低于用户的预期。本文我们就来分析一个简单语句的优化过程。

2019-08-07

3.4K0

Hive 本地执行模式

假设你正在运行一些复杂的 Hive 查询，我们都知道这会在后台触发 MapReduce 作业并为你提供输出。如果 Hive 中的数据比较大，这种方法比较有效，但如果　Hive 表中的数据比较少，这样会有一些问题。出现此问题的主要原因是 MapReduce 作业被触发，它是在服务器/集群上触发，因此每次运行查询时，它都会上传到服务器并在那里启动 MapReduce，然后输出。因此，为查询触发执行任务的时间消耗可能会比实际作业的执行时间要多的多。

2019-08-07

3K0

Hive仅在FROM子句中支持子查询（从Hive 0.12版本开始）。必须为子查询指定名称，因为FROM子句中的每个表都必须具有名称。子查询 SELECT 列表中的列必须具有独一无二的名称。子查询 SELECT 列表中的列可以在外部查询中使用，就像使用表中的列一样。子查询也可以是带 UNION 的查询表达式。Hive支持任意级别的子查询。

2019-08-07

6.9K0

Hive 正则序列化器RegexSerDe

hive java yarn node.js 正则表达式

RegexSerDe 可以从 Hive 两个jar文件的类中获取，hive-serde-<version>.jar中的 org.apache.hadoop.hive.contrib.serde2.RegexSerDe 以及 hive-contrib-<version>.jar 中的 org.apache.hadoop.hive.serde2.RegexSerDe。

2019-08-07

1.6K0

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态