HiveServer2 是一种可选的 Hive 内置服务,可以允许远程客户端使用不同编程语言向 Hive 提交请求并返回结果。HiveServer2 是 HiveServer1 的改进版,主要解决了无法处理来自多个客户端的并发请求以及身份验证问题。具体可以参阅 一起了解一下HiveServer2。下面我们具体看一下如何配置 HiveServer2。
开启: service haproxy start 或 systemctl start haproxy
前面Fayson介绍了《如何使用HAProxy实现Impala的负载均衡》,本文主要介绍如何使用HAProxy实现Hive服务的负载均衡。
我们在启动hiveserver2服务以后,会发现光标静止不动,这不是执行完了的标志,是等待在等待,我们可以通过下图看出来:
Hive 中集成了 Thrift 服务。Thrift 是 Facebook 开发的一个软件框架,它用来进行可扩展且跨语言的服务的开发。Hive 的 HiveServer2 就是基于 Thrift 的,所以能让不同的语言如 Java、Python 来调用 Hive 的接口。 本节将演示如何使用 Python 代码来连接 HiveServer2。
这里需要使用hive中的HiveServer2服务,使用该服务相当于在hive的机器上启动一个server,而客户端可以通过ip + port的方式对其进行访问,然后,就可以通过客户端来实现我们可视化的需求。
前面Fayson介绍了《如何使用HAProxy实现HiveServer2负载均衡》,本文主要介绍如何使用HAProxy实现Kerberos环境下HiveServer2的负载均衡。
在前面的文章Fayson介绍了《如何使用HAProxy实现HiveServer2负载均衡》和《如何使用Zookeeper实现HiveServer2的HA》。本篇文章主要基于Haproxy方式实现的Hive负载均衡在Hue中配置HiveServer2服务的负载均衡。
Hive 中集成了 Thrift 服务。Thrift 是 Facebook 开发的一个软件框架,它用来进行可扩展且跨语言的服务的开发。Hive 的 HiveServer2 就是基于 Thrift 的,所以能让不同的语言如 Java、Python 来调用 Hive 的接口。对于 Java,Hive 提供了 jdbc 驱动,用户可以使用 Java 代码来连接 Hive 并进行一系列操作。
GettingStarted - Apache Hive - Apache Software Foundation
该文介绍了如何使用HiveServer2和HiveServer1来连接Hive数据库。其中,HiveServer2是Hive 2.0版本后引入的,提供了多租户支持、认证和授权、以及基于Zookeeper的动态服务发现机制。而HiveServer1是Hive 1.x版本中的Server组件,使用Java编写的Thrift API来提供Hive功能。在配置HiveServer2时,需要配置HiveServer2的地址、端口、Thrift协议、以及Zookeeper集群的信息。通过HiveServer2,可以实现多租户、资源隔离、访问控制、日志审计等功能。在安全性方面,HiveServer2提供了用户、角色、数据库和表级别的访问控制,并且支持SSL/TLS和Kerberos安全协议。在性能方面,HiveServer2采用了分桶表和列存存储,可以大幅提高查询性能。此外,HiveServer2还支持通过插件来扩展功能,例如支持自定义函数、存储格式、数据类型等。总之,HiveServer2提供了更加安全、高效、易用的数据库服务,适用于各种规模的企业应用。
在网上搜索关键字 python hive 的时候可以找到一些解决方案。大部分是这样的,首先把hive 根目录下的$HIVE_HOME/lib/py拷贝到 python 的库中,也就是 site-package 中,或者干脆把新写的 python 代码和拷贝的 py 库放在同一个目录下,然后用这个目录下提供的 thrift 接口调用。示例也是非常简单的。类似这样:
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 Fayson的github:https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1.文档编写目的 ---- 本篇文章主要介绍如何在CDH集群中配置及部署Hive2.3.3版本的服务,在配置及部署Hive2服务的同时不停用CDH集群默认的Hive服务。 内容概述 1.环境准备 2.配置及部署Hive2.3.3服务 3.Hive2.3.3服务启动及功能验证 测试环境 1.CM和CDH版本为5
beeline是hiveserver2的CLI,一个JDBC的客户端,分为两种模式
如果想通过 JDBC 来访问 HiveServer2,需要开启 HiveServer2 服务,具体请参阅 如何启动HiveServer2。
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 Fayson的github:https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1.文档编写目的 ---- 在CDH集群中启用了Kerberos并集成了OPenLDAP,在前面的文章中Fayson也介绍了在CDH集群中启用Kerberos与集成OPenLDAP,集群中HiveServer2服务需要同时支持Kerberos和OPenLDAP认证的负载均衡,本篇文章主要介绍如何使用HAPro
解压hive压缩包 apache-hive-2.1.0-bin.tar.gz(官网下载) 配置HADOOP_HOME环境变量 配置HIVE_HOME环境变量 在$HIVE_HOME/conf下创建hi
Hive 中集成了 Thrift 服务。Thrift 是 Facebook 开发的一个软件框架,它用来进行可扩展且跨语言的服务的开发。Hive 的 HiveServer2 就是基于 Thrift 的,所以能让不同的语言如 Java、Python 来调用 Hive 的接口。对于 Java,Hive 提供了 jdbc 驱动,用户可以使用 Java 代码来连接 Hive 并进行一系列操作。 本节将演示如何使用 Java 代码来连接 HiveServer2
之前分享了 Hive 元数据的表,一文搞懂 Hive 元数据的表,数仓开发需要熟悉的,建议收藏
Hive Thrift服务 1.启动Thrift为前台服务: bin/hiveserver2 2.启动为后台服务: nohup bin/hiveserver2 \ 1>/var/log/hiveserver.log \ 2>/var/log/hiveserver.err & 3.启动成功后,可以在别的节点上用beeline去连接 方式1 hive/bin/beeline 回车,进入beeline的命令界面 输入命令连接hiveserver2 beeline> !connect jdbc:hiv
前面的文章介绍了《Kerberos原理--经典对话》、《Kerberos基本概念及原理汇总》、《基于ambari的Kerberos安装配置》、《Windows本地安装配置Kerberos客户端》,《Kerberos实战》,接下来再来聊聊基于Ambari如何禁用Kerberos,可不是在页面上点击禁用Kerberos那么顺利噢,有的时候服务会启动失败啊~
2.该异常会在Thrift0.9.2及更低版本的HiveServer2服务上出现。
最近在出差,客户现场的 HiveServer 在很长时间内不可用,查看 CM 的监控发现,HiveServer 的内存在某一时刻暴涨,同时 JVM 开始 GC,每次 GC 长达 1 分钟,导致很长时间内,整个 HiveServer 不可用。
注: Impala守护进程Beeswax端口21000映射到haproxy 25003
笔者目前需要搭建数据平台,发现了Windows系统下,Hadoop和Hive等组件的安装和运行存在大量的坑,而本着有坑必填的目标,笔者还是花了几个晚上的下班时候在多个互联网参考资料的帮助下完成了Windows10系统下Hadoop和Hive开发环境的搭建。这篇文章记录了整个搭建过程中的具体步骤、遇到的问题和对应的解决方案。
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
作为管理员,您需要了解运行 Hive 查询的 Hive 默认授权是不安全的,以及您需要做什么来保护您的数据。您需要了解您的安全选项:设置 Ranger 或基于存储的授权 (SBA),它基于模拟和 HDFS 访问控制列表 (ACL),或这些方法的组合。
在前面的文章Fayson讲了《1.如何在CentOS6.5安装OpenLDAP并配置客户端》、《2.OpenLDAP集成SSH登录并使用SSSD同步用户》以及《3.如何实现OpenLDAP的主主同步》,在CDH中各个组件如何集成?本篇文章主要介绍如何为Hive配置OpenLDAP认证。
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 Fayson的github:https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1.文档编写目的 ---- 在前面的文章Fayson讲了《1.如何在RedHat7上安装OpenLDA并配置客户端》、《2.如何在RedHat7中实现OpenLDAP集成SSH登录并使用sssd同步用户》以及《3.如何RedHat7上实现OpenLDAP的主主同步》,在CDH中各个组件如何集成?本篇文章主要介
我们来看看强大的 Zeppelin 能够给 Hive 带来什么吧。首先需要安装 Hive 和 Zeppelin。具体请参考如下两篇文章:
之前Fayson介绍了《如何使用HAProxy实现HiveServer2负载均衡》,这种方案也有一些弊端,如HAProxy本身就是单点,虽然可以通过Keepalived来实现HAProxy的高可用,但这样配置会比较麻烦并且需要多部署两个组件,增大了系统运维的复杂度。在大数据平台中Zookeeper是一个必不可少且自身具有高可用保证的组件,本文主要讲述如何使用Zookeeper实现HiveServer2的HA。
因为测试需求,需要将各个开源平台整合到一个大的平台中,所以引入了hue,具体操作步骤如下: 此次引入了有postgre,hive,phoenix,hbase,yarn,hdfs
问题起因:“80040151”用户反映在Hue上通过Hive查询表数据出现异常,异常信息为权限拒绝,需要通过Sentry授权。然而通过beeline直连HiveServer2,访问同一张表,能够正常查询数据。
------Impaladbeeswax_port21000Port on which Beeswax client requests are served by Impala Daemon 被 impala-shell, Beeswax, Cloudera ODBC 1.2 驱动 用于传递命令和接收结果。参见 Configuring Impala to Work with ODBC 了解详细信息hs2_port21050Port on which HiveServer2 client requests
升级到 CDP 并迁移旧表后,您可能希望暂时切换到 Hive 旧行为。旧行为可能会解决数据迁移期间脚本的兼容性问题,例如,在运行 ETL 时。
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 Fayson的github: https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1.文档编写目的 ---- 在前面的文章Fayson介绍了《如何在CDH集群中安装Hive2.3.3》,本篇文章Fayson主要介绍如何为已安装好的Hive2服务启用Kerberos认证。 内容概述: 1.部署环境说明 2.添加Kerberos配置 3.验证Kerberos认证 4.总结 测试环境: 1.C
因为spark的群起命令会和hdfs的命令冲突,所以spark执行命令时使用绝对路径。
本文的安装参照了官方的文档:GettingStarted,将Hive 0.12.0安装在Hadoop 2.4.0上。本文将Hive配置成Server模式,并且使用MySQL作为元数据数据库,远程连接MySQL。
Fayson在之前的文章中介绍过《CDH网络要求(Lenovo参考架构)》,《如何为Hadoop集群选择正确的硬件》和《CDH安装前置准备》,而我们在搭建Hadoop集群时,还一件很重要的事就是如何给集群分配角色。
Fayson在前面的文章《01-如何在Window Server 2012 R2搭建Acitve Directory域服务》、《02-Active Directory安装证书服务并配置》、《03-Active Directory的使用与验证》和《04-如何在RedHat7上配置OpenLDAP客户端及集成SSSD服务和集成SSH登录》,前面完成了AD服务的基本集成接下来就来实现与CDH各个服务的集成。本篇文章Fayson主要介绍Hive与AD集成。
在Hive On Spark的模式下,无论是通过Beeline还是hive CLI访问Hive,使用Spark引擎执行SQL语句时,都会在/tmp目录下生成一个spark_submit.*.properties文件。Hive CLI方式会在当前节点/tmp目录生成,使用Beeline方式则会在HiveServer2所在节点的/tmp目录下生成。
所有操作开始前,先确定hadoop版本已经装好。具体可以看我的另一篇博客 搭建hadoop3.x
Oracle:hostname、port、username、password、sid
vim/opt/bdp/apache-hive-1.2.1-bin/conf/hive-site.xml
Hive.png Hive 运行方式 命令行 脚本 jdbc webui 搭建模式 local 单用户模式 远程模式/多用户模式 一般模式 Beeline · 服务器hiveserver2启动 · 客户端beeline连接 HQL 建表(create) 内部表 · hive管理,删除表时源数据消失 外部表 · 非hive管理,删除表时源数据不消失 查看表描述(desc) DML 和sql基本类似,用到查询即可 分区 静态分区 动态分区 分桶 适用场景 抽样 map-join 索引 提高检索性能 SerDe
Hive DDL根据操作对象的不同可分为:数据库操作、表的基本操作、表的高级操作、函数操作。
使用beeline登录HiveServer2向my_table表Load本地数据文件时报如下异常:
在CDH集群启用Kerberos后,通过浏览器访问HiveServer2的Web UI时提示需要输入用户名和密码(即Kerberos账号进行认证)。在前面Fayson介绍了《Windows Kerberos客户端配置并访问CDH》通过该方式可以访问启用Kerberos的Web UI。本篇文章主要介绍在未进行Windown Kerberos客户端配置的情况下如何跳过HiveServer2 Web UI的Kerberos验证。
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 Fayson的github:https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1.文档编写目的 ---- 在前面的文章Fayson介绍了《如何在CDH集群中安装Hive2.3.3》,本篇文章主要介绍如何在Hue中集成Hive2.3.3服务。 内容概述 1.环境准备 2.配置Hue集成Hive2 3.Hue验证 测试环境 1.CM和CDH版本为5.14.3 2.Hive的版本为2.3
领取专属 10元无门槛券
手把手带您无忧上云