本文主要介绍如何在CDP-DC集群上安装部署Tez和Hive on Tez,然后配置Hive server。...完成后,系统管理员可以在stdout下查看安装日志。 ? ? ? 7. 回到Cloudera Manager主页,查看Tez服务 ? ?...完成后,系统管理员可以在stdout下查看安装日志。 ? ? ? 6) 回到Cloudera Manager主页,查看Hive on Tez服务 ?...Hue配置支持hive Hive on Tez部署完成后,在Hue中是看不到Hive引擎的。 ? 进入到Hue的配置页面,将HiveServer2服务复选 ? 保存更改后重启hue。...Hue测试 ? ? ? 总结 1. Hive Server的默认执行引擎为Hive on Tez 2. 在CDP-DC中,Hive的版本为3.1.1,支持数据的ACID特性,支持数据的更新操作。
1.1 启用Sentry服务前 1.确定安装Sentry服务的前置条件,参考《0634-6.2.0-如何在CDH中安装Sentry服务》的前置章节。 2.设置Hive的仓库目录权限。 ?...,可以在Cloudera Manager的Hive服务中配置hive.metastore.warehouse.dir属性,并且为配置的目录设置相应的权限。...Hue中的用户group也同样要与本地操作系统中的用户group相同。...1.从Cloudera Manager进入Hue服务,点击“配置”,搜索“sentry”,在“Sentry服务”中勾选Sentry,点击“保存更改”。 ? 回到CM主页,重启Hue服务,重启过程略。...作为替代的,在加载jar包时只能通过在Hive服务中配置hive.reloadable.aux.jars.path路径。参考《如何在启用Sentry的CDH集群中使用UDF》。
在Cloudera Manager Server上安装openldap-clients; 为Cloudera Manager创建了超级管理员principal,使其能够有权限在KDC中创建其他的principals...在 Cloudera Manager 上启用 Kerberos 的过程中,会自动做以下的事情: 集群中有多少个节点,每个账户就会生成对应个数的 principal ; 为每个对应的 principal...hive 用户运行 hive 命令需要执行sudo,现在配置了 kerberos 之后,不再需要 sudo 了,hive 会通过 ticket 中的用户去执行该命令: CREATE DATABASE...; HUE Sqoop Action测试,唯一需要注意的是,在提交 Action的时候需要选择credential方式,hive shell action请选择 hcat,hive server2 action...A: 因为sudo权限下生成的credetial不能用于非sudo权限下的beeline,也就是说不要在申请ticket的时候使用sudo,在执行beeline的时候使用非sudo。
对于Solr的赋权其实也是一样的,CDH同时支持在Hue中与命令行操作赋权,本文Fayson主要介绍如何在Hue中使用Sentry为Solr赋权。...如果你不会,请参考Fayson之前的文章《如何在Kerberos下使用Solr》和《Windows Kerberos客户端配置并访问CDH》 4.在Hue中创建collection以及导入样例数据 --...-- 1.这里我们首先准备一个8个字段的csv文件,一共10行,使用逗号分隔,用来导入Solr并实现全文索引。...这里跟在Hive/Impala中使用Sentry时,使用hive作为管理员用户是相似的。我们在Hue中创建一个solr的group,以及solr用户,然后用solr用户登录Hue,创建过程略。 ?...具体请参考《如何在Kerberos下使用Solr》和《Windows Kerberos客户端配置并访问CDH》。
如何在CDH集群中安装Hive2.3.3》,本篇文章主要介绍如何在Hue中集成Hive2.3.3服务。...内容概述 1.环境准备 2.配置Hue集成Hive2 3.Hue验证 测试环境 1.CM和CDH版本为5.14.3 2.Hive的版本为2.3.3 3.操作系统版本为RedHat7.4 4.JDK版本为...注意:需要在Hive2.3.3的安装目录下创建auxlib目录,并添加hive-exec的依赖包,操作如下: [root@ip-172-31-5-171 ~]# cd /opt/cloudera/hive...3.在hue_safety_value.ini中配置如下内容: [beeswax] hive_server_host=ip-172-31-5-171.ap-southeast-1.compute.internal...4.登录Hue验证 ---- 1.登录Hue查看Hive服务下default库下的表 ? 与命令行显示结果一致 ? 2.进行SQL操作 数据插入成功 ? 查看插入结果成功 ?
和CM版本为6.3.1 采用root用户进行操作 02 — 部署FreeIPA客户端 集群所有节点部署FreeIPA客户端 1)在集群的所有节点上安装FreeIPA客户端介质: yum -y install...,yarn,,hbase,hive等)的更新生命期等,填写完成后点击下一步 ?...这是因为在hadoop中没有/user/admin的目录,导致mapreduce的临时文件没有地方写,导致作业错误。...hive 0 2019-11-28 01:07 /user/hive drwxrwxr-x - hue hue 0 2019...Hue验证 使用admin用户在hue中执行hive和访问hdfs ? 使用admin用户往/user目录上传文件失败,用户没有权限。 使用admin用户往/user/admin目录上传文件成功。
在设置KDC页面中,依次填写配置相关的KDC信息,包括类型、KDC服务器、KDC Realm、加密类型以及待创建的Service Principal(hdfs,yarn,,hbase,hive等)的更新生命期等...hive 0 2019-12-09 08:21 /user/hive drwxrwxr-x - hue hue 0...Hive会自动应用当前的Kerberos凭据,直接登录。 4.3. Hue验证 使用admin用户在hue中执行hive和访问hdfs ? ?...05 — 总结 1) 在CDP数据中心版上启动Kerberos,比在CDH中启动Kerberos简单。...2) 在CDP数据中心版上使用Kerberos认证也变得更加简单,例如beeline连接串中不需要写凭据等。 3) 在CDP数据中心版中界面向导性更强。
1.3备份MySQL元数据 mkdir mysql_back cd mysql_back/ #-u后面是mysql用户名,-p单引号中是用户对应的密码,metastore为库名,metastore.sql...1.4 备份集群配置数据 通过Cloudera Manager提供的API接口,导出一份JSON文件,该文件包含Cloudera Manager所有与部署相关的所有信息如:所有主机,集群,服务,角色,用户...主要包括如/var/lib/flume-ng /var/lib/hadoop* /var/lib/hue /var/lib/navigator /var/lib/oozie /var/lib/solr...3.3 卸载集群软件 1.卸载所有节点上的软件 yum -y remove avro-tools crunch flume-ng hadoop-hdfs-fuse hadoop-hdfs-nfs3 hadoop-httpfs...hadoop-kms hbase-solr hive-hbase hive-webhcat hue-beeswax hue-hbase hue-impala hue-pig hue-plugins hue-rdbms
它提供了大数据集上随机和实时的读/写访问,并针对了商用服务器集群上的大型表格做出优化——上百亿行,上千万列。其核心是Google Bigtable论文的开源实现,分布式列式存储。...Flume最早是Cloudera提供的日志收集系统,目前是Apache下的一个孵化项目,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方...除了像Hive使用相同的统一存储平台,Impala也使用相同的元数据,SQL语法(Hive SQL),ODBC驱动程序和用户界面(Hue Beeswax)。...Impala还提供了一个熟悉的面向批量或实时查询和统一平台。 5.Cloudera hue Hue是cdh专门的一套web管理器,它包括3个部分hue ui,hue server,hue db。...hue提供所有的cdh组件的shell界面的接口。你可以在hue编写mr,查看修改hdfs的文件,管理hive的元数据,运行Sqoop,编写Oozie工作流等大量工作。 Spark ?
文档编写目的 CDH集群中有数据管理的组件Cloudera Navigator,本文档主要介绍这个组件的其中一个功能:审计,Cloudera Navigator审计可以从选定的集群服务收集一些事件,用户可以在控制台查看这些审计的日志...基于Navigator的审计日志验证一些问题 5.1 HIVE/HUE查询的数据量信息的记录 例如返回行数(1000行),返回数据量(100M)等类似信息 在beeline命令行执行语句select *...由上面的测试可以得知,在Navigator的审计日志中无法获取Hive中查询返回的数据的详细信息,只能看到查询执行的语句以及涉及的HDFS上的目录 5.2 是否有HDFS文件操作(如上传文件),涉及到的文件的大小的记录...使用test_hdfs_audit用户登陆Hive,然后查询default库下的表web_returns,查询失败,没有权限 ? 查看审计日志,能够看到操作失败的日志 ?...例如在HDFS上的操作,在审计日志中可以看到查看文件信息、将文件移动到回收站;在Hive上的操作,可以看到审计日志中显示的操作名称,建表、查询、删除表等;在Impala上的操作与Hive中类似,对表的操作都能够在审计日志中看到
但对于咱普通人,其实Cloudera Manger提供了一种很优雅的方式让你找回元数据库密码,那就是神奇的Cloudera Manager API。...,获取指定集群的Services 在浏览器输入如下地址,将替换成CM的IP地址,替换为上一步中获取到的集群名称 http://:7180...2.获取指定集群的Services 将如下命令中相应参数替换,替换为上一步获取到的集群名称 curl -v -k -X GET -u :<cm_admin_pass...3.根据获取到的Service名称,获取该服务的配置 将一下命令中参数替换为自己环境信息,替换为上一步获取到的服务名称。...3.总结 ---- 通过以上两种方式可以获取Hue、Hive、Sentry服务元数据库密码,但不支持获取Oozie、AM、CM、RM、Navigator等服务的数据库密码。
Fayson的github: https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1.文档编写目的 ---- CDH集群中可以使用Hue访问Hive...在前面Fayson也介绍了《Livy,基于Apache Spark的开源REST服务,加入Cloudera Labs》、《如何编译Livy并在非Kerberos环境的CDH集群中安装》、《如何通过Livy...的RESTful API接口向非Kerberos环境的CDH集群提交作业》、《如何在Kerberos环境的CDH集群部署Livy》、《如何通过Livy的RESTful API接口向Kerberos环境的...CDH集群提交作业》、《如何打包Livy和Zeppelin的Parcel包》和《如何在CM中使用Parcel包部署Livy及验证》,本篇文章Fayson主要介绍如何在Hue中添加Notebook组件并集成...4.总结 ---- 1.CDH版本中的Hue默认是没有启用Notebook组件,需要在hue_safety_value.ini文件中添加配置。
从CDH到CDP的新功能 Ranger2.0 动态行过滤和列屏蔽 基于属性的访问控制和SparkSQL细粒度访问控制 Sentry到Ranger迁移工具 新的RMS提供HDFS ACL同步 Atlas2.0...支持Knox 通过滚动重启和自动重新平衡来增强操作 大量改进可用性 添加了新的数据类型,如DATE,VARCHAR和对HybridClock时间戳的支持 Yarn 新的Yarn队列管理器 放置规则使您无需指定队列名称即可提交作业...“ Cloudera Applications”,“ Operations and Management”和 “ Encryption”框中的组件在CDH Cluster Services周界中定义的群集包络之外运行...,.jpg等)上基于相关性的文本搜索 Impala 更适合Data Mart迁移用例(交互式,BI样式查询) 能够查询大型集群中的大量数据(“大数据”) 集群环境中的分布式查询,方便扩展 与Kudu集成以获取快速数据...,与Ranger集成以获取授权策略 快速BI查询支持使用单个系统进行大数据处理和分析,因此客户避免了昂贵的建模和ETL将分析添加到数据湖中。
普遍可用性涵盖了在 CDP 中的一些关键数据服务中运行的 Iceberg,包括 Cloudera 数据仓库 ( CDW )、Cloudera 数据工程 ( CDE ) 和 Cloudera 机器学习 (...在这篇由两部分组成的博客文章中,我们将向您展示如何在 CDP 中使用 Iceberg 来构建一个开放的湖仓,并利用从数据工程到数据仓库再到机器学习的 CDP 计算服务。...在第一部分中,我们将重点介绍如何在 CDP 中使用 Apache Iceberg 构建开放式湖屋;使用 CDE 摄取和转换数据;并利用时间旅行、分区演变和对 Cloudera 数据仓库上的 SQL 和...在 Iceberg 中,这些表管理操作可以以最少的返工来应用,从而减轻数据从业人员在改进表以更好地满足业务需求时的负担。 在管道的第二阶段,我们使用一行代码更改分区方案以包含年份列!...首先,我们将在 CDW 中打开 Hue 并访问我们刚刚在 CDE 中使用 Spark 创建的表。转到 CDW 并在 Impala 虚拟仓库中打开 Hue。
6 Hue 6.1 Apache Tez Integration Improvements 现在,当您使用Tez作为Hive的查询执行引擎时,作业将显示在Hue Job Browser中。...此功能不适用于非HDFS表,例如Kudu或HBase表,并且不适用于将数据存储在云服务(如S3或ADLS)上的表。...4.新的tablet级别指标,average_diskrowset_height,显示了需要压缩副本的程度,如每单位keyspace的平均行集(rowsets)数所示。...11.新的kudu table scan工具扫描表中的行,支持comparison, in-list和is-null谓词。...也可以使用Sqoop将具有JDBC适配器(如SQL Server,MySQL等)的任何关系数据库中的数据导入ADLS文件系统。
2.Hue用户及用户组 Hue的数据库类型为PostgreSQL ? 用户信息 ? 用户组信息 ? 管理员信息 ? 3.Hive数据库及表信息 Hive的数据库类型为PostgreSQL ?...创建用户并授予数据库上的权限 CREATE USER 'hive'@'%' IDENTIFIED BY 'password'; GRANT ALL PRIVILEGES ON hive.* TO 'hive...更换数据库服务器 5.进入Hive配置页面,修改Hive的Metastore数据库类型为MySQL,然后修改其在 MySQL中的数据库名称 ?...2.通过Hue查看Sentry的授权信息如下: ? 3.使用hive用户进行建表测试 建表成功 ? 向表中插入数据,数据插入成功 ? 执行查询操作,查询成功 ?...3.在进行Hue数据库转换的过程中由于部分表外键的问题,导致转换失败,需要将报错的外键取消勾选。
1.文档编写目的 ---- 在前面的文章Fayson介绍过UDF的开发及使用《如何在Hive&Impala中使用UDF》,大多数企业在使用CDH集群时,考虑数据的安全性会在集群中启用Sentry服务,这样就会导致之前正常使用的...本篇文章主要讲述如何在Sentry环境下使用自定义UDF函数。...6.创建永久函数 ---- 1.使用hive用户登录Hue,在tpcds_text库下创建parse_date函数 CREATE FUNCTION parse_date as 'com.peach.date.DateUtils...集群启用了Sentry服务,Hive创建函数时指定的是本地的jars,导致在Impala中无法直接使用Hive的函数,需要在Impala shell下重新创建。...) 任何用户都可以DROP掉任何Function,不管它有什么权限,即使这个用户没有这个数据库的权限,也可以DROP掉这个数据库下的Function,只要带上Function的全路径,如: DROP
Hue用户及用户组 Hue的数据库类型为PostgreSQL ? 用户信息 ? 用户组信息 ? 管理员信息 ? Hive数据库及表信息 Hive的数据库类型为PostgreSQL ?...迁移CM元数据库 导出Cloudera Manager配置文件 获取当前支持的API版本 curl -u admin:admin "http://192.168.0.204:7180/api/version...创建用户并授予数据库上的权限 CREATE USER 'hive'@'%' IDENTIFIED BY 'password';GRANT ALL PRIVILEGES ON hive.* TO 'hive...更换数据库服务器 进入Hive配置页面,修改Hive的Metastore数据库类型为MySQL,然后修改其在 MySQL中的数据库名称 ?...在进行Hue数据库转换的过程中由于部分表外键的问题,导致转换失败,需要将报错的外键取消勾选。
》、《04-如何在RedHat7上配置OpenLDAP客户端及集成SSSD服务和集成SSH登录》、《05-如何为Hive集成AD认证》和《06-如何为Impala集成AD认证》。...进入Group管理界面,点击“Add/Sync LDAP group”同步AD中的hive组 ? 将hiveadmin用户添加到hive组中 ?...4.Hue中集成Hive和Impala ---- 注意:如果Hive/Impala已设置了LDAP认证,需要在Hue中增加以下设置,否则Hue无法正常连接Hive或Impala进行查询, 1.通过CM在...1.使用testa用户登录Hue,在Hive执行引擎下执行SQL操作 ? 执行Count操作 ? 2.使用Impala执行引擎进行SQL操作 ? 执行Count操作 ?...2.如果Hive或者Impala已集成AD,则需要在Hue、HDFS、Impala中增加额外的配置。 3.Hue管理LDAP用户组的逻辑是独立管理用户和组,在同步用户的时候是不会将用户的组信息同步。
中安装和使用StreamSets》,通过StreamSets实现数据采集,在实际生产中需要实时捕获MySQL、Oracle等其他数据源的变化数据(简称CDC)将变化数据实时的写入大数据平台的Hive、HDFS...6.将Hive Metadata的data 输出到HDFS 上 将Hive Metadata的 data链接到Hadoop FS 1 ? ? ? ?...去HUE 页面查看hive 表中的数据,发现已经更新进来 ? 4.Pipeline流程测试 ---- 1.去mysql 中增加数据并查看 ? 查看管道流信息发现输入输出数量变成了4 ?...去HUE 中查看hive 表的数据,跟mysql 中同步,说明增量更新成功 ?...在CM中配置StreamSets包的路径 export STREAMSETS_LIBRARIES_EXTRA_DIR="/opt/cloudera/parcels/STREAMSETS_DATACOLLECTOR
领取专属 10元无门槛券
手把手带您无忧上云