登录Cloudera Manager的用户的最小角色要求:Configurator或者Cluster Administrator或者Full Administrator。
在CDP-DC集群中,hive服务默认只有Metastore角色,Hive Server角色需要在Hive on Tez服务中,Hive默认使用Hive on Tez引擎。
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 Fayson的github: https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1.文档编写目的 ---- Fayson在之前的文章《如何使用Sentry为Solr赋权》以及《使用命令行创建collection时Sentry给Solr赋权的问题》中,对Solr与Sentry的集成授权进行过介绍,并通过命令行的方式创建collection,以及通过命令行的方式对collection的赋权
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 Fayson的github:https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1.文档编写目的 ---- 在前面的文章Fayson介绍了《如何在CDH集群中安装Hive2.3.3》,本篇文章主要介绍如何在Hue中集成Hive2.3.3服务。 内容概述 1.环境准备 2.配置Hue集成Hive2 3.Hue验证 测试环境 1.CM和CDH版本为5.14.3 2.Hive的版本为2.3
之前非常担心的一件事就是如果有人拿到了hdfs超级管理员帐号,直接把数据rm -rf怎么办?有了Kerberos,就可以轻松防止这样的事情发生。Kerberos 协议实现了比“质询-响应”模式协议更高的安全性:第一,在身份验证过程中,所有的数据都使用不同的密码进行加密,避免了相关验证信息的泄漏;第二,客户端和服务器会相互验证对方的身份,避免了 中间人攻击 ;第三,客户端和服务器间的时间差被严格限制,避免了 回放攻击 。与 WINDOWS 系统中的 用户安全令牌 类似, Kerberos 服务通过“ 加密的票据(防止篡改) ”验证用户身份和提供用户访问权限;Kerberos 服务可以通过使用 会话密钥 确保在会话中数据的机密性和完整性。
CDH集群中可以使用Hue访问Hive、Impala、HBase、Solr等,在Hue3.8版本后也提供了Notebook组件(支持R、Scala及python语言),但在CDH中Hue默认是没有启用Spark的Notebook,使用Notebook运行Spark代码则依赖Livy服务。在前面Fayson也介绍了《Livy,基于Apache Spark的开源REST服务,加入Cloudera Labs》、《如何编译Livy并在非Kerberos环境的CDH集群中安装》、《如何通过Livy的RESTful API接口向非Kerberos环境的CDH集群提交作业》、《如何在Kerberos环境的CDH集群部署Livy》、《如何通过Livy的RESTful API接口向Kerberos环境的CDH集群提交作业》、《如何打包Livy和Zeppelin的Parcel包》和《如何在CM中使用Parcel包部署Livy及验证》,本篇文章Fayson主要介绍如何在Hue中添加Notebook组件并集成Spark。
CDH集群中有数据管理的组件Cloudera Navigator,本文档主要介绍这个组件的其中一个功能:审计,Cloudera Navigator审计可以从选定的集群服务收集一些事件,用户可以在控制台查看这些审计的日志,可以使用可配置的过滤器进行搜索,快速得到相关的信息,并且可以将这些信息导出为CSV或JSON文件。下面会对审计功能的使用进行一些测试。
Cloudera从CM6.3版本开始,引入了Red Hat IdM来做整个集群的认证,Red Hat IdM对应的软件为FreeIPA,在本文中描述如何使用FreeIPA来做CDH集群的认证。关于FreeIPA服务器搭建参考<使用FreeIPA对Linux用户权限统一管理>。
在前面的文章《6.3.0-如何将CM内嵌PostgreSQL服务迁移至外部PostgreSQL服务》介绍了将CM内嵌的PostgreSQL迁移至外部PostgreSQL,因为CM内嵌的PostgreSQL数据库不支持直接迁移至MySQL。本篇文章Fayson主要介绍如何将集群使用的外部PostgreSQL迁移至MySQL数据库。
在前面的文章《5.16.2-如何将CM内嵌PostgreSQL服务迁移至外部PostgreSQL服务》介绍了将CM内嵌的PostgreSQL迁移至外部PostgreSQL,因为CM内嵌的PostgreSQL数据库不支持直接迁移至MySQL。本篇文章Fayson主要介绍如何将集群使用的外部PostgreSQL迁移至MySQL数据库。
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 Fayson的github:https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1.文档编写目的 ---- 在前面Fayson介绍了《如何在CDH中安装和使用StreamSets》,通过StreamSets实现数据采集,在实际生产中需要实时捕获MySQL、Oracle等其他数据源的变化数据(简称CDC)将变化数据实时的写入大数据平台的Hive、HDFS、HBase、Solr、Elasti
在前面的文章《如何将CM内嵌PostgreSQL服务迁移至外部PostgreSQL服务》介绍了将CM内嵌的PostgreSQL迁移至外部PostgreSQL,因为CM内嵌的PostgreSQL数据库不支持直接迁移至MySQL。本篇文章Fayson主要介绍如何将集群使用的外部PostgreSQL迁移至MySQL数据库。
2022 年 6 月,Cloudera宣布在 Cloudera 数据平台 (CDP) 中全面推出 Apache Iceberg。Iceberg 是一种 100% 开放表格式,由Apache Software Foundation开发,可帮助用户避免供应商锁定并实现开放式 Lakehouse。
人啊,上了年纪了,总容易忘记一些事情,比如你一不小心就忘记了CDH集群Hive,Hue和Sentry服务的元数据库密码,对于数据库(MySQL/Oracle/PostgreSQL)管理员来说,可能有自己独特的一些奇技淫巧来找回密码。但对于咱普通人,其实Cloudera Manger提供了一种很优雅的方式让你找回元数据库密码,那就是神奇的Cloudera Manager API。
一、CDH自身组件 1、cloudera-scm-server /etc/cloudera-scm-server/ 2、cloudera-scm-agent /etc/cloudera-scm-agent/ 二、Hadoop生态组件 hadoop组件启动的脚本文件: /etc/alternatives/ hadoop生态组件执行路径: /opt/cloudera/parcels/CDH/bin/ hadoop生态组件依赖包路径: /opt/cloudera/parcel
Fayson在前面的文章《01-如何在Window Server 2012 R2搭建Acitve Directory域服务》、《02-Active Directory安装证书服务并配置》、《03-Active Directory的使用与验证》、《04-如何在RedHat7上配置OpenLDAP客户端及集成SSSD服务和集成SSH登录》、《05-如何为Hive集成AD认证》和《06-如何为Impala集成AD认证》。本篇文章Fayson主要介绍Hue集成AD认证。
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 Fayson的github: https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1.文档编写目的 ---- Sentry在CDH平台中定位为统一的授权框架,即所有的组件都要受Sentry的管理,当然也是为了方便用户的操作,一个入口为所有数据相关进行授权。Fayson在前面的文章中介绍了大量Sentry与Hive/Impala的集成文章,其实Sentry除了可以给Hive/Impala表
Cloudera得到世界各地受管制的行业和政府组织的信任,可以存储和分析有关人、医疗保健数据、财务数据或仅对客户本身敏感的专有信息的PB级别的高度敏感或机密的信息。
本文档讲述如何升级Cloudera Manager和CDH,通过本文档,您将学习到以下知识:
CDP Data Center是CDP(Cloudera Data Platform)的on-premise版本。这个新产品结合了Cloudera EDH和HDP两者的优点包括新功能或增强功能。该发行版是一个可扩展和可定制的平台,你可以在之上运行多种类型的工作负载。
在之前的文档中介绍了如何用CM接管无CM以rpm方式安装的CDH5.10.0,本文档同样会介绍如何使用Cloudera Manager来接管一个无Cloudera Manager管理的CDH集群,只不过这次的版本是CDH6.2.0。
以上三种方法也可以只使用于关键数据,具体使用哪种方法,可以根据自己集群的规模和数据量大小具体选择。
在主节点使用命令:systemctl stop cloudera-scm-server 停止服务
在部署CDH集群时,可能使用tar包或者rpm包的方式安装的集群,但是在部署时并没有采用Cloudera Manager来对集群进行管理,在使用过程中,集群数据量日益增长,组件慢慢变多,因此想将现有的集群使用Cloudera Manager来进行管理,本文档将介绍如何使用Cloudera Manager来接管一个无Cloudera Manager管理的CDH集群。
大数据我们都知道hadoop,可是还会各种各样的技术进入我们的视野:Spark,Storm,impala,让我们都反映不过来。为了能够更好的架构大数据项目,这里整理一下,供技术人员,项目经理,架构师选
Hue使用编辑器提交中文内容报错'ascii' codec can't decode byte 0xe6 in position 3: ordinal not in range(128)
补充: 为什么 在 Hadoop 2.x 中 HDFS 中有 ZKFC 进程,而 yarn 却没有? 在 Hadoop 1.x 升级到 Hadoop 2.x 的过程中,考虑到向下兼容的问题, NameNode 进程没有嵌入 ZKFC 中的代码,而另外开辟一个进程 ZKFC 。 再者由于 Hadoop 1.x 中没有 yarn 组件,Hadoop 2.x 中才出现的 yarn 组件, 所以 yarn 不用考虑向下兼容的问题,即 ResourceManager 进程就直接嵌入 ZKFC 中的代码,只运行一个进程。
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 Fayson的github: https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 Fayson在2018年的1月26日介绍了《CDH5.14和CM5.14的新功能》,今天6月15日,Cloudera正式发布了CDH5.15。从5.14到5.15,差不多等待了4个半月的时间,本次更新比以往晚了快2个月的时间。当然Cloudera在中间发布了CDH6的Beta版,参考《Cloudera En
Cloudera数据平台(CDP)私有云基础版是Cloudera数据平台的本地版本。该新产品结合了Cloudera Enterprise Data Hub和Hortonworks Data Platform Enterprise的优点以及整个堆栈中的新功能和增强功能。该统一分发是可扩展和可定制的平台,您可以在其中安全地运行多种类型的工作负载。
本文是续上一篇文章《0667-6.2.0-什么是Cloudera虚拟私有集群和SDX》
Hue是一个开源的Apache Hadoop UI系统,最早是由Cloudera Desktop演化而来,由Cloudera贡献给开源社区,它是基于Python Web框架Django实现的。通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据,运行MapReduce Job等等。很早以前就听说过Hue的便利与强大,一直没能亲自尝试使用,下面先通过官网给出的特性,通过翻译原文简单了解一下Hue所支持的功能特性集合:
本文档将介绍Cloudera Manager与CDH的卸载,并基于CDH使用parcels安装且未配置安全(AD/LDAP, Kerberos, Data Encryption)的集群,以下是本次测试环境,但不是本操作手册的硬限制:
如果您是CDH或HDP用户,则除了从CDH和HDP版本转移到CDP的功能之外,还可以查看CDP私有云基础版中可用的新功能。
上次写了CDH安装测试总结,由于那个博客篇幅略长, 但是主要集中在第二章,所以单独把CDH安装、卸载这块的内容拉出来在一篇记录一下。
Fayson在前面的文章《01-如何在Window Server 2012 R2搭建Acitve Directory域服务》、《02-Active Directory安装证书服务并配置》、《03-Active Directory的使用与验证》、《04-如何在RedHat7上配置OpenLDAP客户端及集成SSSD服务和集成SSH登录》、《05-如何为Hive集成AD认证》、《06-如何为Impala集成AD认证》和《07-如何为Hue集成AD认证》。本篇文章Fayson主要介绍Navigator集成Active Directory认证。
在前面的文章Fayson介绍过UDF的开发及使用《如何在Hive&Impala中使用UDF》,大多数企业在使用CDH集群时,考虑数据的安全性会在集群中启用Sentry服务,这样就会导致之前正常使用的UDF函数无法正常使用。本篇文章主要讲述如何在Sentry环境下使用自定义UDF函数。
前置文章参考《0585-Cloudera Enterprise 6.2.0发布》和《0589-Cloudera Manager6.2的新功能》
问题导读 1.文中哪些监控软件有邮件通知功能? 2.监控粒度更细如何自定义实现? 3.哪些监控软件可以自定义? 企业转型大数据,随着发展,可能会遇到很多的问题。该如何知道磁盘的使用情况;遇到问题,该如何及时的报警通知。该如何知道各个组件的运行情况,各自暂用内存、磁盘、网络使用等,都可能是我们想获取的。由于监控软件,粒度比较粗,想定制监控内容,该如何定制,获取某个进程的信息.由于每个企业需求不一样,经常有些初学者想了解或则提问,我们到底该用哪个监控软件好。这里整合、统计一些监控软件的一些用途,大家可以选择
Hue 保持查询线程处于活动状态,直到您关闭它。 有一种方法可以在 Hue 上设置超时。
安装CDH-6.2.1和初始化CDH服务所需的MySQL库 📷 一、安装CDH-6.2.1 yum install cloudera-manager-daemons cloudera-manager-agent cloudera-manager-server 二、初始化CDH服务所需的MySQL库 在MySQL中依次创建监控数据库、Hive数据库、Hue数据库 操作步骤 说明 1 启动数据库 mysql -uroot -p123456 2 初始化CDH在MySQL的数据库 cr
这篇博客文章是CDP中Cloudera的运营数据库(OpDB)系列文章的一部分。每篇文章都会详细介绍新功能。从该系列的开头开始,请参阅<CDP中的运营数据库>,<运营数据库系列之可访问性>。
本篇文章主要介绍如何使用解决CDP7.1.6的Hue中的Spark Notebook与Livy无法进行集成的问题。
Hue是一个开源的Apache Hadoop UI系统,由Cloudera Desktop演化而来,最后Cloudera公司将其贡献给Apache基金会的Hadoop社区,它是基于Python Web框架Django实现的。
Fayson在前面的文章《01-如何在Window Server 2012 R2搭建Acitve Directory域服务》、《02-Active Directory安装证书服务并配置》、《03-Active Directory的使用与验证》、《04-如何在RedHat7上配置OpenLDAP客户端及集成SSSD服务和集成SSH登录》、《05-如何为Hive集成AD认证》、《06-如何为Impala集成AD认证》、《07-如何为Hue集成AD认证》和《08-如何为Navigator集成Active Directory认证》。本篇文章Fayson主要介绍如何为CDSW集成Active Directory认证并指定的用户组分配访问权限。
Cloudera Manager提供了一个嵌入式PostgreSQL数据库服务,用于在创建集群时进行演示和概念验证部署。为了提醒用户此嵌入式数据库不适合生产,Cloudera Manager将显示横幅文本:“您正在非生产模式下运行Cloudera Manager,该模式使用嵌入式PostgreSQL数据库。切换到使用支持的外部数据库,然后再投入生产”。
重启之前将身份验证后端修改为desktop.auth.backend.AllowFirstUserDjangoBackend
领取专属 10元无门槛券
手把手带您无忧上云