首页
学习
活动
专区
工具
TVP
发布

Hadoop实操

专注Apache Hadoop,CDH和HDP的实操,如安装部署,安全配置,排障过程,经验分享,性能
专栏作者
970
文章
2355772
阅读量
704
订阅数
0898-7.1.7-如何在CDP中为Kafka集成OpenLDAP
3.进入CM>Kafka>配置> Inter Broker Protocol,选择SASL_PLAINTEXT
Fayson
2022-12-14
8440
0893-7.1.6-如何为CDP集群配置LDAP高可用并集成测试
1.文档编写目的 本篇文章主要介绍如何在CDP 7.1.6集群中配置LDAP的高可用。 文档概述 1.如何在CDP7集群配置LDAP高可用 2.验证LDAP的高可用 3.总结 测试环境 1.操作系统Redhat7.2 2.CDP7.1.6 3.使用root用户操作 2.查看主备节点的DN信息 1.主节点DN信息 [root@cdh1 ~]# ldapsearch -b "dc=macro,dc=com" -D "cn=Manager,dc=macro,dc=com" -W |grep dn 2.备节点D
Fayson
2022-09-14
1.2K0
你问我答3 - 关于Hive CLI与Beeline
请教一下,这个是cdp测试过程中,我这边想把hive命令默认client改为原来的hive cli,修改了use_beeline_for_hive_cli为false后,命令输入hive报了java.lang.NoClassDefFoundError: org/apache/tez/dag/api/SessionNotRunning,我尝试过将tez的jar包复制到hive 的lib目录下和修改hive-site.xml中的hive.server2.active.passive.ha.enable为fals
Fayson
2022-08-26
1.2K0
0883-7.1.6-Queue Manager控制单个用户的超配资源
1.文档编写目的 在CDP集群中Yarn的资源池调度策略由CDH版本的FairScheduler转变为CapacityScheduler。在集群的使用过程中,如何更好的给各个租户分配集群资源?如何确保集群的资源可以更合理的使用? 在集群资源空闲时,如果租户还按照分配的资源大小运行作业,则会导致集群的资源闲置浪费,本篇文章主要通过介绍通过调整资源池的User Limit Factor参数来使租户可以超用分配的资源。 文档概述 1.测试环境说明 2.测试方案 3.User Limit Factory场景测试 4
Fayson
2022-07-27
6110
0866-5.16.2-DolphinScheduler集群高可用测试
Apache DolphinScheduler(简称DS)是一个分布式去中心化,易扩展的可视化DAG工作流任务调度平台。在生产环境中需要确保调度平台的稳定可靠性及任务负载均衡,本篇文档主要针对DS集群的高可用及稳定性进行测试验证。
Fayson
2021-11-12
1.2K0
0863-如何使用Docker在Windows下快速构建Impala4.0环境
历经15个月,Apache Impala 4.0终于发布了!本次发布一共包含700多个JIRA,新增了很多特性,包括但不限于:
Fayson
2021-10-11
1.6K0
0854-7.1.6-如何在安全的CDP集群中安装SMM并使用
本篇文章主要介绍如何在CDP7.1.6集群中配置SMM(Streams Messaging Manager)服务。它为Kafka集群提供了一个监控仪表板。在CDH6中安装该服务需要部署parcel包和安装节点软件包管理器,而在CDP7中则不需要上述操作,能够直接在CM界面中进行添加服务操作。
Fayson
2021-07-05
1.1K0
0841-7.1.6-Aqua Data Studio工具安装及访问安全环境的Hive和Impala
Aqua Data Studio是一款完整IDE的数据库开发工具,它提供3种主要功能:数据查询与管理工具。比对数据工具与源控制和文件系统的整合工具。帮助你创建,编辑和执行 SQL 的管理工具脚本编写,以及浏览和修改数据库组织。对所有主要关系的数据库提供一个一致的界面。这准许数据库主管或者开发者从一个应用程序同时地处理多个的任务。本篇文章主要介绍如何安装 Aqua Data Studio及访问安全环境下的Hive和Impala。
Fayson
2021-07-05
1K0
0840-6.3.4-Aqua Data Studio工具安装及访问安全环境的Hive和Impala
Aqua Data Studio是一款完整IDE的数据库开发工具,它提供3种主要功能:数据查询与管理工具。比对数据工具与源控制和文件系统的整合工具。帮助你创建,编辑和执行 SQL 的管理工具脚本编写,以及浏览和修改数据库组织。对所有主要关系的数据库提供一个一致的界面。这准许数据库主管或者开发者从一个应用程序同时地处理多个的任务。本篇文章主要介绍如何安装 Aqua Data Studio及访问安全环境下的Hive和Impala。
Fayson
2021-07-05
1.1K0
0835-5.16.2-如何按需加载Python依赖包到Spark集群
在开发Pyspark代码时,经常会用到Python的依赖包。在PySpark的分布式运行的环境下,要确保所有节点均存在我们用到的Packages,本篇文章主要介绍如何将我们需要的Package依赖包加载到我们的运行环境中,而非将全量的Package包加载到Pyspark运行环境中,本篇文章以xgboost1.0.2包为例来介绍。
Fayson
2021-04-30
3K0
0817-6.3.3-Impala执行DDL慢问题分析报告
随着集群使用时间的增长,在Impala中执行DDL语句消耗的时间越来越长,排查该问题时进行测试,create一张表的耗时达到4-5s,drop一张表的时间5-10s,该问题影响了Impala的日常跑批工作。
Fayson
2020-11-19
1.6K0
0805-CDH5中的Parquet迁移至CDP中兼容性验证
因为CDH5中的Parquet版本为1.5,而CDP7中的Parquet版本为1.10,我们在从CDH5升级到CDP7后,无论是原地升级还是迁移升级,都可能会碰到一个问题,以前在CDH5中使用Hive/Impala生成的低版本Parquet文件还能继续在CDP7中使用吗。本文主要描述将CDH5中的Parquet文件传输到CDP7环境中,使用CDP7中的Hive,Impala,Spark确认能否继续访问这些文件。
Fayson
2020-08-20
6490
0782-5.16.2-Oozie配置Sqoop定时任务
1.进入Hue界面,选择”Workflows” => “Editors”=> “Workflows”
Fayson
2020-06-17
9340
0769-7.0.3-如何在Kerberos环境下用Ranger完成对Hive的行过滤及列脱敏
本篇文章主要介绍如何在CDP DC7.0.3集群中使用Ranger在Hive中进行行过滤及列脱敏,行级别的过滤相当于一个强制性的where子句,例如在订单表中,员工仅被允许查看自己所在地区的订单,其他区域的无法查看。列脱敏可以对某些敏感信息的列进行数据屏蔽,例如身份证号可以屏蔽中间的八位。
Fayson
2020-05-24
1.7K0
0768-7.0.3-如何在Kerberos环境下用Ranger给Hive授权
本篇文章主要介绍如何在CDP DC7.0.3集群中使用Ranger给Hive授权,包括对Hive中的数据库、表、列的授权。
Fayson
2020-05-24
1.6K0
Impala查询卡顿分析案例
作者简介:黄权隆,Cloudera研发工程师,Apache Impala PMC & Comitter,毕业于北大计算机系网络所数据库实验室,曾就职于Hulu大数据基础架构团队,负责大数据系统的维护和二次开发,主要负责Impala和HBase方向。现就职于Cloudera,专注于Impala开发。
Fayson
2019-11-06
2.9K0
0706-6.2.0-Windows Kerberos客户端配置并访问CDH
在使用CDH的过程中,集群启用了Kerberos认证后,集群中的一些组件的Web UI也会启用Kerberos认证,例如HDFS、Yarn、Hive等组件,此时如果在Windows上对这些页面进行访问,是无法正常访问的,需要在Windows本地安装上Kerberos客户端,并进行配置后才能够访问这些需要Kerberos认证的Web UI,本文档将介绍如何在Windows 10安装Kerberos客户端并配置FireFox浏览器访问CDH集群组件的Web UI。
Fayson
2019-09-30
2K0
0688-6.2.0-特殊用户名在Hue和YARN中测试
本文测试OpenLDAP中特殊用户名(test.user_357)能否正常使用,和使用principal名为test.user_357的Kerberos账号能否正确提交到对应的资源池队列。
Fayson
2019-08-21
7880
0662-6.2.0-CDSW集成Active Directory后登录异常分析
Fayson在前面的文章《09-如何为CDSW集成Active Directory认证》,在CDSW集成AD后,有部分用户登录时提示“Email address is invalid.”
Fayson
2019-07-05
5950
0659-6.2.0-Hive处理JSON格式数据
在使用Hive处理数据的过程中会遇到各种各样的数据源,其中较为常见的是JSON格式的数据,Hive无法直接处理JSON格式的数据,需要依赖于JSONSerDe。SerDe即序列化和反序列化,JSONSerDe基本思想是使用json.org的JSON库,使用这个库可以读取一行数据并解析为JSONObject,然后解析到Hive中的数据行。因此JSON文件的每行必须是一个完整的JSON,一个JSON不能跨越多行。本文档介绍的是JsonSerDe,该库的地址为:https://github.com/rcongiu/Hive-JSON-Serde。它的特点如下:
Fayson
2019-06-26
4.1K1
点击加载更多
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档