从入门到精通-Fayson带你玩转CDH

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。

Fayson的github:https://github.com/fayson/cdhproject

提示:代码块部分可以左右滑动查看噢

下图可以使用手机打开放大查看,高清原图下载地址:

https://github.com/fayson/cdhproject/blob/master/从入门到精通-Fayson带你玩转CDH.png

Fayson会持续的写作,本文会定期更新。

以下所有文章均为超链接,可以直接点击文章名跳转。

1.规划设计

1.1.on-premise部署规划

0001-《CDH网络要求(Lenovo参考架构)》

0062-《如何为Hadoop集群选择正确的硬件》

0158-《如何给Hadoop集群划分角色》

1.2.on private cloud部署规划

《如何在VMware中部署Hadoop》

《如何在OpenStack中部署Hadoop》

Fayson正在努力写...

1.3.on public cloud部署规划

Fayson暂无计划写。

2.安装/升级/卸载

2.1.安装

0002-《CENTOS7.2安装CDH5.10和Kudu1.2(一)》

0002-《CENTOS7.2安装CDH5.10和Kudu1.2(二)》

0024-《CENTOS6.5安装CDH5.12.1(一)》

0025-《CENTOS6.5安装CDH5.12.1(二)》

0030-《如何在CDH中安装Kudu&Spark2&Kafka》

0072-《CDH安装前置准备》

0073-《CentOS6.5安装CDH5.13》

0167-《如何在Redhat7.3安装CDH5.14》

2.2.一键安装

计划中...

2.3.升级

0009-《如何升级Cloudera Manager和CDH》

0095-《如何通过CM升级Kafka0.11及Spark2.2》

2.4.迁移

0007-《如何迁移Cloudera Manager节点》

2.5.卸载

0008-《如何卸载CDH(附一键卸载github源码)》

3.Cloudera Manager

3.1.产品介绍

0053-《CDH5.13和CM5.13的新功能》

0160-《CDH5.14和CM5.14的新功能》

3.2.扩容

0080-《如何在CDH集群中加入异构设备》

0089-《如何给CDH集群增加Gateway节点》

0110-《如何给Kerberos环境下的CDH集群添加Gateway节点》

0112-《如何在非Kerberos环境下对CDH进行扩容》

0126-《如何为Kerberos环境的CDH集群在线扩容数据节点》

3.3.减容

0115-《如何使用Cloudera Manager在线为集群减容》

3.4.使用

0003-《如何在CDH中使用LZO压缩》

0036-《如何通过CM API优雅的获取元数据库密码》

0040-《如何重置Cloudera Manager的admin密码》

0088-《如何将CDH集群JAVA升级至JDK8》

0090-《如何将CDH从企业版降级为免费版》

0091-《如何将Kerberos环境下CDH集群JAVA升级至JDK8》

0096-《如何使用Cloudera Manager启用HDFS的HA》

0098-《如何使用Cloudera Manager禁用HDFS HA》

0100-《如何使用Cloudera Manager启用YARN的HA》

0104-《如何使用Cloudera Manager禁用YARN的HA》

0117-《如何修改CDH集群的DataNoe节点HOSTNAME》

0163-《如何修改CDH集群的IP地址》

3.5.异常分析

0023-《HOSTS配置问题导致集群异常故障分析》

0034-《CM启动报InnoDB engine not found分析》

0044-《CDH高可用集群误删NameNode故障恢复》

0086-《Cloudera Manager Server服务在RedHat7状态显示异常分析》

4.Navigator

4.1.Navigator安装

计划中...

4.2.Navigator使用

计划中...

5.数据科学

5.1.基础环境

0012-《什么是数据科学工作台?为什么数据科学家需要它?》

0038-《如何在CDH集群安装Anaconda&搭建Python私有源》

0049-《什么是sparklyr》

0050-《如何在Redhat中配置R环境》

0051-《如何在Redhat中安装R的包及搭建R的私有源》

0052-《如何使用R连接Hive与Impala》

0057-《PySpark数据类型转换异常分析》

0118-《如何在CDH集群上部署Python3运行环境及运行Python作业》

5.2.CDSW

5.2.1.安装

0037-《如何在Windows Server2008搭建DNS服务并配置泛域名解析》

0047-《如何利用Dnsmasq构建小型集群的本地DNS服务器》

0077-《如何在Windows Server2012搭建DNS服务并配置泛域名解析》

0078-《如何在CDH5.13中安装CDSW1.2》

5.2.2.产品介绍

0063-《CDSW1.2的新功能》

0165-《CDSW1.3的新功能》

5.2.3.使用

0042-《如何在CDSW中使用R绘制直方图》

0054-《如何使用CDSW在CDH集群通过sparklyr提交R的Spark作业》

0055-《如何使用CDSW在CDH中分布式运行所有R代码》

0059-《如何基于CDSW基础镜像定制Docker》

0151-《如何使用Nginx实现CDSW的跨网段访问》

0156-《如何修改CDSW服务的DNS和HOSTNAME》

0159-《如何在CDSW上运行TensorFlow》

0161-《如何在CDSW中定制Docker镜像》

6.元数据库

6.1.MySQL

0029-《如何实现CDH元数据库MySQL的主备》

0058-《如何在CDH集群的非元数据库节点安装MySQL5.7.12》

0134-《如何实现CDH元数据库MySQL的主主互备》

0135-《如何实现CDH元数据库MySQL的高可用》

0136-《如何修改CM及CDH元数据库配置》

7.Hadoop组件

7.1.Hive

0004-《Hive表字段Comment中文乱码》

0010-《Hive多分隔符支持示例》

0011-《如何在Hive&Impala中使用UDF》

0014-《Hive中的Timestamp类型日期与Impala中显示不一致分析》

0026-《Hive使用十六进制分隔符异常分析》

0043-《如何在CDH中使用HPLSQL实现存储过程》

0083-《如何使用HAProxy实现HiveServer2负载均衡》

0084-《如何使用Zookeeper实现HiveServer2的HA》

0099-《如何使用java代码通过JDBC连接Hive(附github源码)》

0102-《Hive中的Timestamp类型日期与Impala中显示不一致分析(补充)》

0144-《Hive Load本地数据文件异常分析》

0146-《如何向Hive表加载数据》

0149-《如何使用java代码通过JDBC访问Sentry环境下的Hive》

7.2.Impala

0039-《如何使用Python Impyla客户端连接Hive和Impala》

0070-《如何使用Beeline连接Impala》

0081-《如何使用Nginx实现Impala负载均衡》

0082-《如何使用HAProxy实现Impala的负载均衡》

0097-《如何使用java代码通过JDBC连接Impala(附Github源码)》

0113-《Impala升级为Apache顶级项目》

0124-《如何使用HAProxy实现Kerberos环境下的Impala负载均衡》

0131-《如何在Kerberos的Linux上安装及配置Impala的ODBC驱动》

0147-《如何使用Java访问集成OpenLDAP并启用Sentry的Impala和Hive》

0154-《如何在Impala中实现拉链表》

0162-《使用Java代码通过JDBC连接只启用Sentry的Impala异常分析》

7.3.HBase

0045-《Cloudera Labs中的Phoenix》

0066-《如何使用Java连接Kerberos的HBase》

0071-《如何在CDH中使用HBase快照》

7.4.Hue

0056-《如何重置Hue用户密码》

0152-《如何在Hue中配置已启用SSL的HttpFS服务》

0153-《Hue禁止用户下载数据问题分析》

0164-《如何在Hue中配置HiveServer2的负载均衡》

0168-《如何在Hue中配置Impala的负载均衡》

7.5.Sqoop

0121-《Sqoop抽取Hive Parquet表数据到MySQL异常分析》

7.6.Solr

0103-《如何使用Java代码访问CDH的Solr服务》

0114-《如何使用Hue通过数据文件创建Collections》

7.7.Oozie

0060-《如何使用Hue创建Spark1和Spark2的Oozie工作流》

0061-《如何使用Hue创建Spark2的Oozie工作流(补充)》

0075-《如何在Hue中创建Ssh的Oozie工作流》

0119-《如何使用Hue上创建一个完整Oozie工作流》

0120-《Hue中使用Oozie创建Ssh工作流时sudo命令执行失败问题分析》

0123-《Hue中使用Oozie创建Shell工作流在脚本中切换不同用户》

0132-《使用Hue创建Ssh的Oozie工作流时重定向输出日志报错分析》

0133-《在Kerberos环境使用Hue通过Oozie执行Sqoop作业报错异常分析》

7.8.HDFS

0068-《如何在CDH集群使用HDFS快照》

0105-《如何使用Java代码访问HDFS.docx》

0125-《如何使用Java代码访问HDFS.docx》

0130-《如何将HDFS文件系统挂载到Linux本地文件系统》

0148-《如何为HttpFS服务配置SSL》

7.9.Kudu

0020-《使用JDBC向Kudu表插入中文字符-双引号的秘密》

0021-《使用JDBC向Kudu表插入中文字符-cast的秘密》

0085-《如何在Kudu1.5中使用Sentry授权》

0128-《如何迁移Kudu1.2的WAL和Data目录》

7.10.Kafka

0022-《如何永久删除Kafka的Topic》

0065-《如何通过Cloudera Manager为Kafka启用Kerberos及使用》

0069-《如何使用Java连接Kerberos的Kafka》

7.11.YARN

0019-《Yarn的JobHistory目录权限问题导致MapReduce作业异常》

0107-《如何跨平台在本地开发环境提交MapReduce作业到CDH集群》

0108-《如何使用hadoop命令向CDH集群提交MapReduce作业》

0109-《如何使用java命令从非集群节点向CDH集群提交MapReduce作业》

0129-《如何在HDFS上查看YARN历史作业运行日志》

7.12.Spark

0016-《Avro序列化&反序列化和Spark读取Avro数据》

0017-《Spark的HistoryServer不能查看到所有历史作业分析》

0041-《如何使用Intellij搭建Spark开发环境》

0064-《如何通过Cloudera Manager配置Spark1和Spark2的运行环境》

0079-《如何在CDH中启用Spark Thrift》

7.13.Zookeeper

0006-《Zookeeper指标分析》

0101-《Kerberos环境下删除ZooKeeper服务注册信息问题分析》

8.多租户

8.1.静态资源管理

计划中...

8.2.动态资源管理/YARN

计划中...

8.3.动态资源管理/Impala

计划中...

8.4.安全

8.4.1.认证

8.4.1.1.Kerberos

0005-《Windows Kerberos客户端配置并访问CDH》

0027-《如何在CDH集群启用Kerberos》

0087-《如何配置Kerberos服务的高可用》

8.4.1.2.OpenLDAP

0137-《1.如何在CentOS6.5安装OpenLDAP并配置客户端》

0138-《2.OpenLDAP集成SSH登录并使用SSSD同步用户》

0139-《3.如何实现OpenLDAP的主主同步》

0140-《4. 如何为Hive配置OpenLDAP认证》

0141-《5.如何为Impala配置OpenLDAP认证》

0142-《6.如何为Hue配置OpenLDAP认证》

0150-《7.如何在OpenLDAP中实现将一个用户添加到多个组》

0166-《如何集成OpenLDAP+Sentry.docx》

8.4.1.3.AD

计划中...

8.4.2.认证

8.4.2.1.授权

0015-《如何使用Sentry管理Hive外部表权限》

0028-《如何在CDH未启用认证的情况下安装及使用Sentry》

0031-《如何在CDH启用Kerberos的情况下安装及使用Sentry(一)》

0032-《如何在CDH启用Kerberos的情况下安装及使用Sentry(二)》

0033-《如何在Hue中使用Sentry》

0035-《如何使用Sentry管理Hive外部表(补充)》

0067-《Sentry赋予server1权限给hive以外用户时ACL不同步问题分析》

0074-《如何在启用Sentry的CDH集群中使用UDF》

0155-《如何查看集成Sentry后Hive作业的真实用户》

8.4.2.2.加密

0092-《什么是HDFS透明加密》

0111-《如何在CDH实现HDFS透明加密》

8.4.2.3.审计

计划中...

8.5.集群资源使用报告

0157-《如何在CM中启用YARN的使用率报告》

9.灾备

9.1.HDFS

0013-《如何在Kerberos与非Kerberos的CDH集群BDR不可用时复制数据》

9.2.HBase

0076-《如何使用HBase快照实现跨集群全量与增量数据迁移》

10.运维

10.1.监控

计划中...

10.2.告警

计划中...

11.外部工具集成

11.1.Tableau

0093-《如何安装Tableau并连接CDH的Hive/Impala》

0094-《如何通过Tableau连接Kerberos的Hive/Impala》

12.应用场景

12.1.实时

0116-《如何在Kerberos环境使用Flume采集Kafka数据并写入HDFS》

0122-《非Kerberos环境下Kafka数据到Flume进Hive表》

0145-《如何使用Spark Streaming读取HBase的数据并写入到HDFS》

提示:代码块部分可以左右滑动查看噢

为天地立心,为生民立命,为往圣继绝学,为万世开太平。

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。

打赏专用二维码

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180205G00W5M00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券