Hadoop实操-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Hadoop实操

专注Apache Hadoop，CDH和HDP的实操，如安装部署，安全配置，排障过程，经验分享，性能

专栏成员

974

文章

2440304

阅读量

707

订阅数

0884-7.1.6-如何在CDP中集成Hive on HBase

hbase TDSQL MySQL 版 hive 编程算法 xml

1.文档编写目的本篇文章主要介绍如何在Hive中集成HBase，将HBase表映射成Hive表，实现在beeline中查询或者修改HBase的表数据。测试环境 1.集群是Cloudera Enterprise 7.3.1和Cloudera Runtime 7.1.6 2.系统均为RedHat 7.6 3.集群已启用 Kerberos 4.OpenLADP 2.4.44-23.el7_9 2.配置HBase与Hive集成 1.登录CM，下载HBase的配置文件，解压后打开hbase-site.xml 2

2022-08-26

4100

0842-7.1.6-如何使用authzmigrator 工具迁移Sentry权限到Ranger

xml 专用宿主机数据库 sql hive

1.CDP 的 CM 节点与 CDH 的元数据库节点没有网络限制，并且CDP 集群中的CM节点可以正常使用 sentry 元数据的用户密码登陆 CDH 的 sentry 元数据库

2021-07-05

1.9K1

0787-6.3.3-如何在本地集群安装Workload Experience Manager(WXM)

xml hbase TDSQL MySQL 版专用宿主机 hive

Workload XM是Cloudera现代数据平台以工作负载为中心的管理工具，可主动分析数据仓库、数据工程和机器学习环境的工作负载，提升应用程序性能，以及优化基础架构的容量配置。Workload XM与Cloudera Enterprise平台内的多种计算引擎进行交互，使用户能够全面了解各类性能指标，从而通过迭代模式进行自助服务。

2020-06-29

1.6K0

0764-HDP Spark 2.3.2访问外部Hive 2的配置及验证

spark xml html hive hadoop

数据质量平台基于定义好的数据稽核和数据质量规则，生成Spark SQL并提交运行到HDP 3.1.5集群的Spark 2.3.2上。Spark 通过以下方式之一获取某Hadoop集群上Hive表的数据：

2020-04-26

3.2K0

0757-6.3.3-如何配置impala自动同步HMS元数据

hive xml 数据库 sql 专用宿主机

在之前的文章中，Fayson 在《CDH6.3的新功能》中提到Impala 的 Automatic Invalidate/Refresh Metadata 新功能，本文主要介绍如何配置Impala基于事件自动同步HMS元数据。

2020-04-07

3K0

Dolphin Scheduler 1.2.0 部署参数分析

bash bash 指令大数据 xml

Apache Dolphin Scheduler是一个分布式易扩展的可视化DAG工作流任务调度系统。致力于解决数据处理流程中错综复杂的依赖关系，使调度系统在数据处理流程中开箱即用。

2020-03-10

3.9K0

0734-5.16.1-集群外客户端跨网段向Kerberos环境的Hadoop集群提交作业（续）

kerberos xml spark mapreduce yarn

在前面的文章《如何在集群外节点跨网段向HDFS写数据》和《外部客户端跨网段访问Hadoop集群方式(续)》中介绍了如何在集群外的客户端节点上访问Hadoop集群，本篇文章在前面文章的基础上基于Kerberos环境的CDH集群介绍，如何在集群外客户端跨网段向Kerberos环境的Hadoop集群提交MapReduce和Spark作业。

2019-12-16

2.1K0

0509-深入分析CDH的安装目录

专用宿主机 hadoop xml

如果采用Cloudera官方建议的安装方式，即Cloudera Manager使用rpm的方式安装，CDH使用Parcel方式安装，会在操作系统内产生多种多样的目录。CDH安装主要使用的目录包括/etc，/usr，/var，/tmp，/opt共5个目录，不同的目录下保存不同的子文件夹以及多种多样不同的文件内容主要涉及比如安装包，配置文件，执行命令脚本等。本文Fayson会详细讲解各个目录的作用以及建议规划的大小。

2019-11-28

1.9K0

0722-6.2.0-如何在RedHat7.2使用rpm安装CDH(无CM)

xml 大数据 hadoop hive 专用宿主机

在前面的文档中，介绍了在有CM和无CM两种情况下使用rpm方式安装CDH5.10.0，本文档将介绍如何在无CM的情况下使用rpm方式安装CDH6.2.0，与之前安装C5进行对比。

2019-11-06

6640

0719-5.10.0-如何在RedHat7.2使用rpm安装CDH(无CM)

xml 大数据 hadoop hive 专用宿主机

在进行CDH集群安装部署的时候，官方提供了三种方式，parcels、packages以及tarball，官方推荐使用parcels的方式进行安装，这也是最常用的安装方式，通常我们使用CM图形化界面的操作方式来安装CDH集群，本文档将介绍的是官方提供的另一种安装方式，使用packages安装，即rpm包的方式进行CDH集群的安装，并且本次安装是使用没有CM的方式进行安装。

2019-10-31

1.2K0

0703-6.2.0-使用Sentry为Solr进行赋权

kerberos lucene/solr 访问管理 xml 文件存储

在CDH中，Sentry服务是一个基于角色授权的管理组件，通常我们将Sentry用来管理Hive、Impala等组件，但是同样的，Sentry也可以为Solr提供基于角色的细粒度授权，在启用Sentry后，可以对各种操作进行权限上的限制，无论对数据的访问是来自命令行、浏览器还是Hue，都会基于授予的角色拥有的权限来进行管理和限制。要注意的是，启用Sentry对Solr进行权限控制前需要先启用Kerberos，本文档将介绍如何使用Sentry对Solr进行赋权。

2019-09-25

9070

0700-6.2.0-使用Solr7对多种格式文件建立全文索引

lucene/solr xml 专用宿主机 jar java

Solr是一个开源搜索平台，用于构建搜索应用程序。它建立在Lucene(全文搜索引擎)之上。Solr是企业级的，快速的和高度可扩展的。使用Solr构建的应用程序非常复杂，可提供高性能。它提供了层面搜索(就是统计)、命中醒目显示并且支持多种输出格式（包括XML/XSLT 和JSON等格式），并且提供了一个完善的功能管理界面，是一款非常优秀的全文搜索引擎。Solr7要求JDK为1.8以上。在Solr7版本中新增了跨核（solr 跨核概念，是建立在solr存储方式的基础上，因为使用solr前必须创建Core，Core即为solr的核，那不同的业务有可能在不同的核中，之前版本是不支持跨核搜索的）搜索功能。本文主要介绍如何在CDH6.2.0集群中使用Solr7对多种格式的文件建立全文索引。

2019-09-18

1.8K0

0625-6.2.0-Hello NiFi-第一个NiFi例子

大数据专用宿主机 xml

Fayson在前面的文章介绍了什么是NiFi，参考《0622-什么是Apache NiFi》。同时对如何在CDH中使用Parcel安装CFM做了介绍，参考《0623-6.2.0-如何在CDH中安装CFM》。也介绍过NiFi处理器以及实操，参考《0624-6.2.0-NiFi处理器介绍与实操》。本文会完成第一个NiFi例子，通过NiFi监控一个本地数据目录，定时将新文件put到HDFS。

2019-05-15

1.4K0

0564-6.1.0-HDFS超级用户(Superuser)和HDFS管理员(Administrator)的区别

大数据访问管理 xml hadoop access

在前面的文章《0550-6.1-如何将普通用户增加到HDFS的超级用户组supergroup》中Fayson介绍过如何将普通用户设置为HDFS的超级用户，从而可以让普通用户也可以执行如dfsadmin相关的功能，但对于HDFS服务来说还有一个管理员用户(dfs.cluster.administrators)，无论是超级用户还是管理员用户默认都是hdfs，本文Fayson主要介绍如何将普通用户设置为HDFS的管理员用户。

2019-04-29

5.4K0

如何使用Oozie API接口向Kerberos环境的CDH集群提交Shell作业

api kerberos shell 专用宿主机 xml

前面Fayson介绍了使用Oozie API向Kerberos和非Kerberos集群提交Spark和Java作业，本篇文章主要介绍如何使用Oozie Client API向Kerberos环境的CDH集群提交Shell Action工作流。

2018-03-30

1.7K0

如何使用Oozie API接口向Kerberos集群提交Java程序

java xml kerberos api github

在CDH集群外的节点向集群提交MapReduce作业的方式有多种，前面Fayson介绍了《如何跨平台在本地开发环境提交MapReduce作业到CDH集群》和《如何使用Oozie API接口向非Kerberos环境的CDH集群提交Java作业》，本篇文章主要介绍如何在Kerberos集群使用Oozie API接口向集群提交Java作业。

2018-03-30

2.6K0

如何使用Oozie API接口向Kerberos环境的CDH集群提交Spark2作业

专用宿主机 kerberos api xml spark

前面Fayson介绍了多种方式在CDH集群外的节点向集群提交Spark作业，文章中均采用Spark1来做为示例，本篇文章主要介绍如何是用Oozie API向Kerberos环境的CDH集群提交Spark2作业。

2018-03-30

3.3K0

如何使用Oozie API接口向非Kerberos环境的CDH集群提交Spark作业

专用宿主机 spark kerberos api xml

在CDH集群外的节点向集群提交Spark作业的方式有多种，前面Fayson介绍了Livy相关的文章主要描述如何在集群外节点通过RESTful API接口向CDH集群提交Spark作业，本篇文章我们借助于oozie-client的API接口向非Kerberos集群提交Spark作业。

2018-03-30

1.4K0

如何使用Oozie API接口向非Kerberos环境的CDH集群提交Java作业

java xml api hadoop github

前面Fayson介绍了《如何使用Oozie API接口向非Kerberos环境的CDH集群提交Spark作业》，本篇文章主要介绍如何使用Oozie Client API向非Kerberos环境的CDH集群提交Java作业。

2018-03-30

1.1K0

如何使用Oozie API接口向非Kerberos环境的CDH集群提交Shell工作流

xml api shell 专用宿主机 kerberos

前面Fayson介绍了《如何使用Oozie API接口向非Kerberos环境的CDH集群提交Spark作业》和《如何使用Oozie API接口向非Kerberos环境的CDH集群提交Java作业》，本篇文章主要介绍如何使用Oozie Client API向非Kerberos环境的CDH集群提交Shell Action工作流。

2018-03-30

1K0

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态