首页
学习
活动
专区
工具
TVP
发布

Hadoop实操

专注Apache Hadoop,CDH和HDP的实操,如安装部署,安全配置,排障过程,经验分享,性能
专栏成员
974
文章
2437298
阅读量
707
订阅数
0897-7.1.7-CDP中如何通过Ranger为UDF授权
1.文档编写目的 本片文档主要讲述了在Ranger中对Hive的UDF函数进行授权的方式。分别测试了对HDFS上和本地的UDF的授权。 测试环境 CDP7.1.7,集群启用了Kerberos 使用一个普通用户liuyq测试,该用户有udf_test库的权限 2.HDFS上的UDF JAR授权 2.1.准备工作 1.将UDF的 jar包上传至HDFS的/user/hive/udf目录下,用于测试HDFS上的UDF授权 hdfs dfs -mkdir /user/hive/udfhdfs dfs -put
Fayson
2022-10-10
1.5K0
0869-7.1.7-如何在CDP中使用Hive Bulkload批量导入数据到HBase
1.文档编写目的 在遇到将Hive中的数据同步到HBase时,一般都是通过在Hive中创建映射HBase的表,然后通过insert的方式来实现,在数据量小的时候,往往还能接受,但是如果是大批量数据,除了同步时间较长,往往还会对线上的HBase服务造成影响,因为这种方式底层还是调用的HBase的put API来实现的。为了提高HBase的数据写入,一般都会考虑使用bulkload的方式,而bulkload其实也有很多种选择: 1.编写MapReduce/Spark程序生成hfile文件,然后通过HBase命令
Fayson
2022-03-04
1.1K0
0797-使用HDP或CDP的Atlas采集CDH6的元数据和血缘
基于以上框架,使用HDP或CDP的Atlas采集CDH6的元数据和血缘,理论上只需要将相应的Atlas Hook正确部署到CDH6对应的服务上即可。本文以采集Hive元数据和血缘为例,描述如何部署Atlas Hive Hook到CDH6上。
Fayson
2020-08-13
2.7K1
0788-7.1.1-CDP安装SMM服务启动异常
在CDP7.1.1的安装过程中,添加SMM组件后,配置完数据库信息,启动服务过程中,提示启动Streams Messaging Manager Rest Admin Server角色失败。如下图:
Fayson
2020-07-14
8670
0755-如何使用Cloudera Edge Management
Cloudera Data Flow(CDF)作为Cloudera一个独立的产品单元,围绕着实时数据采集,实时数据处理和实时数据分析有多个不同的功能模块,如下图所示:
Fayson
2020-03-25
1.6K0
Impala元数据缓存的生命周期
上一篇文章《Impala元数据简介》介绍了Impala缓存的元数据(Metadata/Catalog)的具体内容,本文将介绍这些元数据缓存的生命周期,即它们是怎么初始化的,怎么加载的以及怎么失效的。
Fayson
2020-03-10
3.1K0
Flink 1.10 新特性研究
Flink 1.10 release 文档描述了一些比较重要的点,比如配置、操作、依赖、1.9 版本和 1.10 版本之间的区别,如果你准备将 Flink 升级到 1.10 版本,建议仔细看完下面的内容。
Fayson
2020-02-26
1.6K0
0497-如何将Kerberos的CDH6.1从Oracle JDK 1.8迁移至OpenJDK 1.8
受前段时间Oracle官宣的从2019年1月之后将不再提供免费的的JDK商业版本的影响,Cloudera开始开发基于OpenJDK的Hadoop平台,参考Fayson之前的文章《Java收费,Hadoop怎么办?》。今年11月29日,Cloudera才发布不久的CDH5.16.1正式提供OpenJDK的支持,参考Fayson之前的文章《0466-CDH5.16.1和CM5.16.1的新功能》和《0486-如何将Kerberos的CDH5.16.1从Oracle JDK 1.8迁移至OpenJDK 1.8》。同时12月19日发布的《0487-CDH6.1的新功能》和《0488-Cloudera Manager6.1的新功能》,也开始支持OpenJDK。本文Fayson主要介绍如何将CDH6.1从Oracle JDK迁移到OpenJDK。
Fayson
2019-11-28
1.1K0
0549-6.1-如何在SUSE12 SP3安装CDH6.1
因节点之间通过root用户相互ssh的权限被关闭,所以不能使用控制台自动化安装agent,需要手动到所有节点安装agent,并修改相关配置。
Fayson
2019-11-28
8220
0553-6.1.0-如何使用Java代码同时访问安全和非安全CDH集群
做Hadoop应用开发的过程中,用户会有这样的需求,在同一个Java应用中同时访问安全和非安装的CDH集群。同一个Java应用即同一个进程同一个JVM,由于一些全局的变量可能会导致无法同时访问安全和非安全的集群。本篇文章Fayson介绍下如何使用Java代码同时访问安全和非安全的CDH集群。
Fayson
2019-11-28
1.6K0
0554-6.1.0-同一java进程中同时访问认证和非认证集群的问题(续)
Fayson在前面的文章《0553-6.1.0-如何使用Java代码同时访问安全和非安全CDH集群》,本篇文章介绍在同一Java进程中,通过多线程同时访问Kerberos认证集群和非认证集群时出现的一些异常及解决方法。
Fayson
2019-11-28
2.1K0
0718-6.3.0-CDH6.3的新功能
你现在可以在Cloudera Enterprise 6.3中使用OpenJDK 11,在集群中安装OpenJDK 11时,默认使用G1GC为CDH大多数服务作为垃圾回收机制,这可能需要进行调优以避免内存过量使用。
Fayson
2019-10-25
2.2K1
0717-6.3.0-Cloudera Manager 6.3的新功能
你现在可以在Cloudera Enterprise 6.3中使用OpenJDK 11,在集群中安装OpenJDK 11时,默认使用G1GC为CDH大多数服务作为垃圾回收机制,这可能需要进行调优以避免内存过量使用。
Fayson
2019-10-25
1.1K0
0700-6.2.0-使用Solr7对多种格式文件建立全文索引
Solr是一个开源搜索平台,用于构建搜索应用程序。它建立在Lucene(全文搜索引擎)之上。Solr是企业级的,快速的和高度可扩展的。使用Solr构建的应用程序非常复杂,可提供高性能 。它提供了层面搜索(就是统计)、命中醒目显示并且支持多种输出格式(包括XML/XSLT 和JSON等格式),并且提供了一个完善的功能管理界面,是一款非常优秀的全文搜索引擎。Solr7要求JDK为1.8以上。在Solr7版本中新增了跨核(solr 跨核概念,是建立在solr存储方式的基础上,因为使用solr前必须创建Core,Core即为solr的核,那不同的业务有可能在不同的核中,之前版本是不支持跨核搜索的)搜索功能。本文主要介绍如何在CDH6.2.0集群中使用Solr7对多种格式的文件建立全文索引。
Fayson
2019-09-18
1.8K0
0686-6.2.0-如何为CDH集群的JDK安装JCE策略文件
默认情况下, CentOS和RedHat5.5或更高的版本中,对Kerberos 票证使用AES-256加密,因此必须在集群所有节点的JDK中安装Java Cryptography Extension(JCE)无限制强度加密策略文件。在安装JCE文件的Kerberos集群中,服务启动时会报“java.security.InvalidKeyException: Illegal key size”异常。本篇文章Fayson主要介绍使用不同方式安装JCE加密策略文件以及如何禁用Kerberos的AES-256加密。
Fayson
2019-08-12
1.2K0
SQL on Hadoop在快手大数据平台的实践与优化
SQL on Hadoop,顾名思义它是基于Hadoop生态的一个SQL引擎架构,我们其实常常听到Hive、SparkSQL、Presto、Impala架构,接下来,我会简单的描述一下常用的架构情况。
Fayson
2019-07-22
1.7K0
0670-6.2.0-如何获取CDSW中每个Session输出的LiveLog日志
一些用户为了方便管理和审计,需要将CDSW上所有用户启动Session时运行代码输出的信息获取到。那接下来Fayson主要介绍如何通过获取用户每个Session代码运行输出的详细LiveLog日志。
Fayson
2019-07-17
8020
0650-6.2.0-通过UDF实现Hive&Impala的中文拼音排序
由上面两张图可以看出,在Hive和Impala中排序都失败了,没有按照期望中的中文对应的拼音进行排序。
Fayson
2019-06-17
1.9K0
0616-6.2.0-如何基于FTP的方式访问CDH中HDFS文件系统(续)
Fayson在前面的文章《0598-6.2.0-如何基于FTP的方式访问CDH中HDFS文件系统》介绍了使用Maven编译hdfs-over-ftp并部署实现通过FTP的方式访问CDH集群。前面文章需要在有网络和Maven的环境下启动服务,为了满足离线环境下使用FTP服务访问CDH,本篇文章主要介绍如何将hdfs-over-ftp工程打包为一个可离线部署的服务。
Fayson
2019-05-14
1.4K0
0590-6.1.0-C6升级过程中Oozie共享库的问题分析
升级CDH6.1至CDH6.2的过程中,当升级过程执行到安装Oozie共享库时,在成功创建Oozie ShareLib根目录之后上载Oozei共享库的过程中报错了,报错信息如下:
Fayson
2019-04-28
2K0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档