Hadoop实操-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Hadoop实操

专注Apache Hadoop，CDH和HDP的实操，如安装部署，安全配置，排障过程，经验分享，性能

专栏成员

974

文章

2438425

阅读量

707

订阅数

0845-7.1.6-集群外配置Kerberos环境的Gateway节点

hadoop 专用宿主机 kerberos linux flink

在使用CDH/CDP集群过程中会遇到在集群外的节点使用Hadoop命令访问集群（如：HDFS、HBASE、HIVE、SPARK、YARN）等命令操作，这时又不想将该节点添加到CDH/CDP集群中管理，本篇文章主要介绍如何在集群外节点不通过CM部署一个Gateway节点。

2021-07-05

9480

0816-CDP Hive3升级说明

spark 专用宿主机大数据 linux hive

CDH5中的Hive版本是1.1，而CDP7中的Hive版本为3。Hive3相对Hive1更新特别多，比如支持全新的ACID v2机制，并且底层使用Tez和内存进行查询，相比MR的方式性能提升超过10倍，支持物化视图以及语法使用扩充等等。因为是一次大版本的更新，对于老的CDH5用户升级到CDP7，会需要对于Hive3有足够的了解与准备，才能保证升级成功。本文主要介绍Hive3的新特性，架构，以及语法改造说明。

2020-11-03

3.1K1

0809-7.1.3-Ranger页面功能介绍

apache hive linux access hbase

《0801-什么是Apache Ranger - 4 - Resource vs Tag Based Policies》

2020-09-04

1.8K0

0784-CDP安全管理工具介绍

apache 网站 linux 访问管理数据库

本文档描述如何使用多种安全管理工具来保护CDP环境。重点介绍安全管理工具与CDP环境之间的集成点，但不会探讨这些工具的核心功能。

2020-06-19

1.8K0

0766-6.3.3-如何实现Kafka跨网络访问

kafka linux 编程算法 tcp/ip hadoop

在使用Kafka时会遇到内外网的场景，即Kafka集群使用内网搭建，在内网和外网均有客户端需要消费Kafka的消息，同时在集群内由于使用内网环境通信，因此不必太过考虑通信的加密，所以在内网使用非安全的协议也能够通信，但对于外网环境出于安全考虑，只允许通过安全的协议访问Kafka集群，本文档介绍如何基于双网卡来配置Kafka。

2020-05-16

3.4K0

0508-如何使用Hadoop的Archive处理小文件

hadoop hive linux 大数据 vr 视频解决方案

Fayson在前面的文章《如何在Hadoop中处理小文件》、《如何在Hadoop中处理小文件-续》和《如何使用Impala合并小文件》等，在文章中也详细说明了怎么去处理Hadoop中的小文件。文章中也提到小文件过多会对NameNode造成压力，导致NameNode内存使用过高。本篇文章Fayson主要使用Hadoop Archive Files功能将集群中的小文件进行归档。

2019-11-28

2.5K0

0513-开源软件如何统治世界

开源 linux 云数据库 SQL Server 云计算

就在5年前，投资者对于开源软件这种商业模式依旧持怀疑态度。他们都认为Redhat就像一片雪花(意指看上去很美腻，但随时可能化为虚无)，当时也没有其他开源公司在软件领域获得较为出彩的成绩。

2019-11-28

5930

0550-6.1-如何将普通用户增加到HDFS的超级用户组supergroup

linux kerberos 大数据访问管理 github

对于HDFS服务，hdfs默认是超级管理员用户，它的权限最大，可以说它就相当于Linux的root。hdfs用户默认对所有目录有所有权限，同时可以执行HDFS相关的管理员命令比如让HDFS进入安全模式。但我们有时会碰到需要配置另一个超级用户的情况，本文Fayson主要介绍如何将普通用户设置为HDFS的超级用户。

2019-11-28

2.7K0

0521-Hadoop命令无法访问HDFS路径诡异问题解决

大数据 linux hadoop bash bash 指令

Fayson今天在集群中浏览HDFS数据目录时发现，通过Cloudera Manager的“文件浏览”功能可以正常的浏览某一个HDFS数据目录，如下显示：

2019-11-27

1.5K0

Impala查询卡顿分析案例

linux 腾讯云测试服务打包 https

作者简介：黄权隆，Cloudera研发工程师，Apache Impala PMC & Comitter，毕业于北大计算机系网络所数据库实验室，曾就职于Hulu大数据基础架构团队，负责大数据系统的维护和二次开发，主要负责Impala和HBase方向。现就职于Cloudera，专注于Impala开发。

2019-11-06

3.1K0

0609-6.1.0-如何卸载CDH6.1

Fayson在两年前的文章中介绍过CDH的卸载，参考《0008-如何卸载CDH（附一键卸载github源码）V1.2.1》。除非你是使用Cloudera官方提供的一键安装脚本安装的CDH，否则并没有现成的一键卸载的脚本供使用。

2019-05-07

2.5K0

0570-如何在CDH集群上部署Python3.6.1环境及运行Pyspark作业

python spark anaconda linux

当前有很多工具辅助大数据分析，但最受环境的就是Python。Python简单易用，语言有着直观的语法并且提供强大的科学计算和集群学习库。借着最近人工智能，深度学习的兴起，Python成为时下最火的语言，已经超越了Java和C，并且纳入了国家计算机等级考试。本篇文章主要讲述如何在CDH集群基于Anaconda安装包部署Python3.6.1的运行环境，并使用PySpark作业验证Python3环境的可行性。

2019-04-29

3.1K0

浅析 Spark Shuffle 内存使用

linux spark 编程算法文件存储

在使用 Spark 进行计算时，我们经常会碰到作业 (Job) Out Of Memory(OOM) 的情况，而且很大一部分情况是发生在 Shuffle 阶段。那么在 Spark Shuffle 中具体是哪些地方会使用比较多的内存而有可能导致 OOM 呢？为此，本文将围绕以上问题梳理 Spark 内存管理和 Shuffle 过程中与内存使用相关的知识；然后，简要分析下在 Spark Shuffle 中有可能导致 OOM 的原因。

2019-04-29

1.2K0

0573-5.16.1-如何将CDSW从1.4.2升级到1.5

parcel 编程算法 https linux 网络安全

Cloudera于2019年1月29日发布CDSW1.5，Fayson在前面的文章《0544-CDSW1.5的新功能》中对于1.5的新功能也做了介绍。对于已经安装并在使用的CDSW用户，很多都是1.4版本的，发布新版本，一般第一时间关心是如何升级，本文将主要描述如何升级CDSW。

2019-04-28

7180

0579-5.15.1-Java 应用程序中修改Kerberos ticket_lifetime参数无效异常分析

java kerberos linux

在Kerberos环境中，我们的应用程序通过Java代码来提交任务需要先进行Kerberos凭证的初始化然后进行应用程序的提交，本文档主要讲述Java应用程序中读取krb5.conf 中配置ticket_lifetime 参数不生效的异常分析。

2019-04-28

1.7K0

聊聊个人对安装部署CDH集群前置准备的理解

linux 数据库云数据库 SQL Server jdbc oracle

这一步可以参考我之前写的文章《如何在HP dl380 Gen9服务器上安装Redhat 7.2并配置软RAID》、《如何为Hadoop集群服务器绑定双万兆网卡》

2018-09-29

1.4K0

如何在DELL R730服务器上使用U盘安装linux操作系统

linux 人工智能

1.简介 ---- 在日常工作中，首先就是要检查操作系统，很多时候需要自己动手安装操作系统。说明：本文档针对的是使用U盘做启动盘在戴尔R730服务器上安装Centos7.4，因为服务器型号和系统版本的不同，一些步骤可能存在差异。 2.安装准备 2.1.安装前准备 ---- 1.下载U盘启动制作工具UltraISO,官方下载地址https://cn.ultraiso.net/xiazai.html 2.准备Centos 7.4 的iso 文件 3.准备一个容量不低于8G的U盘，最好是空的 2.2.制作U盘启动

2018-07-12

10.5K0

如何将HDFS文件系统挂载到Linux本地文件系统

大数据 linux github git 开源

Hadoop支持通过NFSv3挂载HDFS文件系统到本地目录，允许用户像访问本地文件系统一样访问HDFS，对于普通用户来说大大的简化了HDFS的使用。该功能通过引入NFS Gateway服务实现，将NFS协议转换为HDFS访问协议。本篇文章主要讲述如何将HDFS文件系统挂载到Linux本地。

2018-03-29

8.9K0

如何利用Dnsmasq构建小型集群的本地DNS服务器

dns DNS 解析 DNSPod linux hadoop apt-get

上次我们介绍了如何在Windows Server中构建DNS服务器：如何在Windows Server2008搭建DNS服务并配置泛域名解析。

2018-03-29

4.8K0

如何在CDH集群安装Anaconda&搭建Python私有源

anaconda python linux windows

Anaconda是一个用于科学计算的Python发行版，支持 Linux, Mac, Windows系统，提供了包管理与环境管理的功能，可以很方便地解决多版本python并存、切换以及各种第三方包安装问题。

2018-03-29

4.1K1

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态