首页
学习
活动
专区
工具
TVP
发布

Hadoop实操

专注Apache Hadoop,CDH和HDP的实操,如安装部署,安全配置,排障过程,经验分享,性能
专栏作者
970
文章
2355414
阅读量
704
订阅数
0899-7.1.7-如何在CDP中安装Zeppelin并配置Interpreter
Zeppelin默认的管理权限是admins组,所以用户要加admins组才可以添加和修改interpreter
Fayson
2022-12-14
8580
0892-7.1.7-如何将CDP从7.1.7升级到7.1.8
1.Cloudera升级概述 CDP作为一个软件系统,安装成功后主要包含三部分:Cloudera Manager Server,Cloudera Manager Agent以及CDH Parcel,所以CDP的升级也主要是包含这三部分的升级。一般来说是先通过操作系统的Package升级Cloudera Manager,然后通过Parcel升级CDH即可以完成整个集群的升级。CDH和Cloudera Manager不用同时升级,但是需要保证Cloudera Manager和CDH版本的兼容,具体的版本兼容情况
Fayson
2022-09-08
1.2K0
0870-CDP公有云发布Iceberg技术预览版
在过去的十年中,我们的客户成功部署的大规模数据集群已成为推动需求的大数据飞轮,它可以引入更多的数据,应用更复杂的分析,并成就了从业务分析师到数据科学家的许多新数据从业者。这种前所未有的大数据工作负载并非没有挑战。数据架构层就是这样一个领域,不断增长的数据集已经突破了可扩展性和性能的极限。数据爆炸必须用新的解决方案来应对,这就是为什么我们很高兴在Cloudera Data Platform (CDP)引入专为大规模数据集设计的下一代表格式(table format) - Apache Iceberg。今天,我
Fayson
2022-03-04
8100
0838-通过Anaconda部署python3环境
参考https://docs.anaconda.com/anaconda-scale/cloudera-cdh/
Fayson
2021-04-30
1.3K0
0835-5.16.2-如何按需加载Python依赖包到Spark集群
在开发Pyspark代码时,经常会用到Python的依赖包。在PySpark的分布式运行的环境下,要确保所有节点均存在我们用到的Packages,本篇文章主要介绍如何将我们需要的Package依赖包加载到我们的运行环境中,而非将全量的Package包加载到Pyspark运行环境中,本篇文章以xgboost1.0.2包为例来介绍。
Fayson
2021-04-30
3K0
0830-7.1.4-Hue编辑器无法提交中文异常
Hue使用编辑器提交中文内容报错'ascii' codec can't decode byte 0xe6 in position 3: ordinal not in range(128)
Fayson
2021-03-11
1.4K0
0820-CDSW在Session中运行代码超过一次就报错问题分析
在CDSW中启动一个Session然后运行代码,第一次能够正常运行,在第一次运行完成后不关闭Session,在同一个Session中再次运行代码,此时就会出现报错,主要的报错信息为“Delegation Token can be issued only with kerberos or web authentication”,报错的截图如下:
Fayson
2020-12-14
6570
0785-基于CDP7.1.1的Spark3.0技术预览版本发布
今天Cloudera正式宣布发布CDS3,基于Apache Spark 3.0 preview2 release,参考:
Fayson
2020-06-19
1.1K0
0772-1.7.2-如何让CDSW的PySpark自动适配Python版本
在CDH集群中Spark2的Python环境默认为Python2,CDSW在启动Session时可以选择Engine Kernel版本Python2或者Python3。当选择Python3启动Session时,开发PySpark作业在运行时会报“Python in worker has different version 2.7 than that in driver 3.6, PySpark cannot run with different minor versions.Please check environment variables PYSPARK_PYTHON and PYSPARK_DRIVER_PYTHON are correctly set”,为解决Python版本适配的问题,需要进行如下调整来使我们的应用自动的适配Python版本。
Fayson
2020-05-25
1.3K0
PySpark启动过程解密
作为数据工程师,你可能会碰到过很多种启动PySpark的方法,可能搞不懂这些方法有什么共同点、有什么区别,不同的方法对程序开发、部署有什么影响,今天我们一起分析一下这些启动PySpark的方法。
Fayson
2020-02-24
1.6K0
0737-1.6.1-CDSW分布式计算
Cloudera Data Science Workbench为从单个交互式会话中启动多个称为workers的引擎实例提供了基本支持。任何R或Python会话均可用于生成workers。这些工作程序可以配置为在启动时运行脚本(例如Python文件)或命令中。
Fayson
2020-01-14
5800
0736-1.6.1-如何配置CDSW使用本地的Pycharm
在CDSW1.5及以前版本,仅支持内置的编辑器,往往数据科学家在做模型开发训练时更倾向于使用自己熟悉的IDE开发工具。所以在CDSW1.6开始,引入了一个新功能,允许用户自带编辑器,称为BYOE(Bring Your Own Editor)。关于这个新特性可以参考前面的文章《CDSW1.6的新特性》有视频介绍。本篇文章主要介绍在Window客户端环境下,使用CDSW提供的工具搭建一个SSH Gateway方式实现本地IDE访问CDSW Project并做开发。
Fayson
2019-12-25
1.1K0
0483-如何指定PySpark的Python运行环境
在使用PySpark进行开发时,由于不同的用户使用的Python环境不同,有基于Python2的开发也有基于Python3的开发,这个时候会开发的PySpark作业不能同时兼容Python2和Python3环境从而导致作业运行失败。那Fayson接下来介绍如何在提交PySpark作业时如何指定Python的环境。
Fayson
2019-11-28
5K0
0501-使用Python访问Kerberos环境下的Kafka(二)
在前面的文章Fayson介绍了一种Python访问Kerberos环境下Kafka的文章,参考《0500-使用Python2访问Kerberos环境下的Kafka》,本篇文章主要介绍另一种方式访问Kerberos环境下的Kafka。
Fayson
2019-11-28
1.6K0
0552-5.15.0-同一OS用户下不同Kerberos用户执行脚本Principal串掉问题分析
在集群启用Kerberos后,使用同一个OS用户在客户端并发调度Python代码获取Hive数据(代码中使用不同的kerberos用户kinit),会出现两个作业的认证混乱获取到的票据串掉。本文Fayson主要分析Kerberos环境同一OS用户下并发执行不同身份认证的Python代码会导致Principal串掉问题解决。
Fayson
2019-11-28
9950
0500-使用Python2访问Kerberos环境下的Kafka
Kafka支持多种客户端语言(C/C++、Go、Java、JMS、.NET、Python)。Fayson在前面多篇文章介绍了Java访问Kerberos和非Kerberos环境下的Kafka,参考《如何使用Java连接Kerberos的Kafka》。本篇文章Fayson主要介绍使用Python2访问Kerberos环境下的Kafka。在学习本篇文章内容前你还需要知道《如何通过Cloudera Manager为Kafka启用Kerberos及使用》。
Fayson
2019-11-27
9330
0502-CDSW中访问Kerberos环境下的Kafka
Fayson在前面的文章《0500-使用Python2访问Kerberos环境下的Kafka》和《0501-使用Python访问Kerberos环境下的Kafka(二)》中介绍了两种方式访问Kerberos环境下的Kafka。在前面文章的基础上Fayson介绍在CDSW访问Kerberos环境下的Kafka。
Fayson
2019-11-27
6430
0512-使用Python访问Kerberos环境下的HDFS
随着Hadoop平台的普及和Python语言的流行,使用Python语言访问操作HDFS的需要,Python也提供了多个访问HDFS的依赖包(如:pyhdfs、HdfsCLI、pywhdfs),这些依赖包都是通过API的方式与HDFS进行交互。本篇文章Fayson主要介绍使用pywhdfs访问Kerberos环境下的HDFS。
Fayson
2019-11-27
1.8K0
0555-6.1.0-使用Python并发访问认证和非认证集群
Fayson在前面的文章《0553-6.1.0-如何使用Java代码同时访问安全和非安全CDH集群》和《0554-6.1.0-同一java进程中同时访问认证和非认证集群的问题(续)》,本篇文档主要介绍如何使用Python并发访问认证的集群和非认证的集群。
Fayson
2019-11-27
5810
如何对CDH集群中的Impala打印线程堆栈
作者简介:黄权隆,Cloudera研发工程师,Apache Impala PMC & Comitter,毕业于北大计算机系网络所数据库实验室,曾就职于Hulu大数据基础架构团队,负责大数据系统的维护和二次开发,主要负责Impala和HBase方向。现就职于Cloudera,专注于Impala开发。
Fayson
2019-11-11
3K0
点击加载更多
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档