Hadoop实操-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Hadoop实操

专注Apache Hadoop，CDH和HDP的实操，如安装部署，安全配置，排障过程，经验分享，性能

专栏成员

974

文章

2438446

阅读量

707

订阅数

0899-7.1.7-如何在CDP中安装Zeppelin并配置Interpreter

hive python spark jar

Zeppelin默认的管理权限是admins组，所以用户要加admins组才可以添加和修改interpreter

2022-12-14

9520

0892-7.1.7-如何将CDP从7.1.7升级到7.1.8

专用宿主机 parcel python jdk

1.Cloudera升级概述 CDP作为一个软件系统，安装成功后主要包含三部分：Cloudera Manager Server，Cloudera Manager Agent以及CDH Parcel，所以CDP的升级也主要是包含这三部分的升级。一般来说是先通过操作系统的Package升级Cloudera Manager，然后通过Parcel升级CDH即可以完成整个集群的升级。CDH和Cloudera Manager不用同时升级，但是需要保证Cloudera Manager和CDH版本的兼容，具体的版本兼容情况

2022-09-08

1.3K0

0870-CDP公有云发布Iceberg技术预览版

hive apache spark sql python

在过去的十年中，我们的客户成功部署的大规模数据集群已成为推动需求的大数据飞轮，它可以引入更多的数据，应用更复杂的分析，并成就了从业务分析师到数据科学家的许多新数据从业者。这种前所未有的大数据工作负载并非没有挑战。数据架构层就是这样一个领域，不断增长的数据集已经突破了可扩展性和性能的极限。数据爆炸必须用新的解决方案来应对，这就是为什么我们很高兴在Cloudera Data Platform (CDP)引入专为大规模数据集设计的下一代表格式(table format) - Apache Iceberg。今天，我

2022-03-04

8580

0838-通过Anaconda部署python3环境

网络安全 https javascript python

参考https://docs.anaconda.com/anaconda-scale/cloudera-cdh/

2021-04-30

1.4K0

0835-5.16.2-如何按需加载Python依赖包到Spark集群

python spark 机器学习腾讯云测试服务

在开发Pyspark代码时，经常会用到Python的依赖包。在PySpark的分布式运行的环境下，要确保所有节点均存在我们用到的Packages，本篇文章主要介绍如何将我们需要的Package依赖包加载到我们的运行环境中，而非将全量的Package包加载到Pyspark运行环境中，本篇文章以xgboost1.0.2包为例来介绍。

2021-04-30

3.2K0

0830-7.1.4-Hue编辑器无法提交中文异常

Hue使用编辑器提交中文内容报错'ascii' codec can't decode byte 0xe6 in position 3: ordinal not in range(128)

2021-03-11

1.5K0

0820-CDSW在Session中运行代码超过一次就报错问题分析

spark python 专用宿主机 node.js 大数据

在CDSW中启动一个Session然后运行代码，第一次能够正常运行，在第一次运行完成后不关闭Session，在同一个Session中再次运行代码，此时就会出现报错，主要的报错信息为“Delegation Token can be issued only with kerberos or web authentication”，报错的截图如下：

2020-12-14

6970

0785-基于CDP7.1.1的Spark3.0技术预览版本发布

spark python yarn node.js

今天Cloudera正式宣布发布CDS3，基于Apache Spark 3.0 preview2 release，参考：

2020-06-19

1.2K0

0772-1.7.2-如何让CDSW的PySpark自动适配Python版本

parcel anaconda 专用宿主机 python spark

在CDH集群中Spark2的Python环境默认为Python2，CDSW在启动Session时可以选择Engine Kernel版本Python2或者Python3。当选择Python3启动Session时，开发PySpark作业在运行时会报“Python in worker has different version 2.7 than that in driver 3.6, PySpark cannot run with different minor versions.Please check environment variables PYSPARK_PYTHON and PYSPARK_DRIVER_PYTHON are correctly set”，为解决Python版本适配的问题，需要进行如下调整来使我们的应用自动的适配Python版本。

2020-05-25

1.3K0

PySpark启动过程解密

shell spark python

作为数据工程师，你可能会碰到过很多种启动PySpark的方法，可能搞不懂这些方法有什么共同点、有什么区别，不同的方法对程序开发、部署有什么影响，今天我们一起分析一下这些启动PySpark的方法。

2020-02-24

1.7K0

0737-1.6.1-CDSW分布式计算

python 编程算法

Cloudera Data Science Workbench为从单个交互式会话中启动多个称为workers的引擎实例提供了基本支持。任何R或Python会话均可用于生成workers。这些工作程序可以配置为在启动时运行脚本（例如Python文件）或命令中。

2020-01-14

5930

0736-1.6.1-如何配置CDSW使用本地的Pycharm

ssh ide spark python

在CDSW1.5及以前版本，仅支持内置的编辑器，往往数据科学家在做模型开发训练时更倾向于使用自己熟悉的IDE开发工具。所以在CDSW1.6开始，引入了一个新功能，允许用户自带编辑器，称为BYOE（Bring Your Own Editor）。关于这个新特性可以参考前面的文章《CDSW1.6的新特性》有视频介绍。本篇文章主要介绍在Window客户端环境下，使用CDSW提供的工具搭建一个SSH Gateway方式实现本地IDE访问CDSW Project并做开发。

2019-12-25

1.2K0

0483-如何指定PySpark的Python运行环境

spark python anaconda 大数据

在使用PySpark进行开发时，由于不同的用户使用的Python环境不同，有基于Python2的开发也有基于Python3的开发，这个时候会开发的PySpark作业不能同时兼容Python2和Python3环境从而导致作业运行失败。那Fayson接下来介绍如何在提交PySpark作业时如何指定Python的环境。

2019-11-28

5.3K0

0501-使用Python访问Kerberos环境下的Kafka(二)

kafka kerberos python https

在前面的文章Fayson介绍了一种Python访问Kerberos环境下Kafka的文章，参考《0500-使用Python2访问Kerberos环境下的Kafka》，本篇文章主要介绍另一种方式访问Kerberos环境下的Kafka。

2019-11-28

1.7K0

0552-5.15.0-同一OS用户下不同Kerberos用户执行脚本Principal串掉问题分析

kerberos 缓存 python hadoop

在集群启用Kerberos后，使用同一个OS用户在客户端并发调度Python代码获取Hive数据（代码中使用不同的kerberos用户kinit），会出现两个作业的认证混乱获取到的票据串掉。本文Fayson主要分析Kerberos环境同一OS用户下并发执行不同身份认证的Python代码会导致Principal串掉问题解决。

2019-11-28

1K0

0500-使用Python2访问Kerberos环境下的Kafka

kafka kerberos python https

Kafka支持多种客户端语言（C/C++、Go、Java、JMS、.NET、Python）。Fayson在前面多篇文章介绍了Java访问Kerberos和非Kerberos环境下的Kafka，参考《如何使用Java连接Kerberos的Kafka》。本篇文章Fayson主要介绍使用Python2访问Kerberos环境下的Kafka。在学习本篇文章内容前你还需要知道《如何通过Cloudera Manager为Kafka启用Kerberos及使用》。

2019-11-27

9940

0502-CDSW中访问Kerberos环境下的Kafka

kafka kerberos python github

Fayson在前面的文章《0500-使用Python2访问Kerberos环境下的Kafka》和《0501-使用Python访问Kerberos环境下的Kafka(二)》中介绍了两种方式访问Kerberos环境下的Kafka。在前面文章的基础上Fayson介绍在CDSW访问Kerberos环境下的Kafka。

2019-11-27

6710

0512-使用Python访问Kerberos环境下的HDFS

大数据 api kerberos python

随着Hadoop平台的普及和Python语言的流行，使用Python语言访问操作HDFS的需要，Python也提供了多个访问HDFS的依赖包（如：pyhdfs、HdfsCLI、pywhdfs），这些依赖包都是通过API的方式与HDFS进行交互。本篇文章Fayson主要介绍使用pywhdfs访问Kerberos环境下的HDFS。

2019-11-27

2K0

0555-6.1.0-使用Python并发访问认证和非认证集群

专用宿主机 python 大数据

Fayson在前面的文章《0553-6.1.0-如何使用Java代码同时访问安全和非安全CDH集群》和《0554-6.1.0-同一java进程中同时访问认证和非认证集群的问题（续）》，本篇文档主要介绍如何使用Python并发访问认证的集群和非认证的集群。

2019-11-27

6040

如何对CDH集群中的Impala打印线程堆栈

html5 python ubuntu http https

作者简介：黄权隆，Cloudera研发工程师，Apache Impala PMC & Comitter，毕业于北大计算机系网络所数据库实验室，曾就职于Hulu大数据基础架构团队，负责大数据系统的维护和二次开发，主要负责Impala和HBase方向。现就职于Cloudera，专注于Impala开发。

2019-11-11

3.2K0

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态