Hadoop实操-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Hadoop实操

专注Apache Hadoop，CDH和HDP的实操，如安装部署，安全配置，排障过程，经验分享，性能

专栏成员

974

文章

2436674

阅读量

707

订阅数

0922-7.1.9-使用Spark和Hive访问Ozone

spark hive eof string 数据

2024-05-09

1380

0899-7.1.7-如何在CDP中安装Zeppelin并配置Interpreter

hive python spark jar

Zeppelin默认的管理权限是admins组，所以用户要加admins组才可以添加和修改interpreter

2022-12-14

9460

0888-7.1.6-如何在集群外安装多集群Gateway支持

spark hadoop 专用宿主机 hive 大数据

1.文档编写目的在使用CDH/CDP集群过程中会遇到在集群外的节点使用Hadoop命令访问集群（如：HDFS、HBASE、HIVE、SPARK、YARN）等命令操作。但是有特殊需求： 1.不想将这个节点加入到CDH/CDP集群中管理，只用于实现CDH/CDP集群的访问。 2.支持多个不同版本的C6/CDP集群之间切换 3.支持多个用户同时访问不同集群，且环境变量互不影响本篇文章主要介绍满足以上条件的一个客户端节点安装。测试环境 1.集群1是CM版本6.3.4、CDH版本6.3.4 2.集群2 是Clo

2022-08-26

9530

0879-7.1.7-如何在CDP安装NVIDIA Tesla T4并使用RAPIDS加速

spark yarn node.js api 机器学习

本文作者：BYD信息中心-数据中心管理部-董睿进入正文之前先打一个小广告，手动狗头比亚迪西安研发中心（与深圳协同办公），base西安，招聘大数据平台运维、架构方向的工程师，实时计算方向工程师，感兴趣的小伙伴请投递简历至dong.rui@byd.com 1.文档编写目的 RAPIDS 全称是Real-time Acceleration Platform for Integrated Data Science，是 NVIDIA 针对数据科学和机器学习推出的 GPU 加速库，RAPIDS的推出其实是为了弥补G

2022-04-28

9450

0874-7.1.7-如何在CDP集群为Spark3集成Iceberg

hive spark shell 缓存 apache

1.文档编写目的 Iceberg是一种开放的数据湖表格式，您可以借助Iceberg快速地在HDFS上构建自己的数据湖存储服务，并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。本篇文章主要介绍如何在Apache Spark3环境下集成Iceberg并使用，Iceberg使用Apache Spark的DataSourceV2 API来实现Data Source和Catalog。Spark DSv2是一个不断更新迭代的API，在不同的Spark版本中支持的程度也不

2022-04-08

1.6K0

0873-7.1.7-如何在CDP集群中安装Spark3

jdk spark parcel apache hive

1.文档编写目的在早些时间Cloudera已正式的发布CDS3《0814-基于CDP7.1.3的Spark3.0正式发布》。在CDP私有云基础上，Spark3服务与现有的Spark2服务共存，两个服务的配置不冲突，可以共用共一个Yarn服务。Spark History服务的端口是Saprk2的18088和Spark3的18089。CDS3.2在支持GPU的同时，也引入了RAPIDS Accelerator for Apache Spark来加速CDP集群上Apache Spark3的性能。本篇文章主要介绍

2022-04-08

2.4K1

0872-7.1.4-如何启用CGroup限制YARN CPU使用率

yarn node.js mapreduce spark

1.文档编写目的首先说明什么场景下适合使用CGroup，为什么会在集群YARN 中对CPU 进行Vcore数超配的情况下同样一个作业，同样的资源参数，有时候处理很快，有时候处理很慢，出现作业的运行效率无法预估情况？当我们期望通过合理分配CPU的使用率，使应用预期性能的运行，排除其他因素的影响下，如应用中每分配一个Vcore，预估它能处理多少数据，就需要启用CGroup对CPU进行严格的使用率限制来实现。在混合工作负载的示例是运行 MapReduce 和 Storm-on-YARN 的集群。MapRed

2022-03-24

1.8K0

0871-6.3.2-如何基于CDH6环境编译Hudi-0.9.0并使用

打包 spark 专用宿主机 json 大数据

1.文档编写目的 Apache Hudi是一个Data Lakes的开源方案，是Hadoop Updates and Incrementals的简写，它是由Uber开发并开源的Data Lakes解决方案。Hudi 是一个丰富的平台，用于构建具有增量数据管道的流式数据湖，具有如下基本特性/能力： Hudi能够摄入（Ingest）和管理（Manage）基于HDFS之上的大型分析数据集，主要目的是高效的减少入库延时。 Hudi基于Spark来对HDFS上的数据进行更新、插入、删除等。 Hudi在HDFS数据集上

2022-03-21

2.9K0

0870-CDP公有云发布Iceberg技术预览版

hive apache spark sql python

在过去的十年中，我们的客户成功部署的大规模数据集群已成为推动需求的大数据飞轮，它可以引入更多的数据，应用更复杂的分析，并成就了从业务分析师到数据科学家的许多新数据从业者。这种前所未有的大数据工作负载并非没有挑战。数据架构层就是这样一个领域，不断增长的数据集已经突破了可扩展性和性能的极限。数据爆炸必须用新的解决方案来应对，这就是为什么我们很高兴在Cloudera Data Platform (CDP)引入专为大规模数据集设计的下一代表格式(table format) - Apache Iceberg。今天，我

2022-03-04

8580

0867-7.1.6-Hue中Spark Notebook与Livy集成问

kerberos spark hive http

本篇文章主要介绍如何使用解决CDP7.1.6的Hue中的Spark Notebook与Livy无法进行集成的问题。

2021-12-07

9450

0856-7.1.4-如何使用spark-shell操作Kudu表

spark shell scala 数据库

Kudu从 1.0.0 版本开始通过Data Source API与Spark 集成。kudu-spark使用--packages选项包含依赖项。如果将Spark与Scala 2.10 一起使用，需要使用 kudu-spark_2.10 。从 Kudu1.6.0开始不再支持Spark 1，如果要使用Spark1与Kudu集成，最高只能到Kudu1.5.0。

2021-07-28

1.2K0

0835-5.16.2-如何按需加载Python依赖包到Spark集群

python spark 机器学习腾讯云测试服务

在开发Pyspark代码时，经常会用到Python的依赖包。在PySpark的分布式运行的环境下，要确保所有节点均存在我们用到的Packages，本篇文章主要介绍如何将我们需要的Package依赖包加载到我们的运行环境中，而非将全量的Package包加载到Pyspark运行环境中，本篇文章以xgboost1.0.2包为例来介绍。

2021-04-30

3.2K0

基于Apache Spark 3.1.1的CDS 3.1正式GA

spark apache https 网络安全

基于Apache Spark 3.1.1的CDS 3.1在CDP Private Cloud Base 7.1.6上正式发布，这是CDS 3的小版本更新发布，主要改进包括：

2021-04-19

7570

0828-7.1.4-如何在CDP中通过Livy Thrift Server来提交Spark SQL作业

sql spark hive jdbc

为什么CDH甚至最新的CDP中对于Spark SQL CLI或者JDBC/ODBC没有提供基于Spark Thrift Server的支持，参考Fayson之前的文章《0827-7.1.4-如何在CDP中使用Spark SQL CLI》，在CDP中，Cloudera给出了新的解决方案Livy Thrift Server，它是对Spark Thrift Server的增强，支持JDBC/Thrift Server，安全与容错。通过Hive Warehouse Connector(HWC)，支持Spark SQL访问Hive3的内表，同时然Spark SQL支持基于Ranger的细粒度授权。本文主要介绍如何在CDP中通过Livy Thrift Server来提交Spark SQL作业。

2021-01-26

3.7K1

0827-7.1.4-如何在CDP中使用Spark SQL CLI

sql spark 腾讯云开发者社区

而我们在产品开发过程中，可能需要用到spark-sql来进行数据加工，本文就采用脚本的方式，调用spark-shell来进行数据的处理，执行需要的sql语句。

2021-01-12

1.5K0

0820-CDSW在Session中运行代码超过一次就报错问题分析

spark python 专用宿主机 node.js 大数据

在CDSW中启动一个Session然后运行代码，第一次能够正常运行，在第一次运行完成后不关闭Session，在同一个Session中再次运行代码，此时就会出现报错，主要的报错信息为“Delegation Token can be issued only with kerberos or web authentication”，报错的截图如下：

2020-12-14

6960

0816-CDP Hive3升级说明

spark 专用宿主机大数据 linux hive

CDH5中的Hive版本是1.1，而CDP7中的Hive版本为3。Hive3相对Hive1更新特别多，比如支持全新的ACID v2机制，并且底层使用Tez和内存进行查询，相比MR的方式性能提升超过10倍，支持物化视图以及语法使用扩充等等。因为是一次大版本的更新，对于老的CDH5用户升级到CDP7，会需要对于Hive3有足够的了解与准备，才能保证升级成功。本文主要介绍Hive3的新特性，架构，以及语法改造说明。

2020-11-03

3.1K1

0812-5.16.2-如何获取CDSW上提交Spark作业的真实用户

spark yarn node.js

在一个CDSW环境中，由于其中一个租户经常提交大型Spark作业将YARN上租户所在的资源池资源用到95%以上，从而影响到同一租户下其他用户提交作业的运行。这种情况下我们没办法直接找到这些大型作业的实际提交人，是因为我们在为CDSW做多租户配置的时候会将登录CDSW的某一批用户统一绑定到同一个租户下(这样设计的目的主要是为了简化YARN的租户管理，而不用为每个用户创建资源池队列)，所以导致在YARN的界面上看到的都是同一个租户，而无法对应到实际CDSW的用户以及这个人提交的大型作业。本文主要描述通过修改Spark的配置来将作业的实际提交人的用户名展示到Spark UI，非CDSW的YARN的多租户管理也会碰到类似问题。

2020-09-30

8230

0785-基于CDP7.1.1的Spark3.0技术预览版本发布

spark python yarn node.js

今天Cloudera正式宣布发布CDS3，基于Apache Spark 3.0 preview2 release，参考：

2020-06-19

1.2K0

0778-7.0.3-如何在CDP中实现你的第一个Spark例子

spark scala 大数据 yarn

先new -> directory 再 make directory as -> sources Root

2020-06-04

7720

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态