首页
学习
活动
专区
工具
TVP
发布

Hadoop实操

专注Apache Hadoop,CDH和HDP的实操,如安装部署,安全配置,排障过程,经验分享,性能
专栏作者
964
文章
2344957
阅读量
704
订阅数
0910-Apache Hive 4.x与Iceberg分支和标签
对于复杂的快照生命周期管理,Iceberg支持分支(branch)和标签(tag),这些分支和标签是对具有自己独立生命周期的快照的命名引用,此生命周期由分支和标签级别保留策略控制。分支是快照的独立谱系(lineage),指向谱系的头部。
Fayson
2023-11-16
3670
Apache Impala 4.0技术揭秘与最新进展
展开 !function(){"use strict";var e=function(e,a){function t(e,a){var t=e.match(new RegExp(a+"\\s*
Fayson
2022-05-05
5820
0874-7.1.7-如何在CDP集群为Spark3集成Iceberg
1.文档编写目的 Iceberg是一种开放的数据湖表格式,您可以借助Iceberg快速地在HDFS上构建自己的数据湖存储服务,并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。本篇文章主要介绍如何在Apache Spark3环境下集成Iceberg并使用,Iceberg使用Apache Spark的DataSourceV2 API来实现Data Source和Catalog。Spark DSv2是一个不断更新迭代的API,在不同的Spark版本中支持的程度也不
Fayson
2022-04-08
1.5K0
0873-7.1.7-如何在CDP集群中安装Spark3
1.文档编写目的 在早些时间Cloudera已正式的发布CDS3《0814-基于CDP7.1.3的Spark3.0正式发布》。在CDP私有云基础上,Spark3服务与现有的Spark2服务共存,两个服务的配置不冲突,可以共用共一个Yarn服务。Spark History服务的端口是Saprk2的18088和Spark3的18089。CDS3.2在支持GPU的同时,也引入了RAPIDS Accelerator for Apache Spark来加速CDP集群上Apache Spark3的性能。本篇文章主要介绍
Fayson
2022-04-08
2.2K1
0870-CDP公有云发布Iceberg技术预览版
在过去的十年中,我们的客户成功部署的大规模数据集群已成为推动需求的大数据飞轮,它可以引入更多的数据,应用更复杂的分析,并成就了从业务分析师到数据科学家的许多新数据从业者。这种前所未有的大数据工作负载并非没有挑战。数据架构层就是这样一个领域,不断增长的数据集已经突破了可扩展性和性能的极限。数据爆炸必须用新的解决方案来应对,这就是为什么我们很高兴在Cloudera Data Platform (CDP)引入专为大规模数据集设计的下一代表格式(table format) - Apache Iceberg。今天,我
Fayson
2022-03-04
8010
0863-如何使用Docker在Windows下快速构建Impala4.0环境
历经15个月,Apache Impala 4.0终于发布了!本次发布一共包含700多个JIRA,新增了很多特性,包括但不限于:
Fayson
2021-10-11
1.5K0
0836-Apache Druid on HDP
Apache Druid是一个分布式的、面向列的、实时分析数据库,旨在快速获取大量数据并将其编入索引,并对大型数据集进行快速的切片和切分分析(“OLAP查询),常用于实时摄取、快速查询和对时间依赖性很高的数据库用户。因此,Druid可以为可视化的分析应用程序提供强力的数据源支持,或用作需要快速聚合的高并发API的后端。Druid最适合面向事件的数据。
Fayson
2021-04-30
1.2K0
CDP Private Cloud Base 7.1.5正式GA
1.对一部分平台组件的FIPS 140-2合规性支持,通过使用FIPS 140-2验证的加密模块,并在启用了FIPS模式的Redhat和CentOS操作系统上进行部署,现在可以配置CDP Private Cloud Base组件使用符合FIPS的加密技术;
Fayson
2021-04-19
6700
基于Apache Spark 3.1.1的CDS 3.1正式GA
基于Apache Spark 3.1.1的CDS 3.1在CDP Private Cloud Base 7.1.6上正式发布,这是CDS 3的小版本更新发布,主要改进包括:
Fayson
2021-04-19
7430
0815-CML中的模型共享和MLOps简介
如今机器学习(ML)的应用门槛大大降低,在许多组织许多项目中的使用越来越普遍。但是在模型投产之后,仍会有许多意想不到的挑战。许多企业已成功地将最初的少数模型投入生产,但仍然在努力简化、扩展和优化模型的部署和管控方式,从而在其业务的每个单元中服务于数量越来越多的机器学习场景和用例。事实证明,机器学习最困难的部分实际上不是开始的建模和训练,而是最后一公里:在生产应用程序中有效部署、操作和管控机器学习模型。这最后一公里的挑战可分为三大类:
Fayson
2020-11-03
7960
0809-7.1.3-Ranger页面功能介绍
《0801-什么是Apache Ranger - 4 - Resource vs Tag Based Policies》
Fayson
2020-09-04
1.7K0
0803-什么是Apache Ranger - 5 - Hive Plugin
《0800-什么是Apache Ranger - 4 - Resource vs Tag Based Policies》
Fayson
2020-08-20
1.3K0
0802-Cloudera Data Center7.1.3正式GA
CDP Data Center是CDP(Cloudera Data Platform)的on-premise版本。这个新产品结合了Cloudera EDH和HDP两者的优点包括新功能或增强功能。该发行版是一个可扩展和可定制的平台,你可以在之上运行多种类型的工作负载。
Fayson
2020-08-20
1.1K0
0801-什么是Apache Ranger - 4 - Resource vs Tag Based Policies
在前面的文章中,我们介绍了为什么Ranger会替代Sentry,Ranger的基础架构以及2.0引入的新功能安全区域(Security Zone)功能。本文主要是通过一些例子介绍基于标签的策略和基于资源的策略的区别。
Fayson
2020-08-20
1.6K0
5.16.2-如何在CDH中安装ElasticSearch
1.将csd文件ELK-YX-20200617-1.0-SNAPSHOT.jar放置在cloudera-scm-server服务的csd目录下
Fayson
2020-08-03
2K1
0784-CDP安全管理工具介绍
本文档描述如何使用多种安全管理工具来保护CDP环境。重点介绍安全管理工具与CDP环境之间的集成点,但不会探讨这些工具的核心功能。
Fayson
2020-06-19
1.8K0
0773-1.7.2-CDSW1.7的新功能
Cloudera Data Science Workbench仅支持从版本1.5.x和1.6.x升级到版本1.7.1。如果使用的是CDSW的早期版本,则必须首先升级到1.5.x或1.6.x版,然后再升级到1.7.1版。
Fayson
2020-05-25
1.2K0
0770-Apache YuniKorn (Incubating) 0.8发布
Apache YuniKorn(Incubating)是一个独立的资源调度程序,旨在将针对大数据工作负载的高级调度功能引入容器化平台。具体可以参考前面的文章《YuniKorn:一个通用的资源调度程序》。
Fayson
2020-05-20
1.2K0
0767-Hive ACID vs. Delta Lake
Qubole现在支持对存储在Cloud数据湖中的数据进行高效的Update和Delete。用户可以对开启了事务的Hive表进行insert,update和delete,并通过Apache Spark或Presto进行查询。使用Apache Spark或Presto操作Hive的事务表功能,我们已将其开源,我们对于更多引擎支持update和delete的工作也在进行中,这块同样也会开源。
Fayson
2020-05-20
1.9K0
0755-如何使用Cloudera Edge Management
Cloudera Data Flow(CDF)作为Cloudera一个独立的产品单元,围绕着实时数据采集,实时数据处理和实时数据分析有多个不同的功能模块,如下图所示:
Fayson
2020-03-25
1.6K0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档