腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Hadoop实操

专注Apache Hadoop，CDH和HDP的实操，如安装部署，安全配置，排障过程，经验分享，性能

专栏作者

964

文章

2344957

阅读量

704

订阅数

0910-Apache Hive 4.x与Iceberg分支和标签

apache hive 生命周期数据标签

对于复杂的快照生命周期管理，Iceberg支持分支(branch)和标签(tag)，这些分支和标签是对具有自己独立生命周期的快照的命名引用，此生命周期由分支和标签级别保留策略控制。分支是快照的独立谱系(lineage)，指向谱系的头部。

2023-11-16

3670

Apache Impala 4.0技术揭秘与最新进展

hadoop hive html sql apache

展开 !function(){"use strict";var e=function(e,a){function t(e,a){var t=e.match(new RegExp(a+"\\s*

2022-05-05

5820

0874-7.1.7-如何在CDP集群为Spark3集成Iceberg

hive spark shell 缓存 apache

1.文档编写目的 Iceberg是一种开放的数据湖表格式，您可以借助Iceberg快速地在HDFS上构建自己的数据湖存储服务，并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。本篇文章主要介绍如何在Apache Spark3环境下集成Iceberg并使用，Iceberg使用Apache Spark的DataSourceV2 API来实现Data Source和Catalog。Spark DSv2是一个不断更新迭代的API，在不同的Spark版本中支持的程度也不

2022-04-08

1.5K0

0873-7.1.7-如何在CDP集群中安装Spark3

jdk spark parcel apache hive

1.文档编写目的在早些时间Cloudera已正式的发布CDS3《0814-基于CDP7.1.3的Spark3.0正式发布》。在CDP私有云基础上，Spark3服务与现有的Spark2服务共存，两个服务的配置不冲突，可以共用共一个Yarn服务。Spark History服务的端口是Saprk2的18088和Spark3的18089。CDS3.2在支持GPU的同时，也引入了RAPIDS Accelerator for Apache Spark来加速CDP集群上Apache Spark3的性能。本篇文章主要介绍

2022-04-08

2.2K1

0870-CDP公有云发布Iceberg技术预览版

hive apache spark sql python

在过去的十年中，我们的客户成功部署的大规模数据集群已成为推动需求的大数据飞轮，它可以引入更多的数据，应用更复杂的分析，并成就了从业务分析师到数据科学家的许多新数据从业者。这种前所未有的大数据工作负载并非没有挑战。数据架构层就是这样一个领域，不断增长的数据集已经突破了可扩展性和性能的极限。数据爆炸必须用新的解决方案来应对，这就是为什么我们很高兴在Cloudera Data Platform (CDP)引入专为大规模数据集设计的下一代表格式(table format) - Apache Iceberg。今天，我

2022-03-04

8010

0863-如何使用Docker在Windows下快速构建Impala4.0环境

容器镜像服务容器腾讯云测试服务 shell apache

历经15个月，Apache Impala 4.0终于发布了！本次发布一共包含700多个JIRA，新增了很多特性，包括但不限于：

2021-10-11

1.5K0

0836-Apache Druid on HDP

apache hive 存储数据库 sql

Apache Druid是一个分布式的、面向列的、实时分析数据库，旨在快速获取大量数据并将其编入索引，并对大型数据集进行快速的切片和切分分析（“OLAP查询），常用于实时摄取、快速查询和对时间依赖性很高的数据库用户。因此，Druid可以为可视化的分析应用程序提供强力的数据源支持，或用作需要快速聚合的高并发API的后端。Druid最适合面向事件的数据。

2021-04-30

1.2K0

CDP Private Cloud Base 7.1.5正式GA

tcp/ip hive apache 大数据

1.对一部分平台组件的FIPS 140-2合规性支持，通过使用FIPS 140-2验证的加密模块，并在启用了FIPS模式的Redhat和CentOS操作系统上进行部署，现在可以配置CDP Private Cloud Base组件使用符合FIPS的加密技术；

2021-04-19

6700

基于Apache Spark 3.1.1的CDS 3.1正式GA

spark apache https 网络安全

基于Apache Spark 3.1.1的CDS 3.1在CDP Private Cloud Base 7.1.6上正式发布，这是CDS 3的小版本更新发布，主要改进包括：

2021-04-19

7430

0815-CML中的模型共享和MLOps简介

机器学习 apache 深度学习神经网络人工智能

如今机器学习（ML）的应用门槛大大降低，在许多组织许多项目中的使用越来越普遍。但是在模型投产之后，仍会有许多意想不到的挑战。许多企业已成功地将最初的少数模型投入生产，但仍然在努力简化、扩展和优化模型的部署和管控方式，从而在其业务的每个单元中服务于数量越来越多的机器学习场景和用例。事实证明，机器学习最困难的部分实际上不是开始的建模和训练，而是最后一公里：在生产应用程序中有效部署、操作和管控机器学习模型。这最后一公里的挑战可分为三大类：

2020-11-03

7960

0809-7.1.3-Ranger页面功能介绍

apache hive linux access hbase

《0801-什么是Apache Ranger - 4 - Resource vs Tag Based Policies》

2020-09-04

1.7K0

0803-什么是Apache Ranger - 5 - Hive Plugin

kafka apache 大数据 lucene/solr hive

《0800-什么是Apache Ranger - 4 - Resource vs Tag Based Policies》

2020-08-20

1.3K0

0802-Cloudera Data Center7.1.3正式GA

apache hive 大数据 yarn api

CDP Data Center是CDP(Cloudera Data Platform)的on-premise版本。这个新产品结合了Cloudera EDH和HDP两者的优点包括新功能或增强功能。该发行版是一个可扩展和可定制的平台，你可以在之上运行多种类型的工作负载。

2020-08-20

1.1K0

0801-什么是Apache Ranger - 4 - Resource vs Tag Based Policies

大数据 hive apache

在前面的文章中，我们介绍了为什么Ranger会替代Sentry，Ranger的基础架构以及2.0引入的新功能安全区域(Security Zone)功能。本文主要是通过一些例子介绍基于标签的策略和基于资源的策略的区别。

2020-08-20

1.6K0

5.16.2-如何在CDH中安装ElasticSearch

jquery Elasticsearch Service parcel http apache

1.将csd文件ELK-YX-20200617-1.0-SNAPSHOT.jar放置在cloudera-scm-server服务的csd目录下

2020-08-03

2K1

0784-CDP安全管理工具介绍

apache 网站 linux 访问管理数据库

本文档描述如何使用多种安全管理工具来保护CDP环境。重点介绍安全管理工具与CDP环境之间的集成点，但不会探讨这些工具的核心功能。

2020-06-19

1.8K0

0773-1.7.2-CDSW1.7的新功能

编程算法 apache 数据分析

Cloudera Data Science Workbench仅支持从版本1.5.x和1.6.x升级到版本1.7.1。如果使用的是CDSW的早期版本，则必须首先升级到1.5.x或1.6.x版，然后再升级到1.7.1版。

2020-05-25

1.2K0

0770-Apache YuniKorn (Incubating) 0.8发布

apache spark 大数据 flink kubernetes

Apache YuniKorn（Incubating）是一个独立的资源调度程序，旨在将针对大数据工作负载的高级调度功能引入容器化平台。具体可以参考前面的文章《YuniKorn：一个通用的资源调度程序》。

2020-05-20

1.2K0

0767-Hive ACID vs. Delta Lake

hive spark 开源 apache 数据湖

Qubole现在支持对存储在Cloud数据湖中的数据进行高效的Update和Delete。用户可以对开启了事务的Hive表进行insert，update和delete，并通过Apache Spark或Presto进行查询。使用Apache Spark或Presto操作Hive的事务表功能，我们已将其开源，我们对于更多引擎支持update和delete的工作也在进行中，这块同样也会开源。

2020-05-20

1.9K0

0755-如何使用Cloudera Edge Management

apache 大数据 java kafka 数据库

Cloudera Data Flow(CDF)作为Cloudera一个独立的产品单元，围绕着实时数据采集，实时数据处理和实时数据分析有多个不同的功能模块，如下图所示：

2020-03-25

1.6K0

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态