腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
Hadoop实操
专注Apache Hadoop,CDH和HDP的实操,如安装部署,安全配置,排障过程,经验分享,性能
专栏作者
举报
964
文章
2344957
阅读量
704
订阅数
订阅专栏
申请加入专栏
全部文章(964)
hive(207)
其他(200)
github(175)
专用宿主机(165)
hadoop(161)
大数据(141)
kerberos(120)
sql(115)
https(99)
数据库(98)
spark(95)
apache(66)
git(56)
hbase(54)
node.js(53)
云数据库 SQL Server(52)
java(49)
yarn(49)
api(46)
开源(45)
kafka(38)
python(35)
parcel(34)
http(31)
编程算法(30)
TDSQL MySQL 版(29)
网络安全(28)
jdbc(26)
访问管理(25)
存储(25)
xml(23)
腾讯云测试服务(23)
shell(22)
linux(21)
jdk(21)
bash(20)
lucene/solr(17)
bash 指令(17)
ssh(17)
mapreduce(15)
dns(15)
网站(14)
负载均衡(13)
html(13)
打包(13)
jar(13)
windows(13)
postgresql(12)
负载均衡缓存(12)
zookeeper(12)
文件存储(11)
tcp/ip(11)
安全(11)
oracle(9)
容器(9)
flink(9)
机器学习(8)
json(8)
windows server(8)
nginx(8)
容器镜像服务(8)
人工智能(7)
数据分析(7)
DNS 解析 DNSPod(6)
javascript(6)
深度学习(6)
云推荐引擎(6)
kubernetes(6)
数据迁移(6)
数据(6)
SSL 证书(5)
企业(5)
缓存(5)
erp(5)
anaconda(5)
数据处理(5)
tensorflow(4)
scala(4)
maven(4)
神经网络(4)
分布式(4)
jvm(4)
面向对象编程(4)
unity(4)
rpc(4)
ntp(4)
单片机(3)
嵌入式(3)
access(3)
ide(3)
unix(3)
数据备份(3)
yum(3)
微信(3)
c++(2)
jquery(2)
全文检索(2)
批量计算(2)
云数据库 MySQL(2)
ftp(2)
物联网(2)
sas(2)
nat(2)
腾讯云开发者社区(2)
云数据库 postgresql(2)
云计算(2)
Elasticsearch Service(2)
impala(2)
session(2)
服务(2)
配置(2)
同步(2)
云服务器(1)
官方文档(1)
ios(1)
c 语言(1)
php(1)
go(1)
actionscript(1)
css(1)
android(1)
nosql(1)
mvc(1)
flask(1)
eclipse(1)
搜索引擎(1)
ubuntu(1)
centos(1)
apt-get(1)
spring(1)
归档存储(1)
云数据库 MongoDB(1)
数据库一体机 TData(1)
消息队列 CMQ 版(1)
数据加密服务(1)
流量服务(1)
mongodb(1)
vr 视频解决方案(1)
express(1)
devops(1)
自动化(1)
运维(1)
html5(1)
决策树(1)
npm(1)
grep(1)
jenkins(1)
spring cloud(1)
socket编程(1)
数据可视化(1)
微服务(1)
nest(1)
任务调度(1)
密钥管理服务(1)
jupyter notebook(1)
分类算法(1)
ascii(1)
ipv6(1)
迁移(1)
负载测试(1)
智能客服机器人(1)
数据湖(1)
add(1)
client(1)
cloud(1)
com(1)
daemon(1)
datasource(1)
exit(1)
grafana(1)
h2(1)
hana(1)
host(1)
io(1)
kill(1)
ldap(1)
monitoring(1)
mysql(1)
openldap(1)
private(1)
project(1)
queue(1)
replication(1)
sap(1)
status(1)
visualization(1)
window(1)
worker(1)
部署(1)
测试(1)
集群(1)
脚本(1)
连接(1)
内存(1)
生命周期(1)
异常(1)
优化(1)
主机(1)
标签(1)
搜索文章
搜索
搜索
关闭
0910-Apache Hive 4.x与Iceberg分支和标签
apache
hive
生命周期
数据
标签
对于复杂的快照生命周期管理,Iceberg支持分支(branch)和标签(tag),这些分支和标签是对具有自己独立生命周期的快照的命名引用,此生命周期由分支和标签级别保留策略控制。分支是快照的独立谱系(lineage),指向谱系的头部。
Fayson
2023-11-16
367
0
Apache Impala 4.0技术揭秘与最新进展
hadoop
hive
html
sql
apache
展开 !function(){"use strict";var e=function(e,a){function t(e,a){var t=e.match(new RegExp(a+"\\s*
Fayson
2022-05-05
582
0
0874-7.1.7-如何在CDP集群为Spark3集成Iceberg
hive
spark
shell
缓存
apache
1.文档编写目的 Iceberg是一种开放的数据湖表格式,您可以借助Iceberg快速地在HDFS上构建自己的数据湖存储服务,并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。本篇文章主要介绍如何在Apache Spark3环境下集成Iceberg并使用,Iceberg使用Apache Spark的DataSourceV2 API来实现Data Source和Catalog。Spark DSv2是一个不断更新迭代的API,在不同的Spark版本中支持的程度也不
Fayson
2022-04-08
1.5K
0
0873-7.1.7-如何在CDP集群中安装Spark3
jdk
spark
parcel
apache
hive
1.文档编写目的 在早些时间Cloudera已正式的发布CDS3《0814-基于CDP7.1.3的Spark3.0正式发布》。在CDP私有云基础上,Spark3服务与现有的Spark2服务共存,两个服务的配置不冲突,可以共用共一个Yarn服务。Spark History服务的端口是Saprk2的18088和Spark3的18089。CDS3.2在支持GPU的同时,也引入了RAPIDS Accelerator for Apache Spark来加速CDP集群上Apache Spark3的性能。本篇文章主要介绍
Fayson
2022-04-08
2.2K
1
0870-CDP公有云发布Iceberg技术预览版
hive
apache
spark
sql
python
在过去的十年中,我们的客户成功部署的大规模数据集群已成为推动需求的大数据飞轮,它可以引入更多的数据,应用更复杂的分析,并成就了从业务分析师到数据科学家的许多新数据从业者。这种前所未有的大数据工作负载并非没有挑战。数据架构层就是这样一个领域,不断增长的数据集已经突破了可扩展性和性能的极限。数据爆炸必须用新的解决方案来应对,这就是为什么我们很高兴在Cloudera Data Platform (CDP)引入专为大规模数据集设计的下一代表格式(table format) - Apache Iceberg。今天,我
Fayson
2022-03-04
801
0
0863-如何使用Docker在Windows下快速构建Impala4.0环境
容器镜像服务
容器
腾讯云测试服务
shell
apache
历经15个月,Apache Impala 4.0终于发布了!本次发布一共包含700多个JIRA,新增了很多特性,包括但不限于:
Fayson
2021-10-11
1.5K
0
0836-Apache Druid on HDP
apache
hive
存储
数据库
sql
Apache Druid是一个分布式的、面向列的、实时分析数据库,旨在快速获取大量数据并将其编入索引,并对大型数据集进行快速的切片和切分分析(“OLAP查询),常用于实时摄取、快速查询和对时间依赖性很高的数据库用户。因此,Druid可以为可视化的分析应用程序提供强力的数据源支持,或用作需要快速聚合的高并发API的后端。Druid最适合面向事件的数据。
Fayson
2021-04-30
1.2K
0
CDP Private Cloud Base 7.1.5正式GA
tcp/ip
hive
apache
大数据
1.对一部分平台组件的FIPS 140-2合规性支持,通过使用FIPS 140-2验证的加密模块,并在启用了FIPS模式的Redhat和CentOS操作系统上进行部署,现在可以配置CDP Private Cloud Base组件使用符合FIPS的加密技术;
Fayson
2021-04-19
670
0
基于Apache Spark 3.1.1的CDS 3.1正式GA
spark
apache
https
网络安全
基于Apache Spark 3.1.1的CDS 3.1在CDP Private Cloud Base 7.1.6上正式发布,这是CDS 3的小版本更新发布,主要改进包括:
Fayson
2021-04-19
743
0
0815-CML中的模型共享和MLOps简介
机器学习
apache
深度学习
神经网络
人工智能
如今机器学习(ML)的应用门槛大大降低,在许多组织许多项目中的使用越来越普遍。但是在模型投产之后,仍会有许多意想不到的挑战。许多企业已成功地将最初的少数模型投入生产,但仍然在努力简化、扩展和优化模型的部署和管控方式,从而在其业务的每个单元中服务于数量越来越多的机器学习场景和用例。事实证明,机器学习最困难的部分实际上不是开始的建模和训练,而是最后一公里:在生产应用程序中有效部署、操作和管控机器学习模型。这最后一公里的挑战可分为三大类:
Fayson
2020-11-03
796
0
0809-7.1.3-Ranger页面功能介绍
apache
hive
linux
access
hbase
《0801-什么是Apache Ranger - 4 - Resource vs Tag Based Policies》
Fayson
2020-09-04
1.7K
0
0803-什么是Apache Ranger - 5 - Hive Plugin
kafka
apache
大数据
lucene/solr
hive
《0800-什么是Apache Ranger - 4 - Resource vs Tag Based Policies》
Fayson
2020-08-20
1.3K
0
0802-Cloudera Data Center7.1.3正式GA
apache
hive
大数据
yarn
api
CDP Data Center是CDP(Cloudera Data Platform)的on-premise版本。这个新产品结合了Cloudera EDH和HDP两者的优点包括新功能或增强功能。该发行版是一个可扩展和可定制的平台,你可以在之上运行多种类型的工作负载。
Fayson
2020-08-20
1.1K
0
0801-什么是Apache Ranger - 4 - Resource vs Tag Based Policies
大数据
hive
apache
在前面的文章中,我们介绍了为什么Ranger会替代Sentry,Ranger的基础架构以及2.0引入的新功能安全区域(Security Zone)功能。本文主要是通过一些例子介绍基于标签的策略和基于资源的策略的区别。
Fayson
2020-08-20
1.6K
0
5.16.2-如何在CDH中安装ElasticSearch
jquery
Elasticsearch Service
parcel
http
apache
1.将csd文件ELK-YX-20200617-1.0-SNAPSHOT.jar放置在cloudera-scm-server服务的csd目录下
Fayson
2020-08-03
2K
1
0784-CDP安全管理工具介绍
apache
网站
linux
访问管理
数据库
本文档描述如何使用多种安全管理工具来保护CDP环境。重点介绍安全管理工具与CDP环境之间的集成点,但不会探讨这些工具的核心功能。
Fayson
2020-06-19
1.8K
0
0773-1.7.2-CDSW1.7的新功能
编程算法
apache
数据分析
Cloudera Data Science Workbench仅支持从版本1.5.x和1.6.x升级到版本1.7.1。如果使用的是CDSW的早期版本,则必须首先升级到1.5.x或1.6.x版,然后再升级到1.7.1版。
Fayson
2020-05-25
1.2K
0
0770-Apache YuniKorn (Incubating) 0.8发布
apache
spark
大数据
flink
kubernetes
Apache YuniKorn(Incubating)是一个独立的资源调度程序,旨在将针对大数据工作负载的高级调度功能引入容器化平台。具体可以参考前面的文章《YuniKorn:一个通用的资源调度程序》。
Fayson
2020-05-20
1.2K
0
0767-Hive ACID vs. Delta Lake
hive
spark
开源
apache
数据湖
Qubole现在支持对存储在Cloud数据湖中的数据进行高效的Update和Delete。用户可以对开启了事务的Hive表进行insert,update和delete,并通过Apache Spark或Presto进行查询。使用Apache Spark或Presto操作Hive的事务表功能,我们已将其开源,我们对于更多引擎支持update和delete的工作也在进行中,这块同样也会开源。
Fayson
2020-05-20
1.9K
0
0755-如何使用Cloudera Edge Management
apache
大数据
java
kafka
数据库
Cloudera Data Flow(CDF)作为Cloudera一个独立的产品单元,围绕着实时数据采集,实时数据处理和实时数据分析有多个不同的功能模块,如下图所示:
Fayson
2020-03-25
1.6K
0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档