腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
腾讯云架构师技术同盟
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
腾讯云架构师技术同盟
返回腾讯云官网
Hadoop实操
专注Apache Hadoop,CDH和HDP的实操,如安装部署,安全配置,排障过程,经验分享,性能
专栏成员
举报
974
文章
2485487
阅读量
709
订阅数
订阅专栏
申请加入专栏
全部文章(974)
hive(209)
其他(200)
github(175)
专用宿主机(165)
hadoop(161)
大数据(141)
kerberos(120)
sql(115)
https(99)
数据库(98)
spark(96)
apache(70)
git(56)
hbase(54)
node.js(53)
云数据库 SQL Server(52)
java(49)
yarn(49)
开源(47)
api(46)
kafka(38)
python(35)
parcel(34)
http(31)
编程算法(30)
TDSQL MySQL 版(29)
存储(29)
网络安全(28)
jdbc(26)
访问管理(25)
xml(23)
腾讯云测试服务(23)
shell(22)
linux(21)
jdk(21)
bash(20)
lucene/solr(17)
bash 指令(17)
ssh(17)
mapreduce(15)
dns(15)
网站(14)
负载均衡(13)
html(13)
打包(13)
jar(13)
安全(13)
windows(13)
postgresql(12)
负载均衡缓存(12)
zookeeper(12)
文件存储(11)
tcp/ip(11)
数据(11)
容器(10)
oracle(9)
flink(9)
机器学习(8)
json(8)
windows server(8)
nginx(8)
容器镜像服务(8)
人工智能(7)
数据分析(7)
DNS 解析 DNSPod(6)
javascript(6)
深度学习(6)
云推荐引擎(6)
kubernetes(6)
数据迁移(6)
SSL 证书(5)
企业(5)
缓存(5)
erp(5)
anaconda(5)
数据处理(5)
tensorflow(4)
scala(4)
maven(4)
神经网络(4)
分布式(4)
jvm(4)
面向对象编程(4)
unity(4)
rpc(4)
ntp(4)
配置(4)
单片机(3)
嵌入式(3)
access(3)
ide(3)
unix(3)
数据备份(3)
yum(3)
微信(3)
c++(2)
jquery(2)
全文检索(2)
批量计算(2)
云数据库 MySQL(2)
ftp(2)
物联网(2)
sas(2)
nat(2)
腾讯云开发者社区(2)
云数据库 postgresql(2)
云计算(2)
Elasticsearch Service(2)
impala(2)
session(2)
string(2)
对象(2)
服务(2)
集群(2)
接口(2)
客户端(2)
内存(2)
同步(2)
文件系统(2)
云服务器(1)
官方文档(1)
ios(1)
c 语言(1)
php(1)
go(1)
actionscript(1)
css(1)
android(1)
nosql(1)
mvc(1)
flask(1)
eclipse(1)
搜索引擎(1)
ubuntu(1)
centos(1)
apt-get(1)
spring(1)
归档存储(1)
云数据库 MongoDB(1)
数据库一体机 TData(1)
消息队列 CMQ 版(1)
数据加密服务(1)
流量服务(1)
mongodb(1)
vr 视频解决方案(1)
express(1)
devops(1)
自动化(1)
运维(1)
html5(1)
决策树(1)
npm(1)
grep(1)
jenkins(1)
spring cloud(1)
socket编程(1)
数据可视化(1)
微服务(1)
nest(1)
任务调度(1)
密钥管理服务(1)
jupyter notebook(1)
分类算法(1)
ascii(1)
ipv6(1)
迁移(1)
负载测试(1)
智能客服机器人(1)
数据湖(1)
add(1)
client(1)
cloud(1)
com(1)
daemon(1)
databricks(1)
datasource(1)
dfs(1)
eof(1)
exit(1)
gateway(1)
grafana(1)
h2(1)
hana(1)
hdfs(1)
heap(1)
host(1)
io(1)
kill(1)
ldap(1)
monitoring(1)
mysql(1)
openldap(1)
private(1)
project(1)
queue(1)
replication(1)
sap(1)
status(1)
tabular(1)
visualization(1)
window(1)
worker(1)
布局(1)
部署(1)
测试(1)
队列(1)
管理(1)
架构(1)
脚本(1)
开发(1)
连接(1)
命令行(1)
生命周期(1)
协议(1)
性能(1)
异常(1)
优化(1)
主机(1)
标签(1)
搜索文章
搜索
搜索
关闭
0927-Databricks X Tabular
databricks
tabular
开发
数据
开源
Databricks 已同意收购由 Apache Iceberg 创建者领导的存储平台供应商 Tabular,以促进 Lakehouse 中的数据互操作性。
Fayson
2024-06-07
221
0
0926-Apache Iceberg的开源Catalog - Polaris Catalog
协议
apache
开源
安全
数据
开源的文件和表格式因其互操作性潜力而引起了数据行业的极大兴趣,它使许多技术能够安全地在单个数据副本上操作。更高的互操作性不仅可以降低使用多种工具和处理引擎带来的复杂性和成本,还可以防止被供应商锁定。
Fayson
2024-06-06
549
0
0925-规划NameNode的heap
内存
存储
heap
对象
集群
所有 Hadoop 进程都在 Java 虚拟机 (JVM) 上运行,每个守护进程都在集群中主机自己的 JVM 上运行。一般来说,生产集群的HDFS会配置NameNode HA,即有两个NameNode角色,每个NameNode都使用自己的JVM。NameNode JVM的heap预估是个技术活,本文主要介绍相关知识,另外NameNode的heap使用主要来源HDFS中目录,文件和block数量,为了HDFS的稳定和最佳性能,一般建议HDFS中的文件数不要超过3亿。
Fayson
2024-05-27
264
0
0924-Hive on Tez性能调优
hive
队列
配置
性能
容器
调优Hive on Tez查询没有一个通用的方法,查询的性能取决于数据的大小、文件类型、查询设计和查询模式。在做性能测试的时候,我们一般是通过调整配置参数或改写SQL来进行性能调优,建议在做测试的时候每次只进行一项更改,这样方便确认是哪个参数生效。
Fayson
2024-05-18
821
0
0923-7.1.9-使用S3 Gateway访问Ozone
dfs
gateway
string
配置
存储
1.要访问不在 /s3v 卷下的已有bucket,我们可以在/s3v卷中创建symlink
Fayson
2024-05-09
231
0
0922-7.1.9-使用Spark和Hive访问Ozone
spark
hive
eof
string
数据
Fayson
2024-05-09
214
0
0921-7.1.9-bucket布局和从HDFS拷贝数据到Ozone
接口
数据
文件系统
hdfs
布局
4.使用ozone fs -cp命令复制文件的速度非常慢,因为只有一个客户端会在系统之间下载和上传文件。为了提升性能,需要让集群通过多个服务器并行地将文件直接从源移动到目标。
Fayson
2024-04-30
189
0
0920-7.1.9-Apache Ozone命令行简介
接口
命令行
文件系统
apache
存储
Ozone 客户端可以将 Ozone 作为文件系统和key-value存储进行访问,当 Ozone 与 HDFS 依赖项一起安装时,Ozone支持HDFS客户端命令,如hdfs dfs,如果ozone不是defaultfs,需要指定URI路径。
Fayson
2024-04-30
238
0
0919-Apache Ozone安全架构
apache
安全
对象
架构
客户端
身份认证是 Ozone 组件识别用户身份的过程,Apache Ozone支持使用Kerberos和security tokens的强身份认证。
Fayson
2024-04-30
236
1
0918-Apache Ozone简介
存储
管理
客户端
数据
apache
Ozone 是 Hadoop 的分布式对象存储系统,具有易扩展和冗余存储的特点。Ozone 不仅能存储数十亿个不同大小的对象,还支持在容器化环境(比如 Kubernetes)中运行。Apache Spark、Hive 和 YARN 等应用无需任何修改即可使用 Ozone。Ozone 提供了 Java API、S3 接口和命令行接口,极大地方便了 Ozone 在不同应用场景下的使用。
Fayson
2024-04-30
785
0
0917-7.1.9-如何在CDP中使用H2安装YARN Queue Manager
数据库
yarn
h2
queue
服务
CDP中的YARN Queue Manager是一个单独的服务,用来管理Capacity Scheduler配置,同时包含一个UI界面方便Hadoop管理员在全局或者队列级别创建、配置和管理YARN队列。在CDP Base 7.1.8之前YARN Queue Manager一直使用内置的H2内存数据库,安装比较简单,但是在CDP Base 7.1.9和7.1.9 CHF1这两个版本中,用户必须将YARN Queue Manager配置到一个外部的PostgreSQL数据库,给用户带来了困惑和不方便,尤其对于想要从CDP Base 7.1.7升级上来的用户。Cloudera在7.1.9 CHF2紧急修复了该问题,让YARN Queue Manager的安装与以前一致。但在实际安装过程中还有一些限制,本文主要介绍如何在CDP Base 7.1.9 CHF2+版本中继续使用H2内置数据库。
Fayson
2024-04-12
272
0
0916-5.16.2-如何将Hive元数据库从外部PostgreSQL转换到MySQL
postgresql
hive
mysql
数据
数据库
2.停止Hive服务,在配置中搜索“database”,修改数据库配置到MySQL库
Fayson
2024-04-11
186
0
0915-7.1.7-Kafka Connectors for SAP HANA测试
数据
kafka
hana
sap
测试
Kafka原生没有提供SAP HANA的Connector,GitHub开源项目Kafka Connectors for SAP提供了kafka与SAP之间的Connector,可实现定时全量或增量的拉取SAP HANA数据发送到Kafka。详细信息,参考GitHub:https://github.com/SAP/kafka-connect-sap/tree/master
Fayson
2024-04-10
327
0
0914-7.1.7-如何用Doris创建Hive和Iceberg Catalog
数据库
hive
连接
数据
异常
Doris支持多源数据目录(Multi-Catalog)功能,旨在能够更方便对接外部数据目录,以增强Doris的数据湖分析和联邦数据查询能力。Multi-Catalog 功能在原有的元数据层级上,新增一层Catalog,构成 Catalog -> Database -> Table 的三层元数据层级。其中,Catalog 可以直接对应到外部数据目录。目前支持的外部数据目录包括:Apache Hive, Apache Iceberg 以及标准的JDBC接口(如MySQL)等
Fayson
2024-04-10
1K
0
0913-7.7.1-Replication Manager使用优化
配置
数据
同步
优化
replication
在当前CDP的大部分的场景中,PART_COL_STATS和TAB_COL_STATS这两张Hive元数据表都会比较大。因为这两张表是分别存放分区表和非分区表的一些字段上的统计信息,而在CDP中Hive的CBO、Mapjoin和谓词下推等优化查询功能默认是开启的,而这些优化功能又需要基于这些统计信息来做优化,所以在一个已经稳定运行的生产环境中,对应的这两张表可能有非常庞大的数据量(上千万甚至于上亿)。
Fayson
2024-03-05
172
0
0912-7.1.7-Impala同一查询耗时差距过大问题分析
impala
服务
内存
配置
主机
本文档主要描述在日常业务业务查询过程中,元数据以及统计信息一切正常的情况下,发现同一SQL,在impala中查询kudu表,有时跑3~5秒,有时跑13多秒的情况分析过程和解决方式。
Fayson
2023-12-11
318
0
0911-7.1.7-如何在CDP集群使用Flink SQL Client并与Hive集成
sql
hive
flink
client
集群
在前面Fayson介绍了《0876-7.1.7-如何在CDP中部署Flink1.14》,同时Flink也提供了SQL Client的能力,可以通过一种简单的方式来编写、调试和提交程序到Flink集群,而无需编写一行Java或Scala代码。本篇文章主要介绍如何在CDP集群中使用Flink SQL Client与Hive集成。Flink与Hive的集成,主要有如下两个目的:
Fayson
2023-12-04
572
0
0910-Apache Hive 4.x与Iceberg分支和标签
apache
hive
生命周期
数据
标签
对于复杂的快照生命周期管理,Iceberg支持分支(branch)和标签(tag),这些分支和标签是对具有自己独立生命周期的快照的命名引用,此生命周期由分支和标签级别保留策略控制。分支是快照的独立谱系(lineage),指向谱系的头部。
Fayson
2023-11-16
711
0
0908-CDP Private Cloud Base 7.1.9正式GA
安全
cloud
private
部署
数据
八月再见,九月你好,今天是九月八日,新学年开始,Cloudera正式发布CDP Base 7.1.9和Cloudera Manager 7.11.3。此版本首次在CDP PvC Base上引入强大的Open Data Lakehouse分析功能,同时它和CDP Base 7.1.7一样,也是一个长期支持版本(long-term release, LTS),EOS的时间为2027年九月。
Fayson
2023-09-20
662
0
0901-安装Python3.8
数据库
anaconda
sql
云数据库 SQL Server
parcel
CDP7.1.8及更高版本中Hue使用Python3环境,因此必须在集群的所有节点安装Python3.8。同时还必须为PostgreSQL、MySQL或MariaDB数据库安装相应的驱动包,确保Hue通过驱动包可以正常的访问数据库,如下操作步骤主要基于CentOS7版本:
Fayson
2022-12-14
890
0
点击加载更多
社区活动
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档